何止 Meta x Oakley,小米等十家 AI 拍攝眼鏡上新!下半年好看!

Google 開放基于 DeepMind's AI 的 TTS 服務,接入后你的設備也能像人類一樣自然的說話
可覆蓋 12 種語言,32 種方言口音。
3 月 27 日,Google 宣布推出一款新的 AI 語音 TTS 服務,作為其機器學習云工具套件的一部分。這項服務被命名為「Cloud Text-to-Speech」,任何開發者或者企業可購買服務。
Google 表示,這項新服務可提供 12 種語言、32 種不同版本的語音選擇,并支持多種音頻格式,包括 MP3 和 WAV。此外,開發人員還可以根據需求,自定義音調、語速和音量增益等要素。
基于 WaveNet 神經網絡,與自然人聲交互相似度高達 70%
有趣的是,Cloud Text-to-Speech 中包含許多使用 WaveNet 構建的高保真聲音。WaveNets 是由 Google 旗下子公司 DeepMind 實驗室研發的一種卷積神經網絡,基于 WaveNets 神經網絡,能使得機器模擬生成的語音更為自然,與人類聲音之間的相似度能提高到 70% 以上。

在 2016 年末,DeepMind 推出 WaveNet 的第一個版本,當時在實驗室環境之外的應用效果還十分生硬,在此之后的一年半里 ,Google Speech 團隊一直在大力投資,并與 DeepMind 緊密合作來將 WaveNet 模型產品化。
去年 10 月,WaveNet 首次被整合到 Google Assistant 中(盡管只有英語和日文兩個版本),其自然環境下合成的語音效果已經有了巨大的改善,現在則可以應用于 Cloud Text-to-Speech 中。
最新版本 WaveNet 模型運行于 Google 云端 TPU 基礎架構之上,生成的原始波形比原始版本快 1000 倍,并且可實現在 50ms 內生成 1s 的語音內容。

「WaveNet 具備一個巨大的人類語音數據庫,WaveNet 能將采樣速率從 8 位提高到 16 位,能在 1s 時間內創建出 24000 個樣本波形,高度再現出包括唇音、喉音在內的聲音細節,以達到更加人性化的高保真人聲效果。」Google Cloud AI 的產品經理 Dan Aharon 在博客中寫到。
開發者可應用于電視、汽車、機器人等 IoT 設備,對 Google 意義重大
據 Dan Aharon 介紹,開發者可以通過多種方式應用 Cloud Text-to-Speech,例如:
- 嵌入智能電視、汽車、機器人、智能音箱地等 IoT 設備;
- 打造自然人聲對話系統,為公司提供語音服務系統(IVR);
- 將基于文本的內容資源(如新聞、書籍)轉換為語音格式(例如電臺廣播或有聲讀物);
據外媒評論,這一動作無疑對于 Google 是意義重大的,具體原因體現在以下兩個方面:
首先,自 Google 于 2014 年收購 DeepMind 起,就一直在嘗試如何將 Deepmind 的 AI 技術轉化為可落地商業化的產品。到目前為止 ,DeepMind 的算法已經被應用在 Google 數據中心,并能夠為之減少 40% 的演算成本;此外 Deepmind 的 AI 技術還被應用在了健康領域。更重要的是,此次直接將 WaveNet 整合進 Google 的云業務中,將賦予 Google Cloud 以 AI 為其獨特要素,并依此贏得亞馬遜與微軟的云業務。

其次,Deepmind 的 AI 語音 TTS 技術已經是目前業內技術最為先進、商用最為成熟的技術之一。大多數語音合成器(包括蘋果的 Siri),都是使用所謂的拼接式合成,程序會以單個音節的形式進行處理存儲,例如「ba」「sht」「oo」,然后將它們按照特定的語法拼接起來形成單詞與句子。盡管這種方法的應用已經相當成熟,但在聽覺體驗上依然不夠自然。
相比之下,Cloud Text-to-Speech 被認為是世界范圍內最優秀的 TTS 系統,其提供的基于 WaveNet 卷積網絡模型合成的人聲,比標準(非 WaveNet)聲音的 MOS 好 20% 以上,與人類聲音的相似度超過 70 %,在世界范圍內被認為是最優秀的 TTS 系統。
目前 Cloud Text-to-Speech 已經向個人開發者及企業開放,詳細的操作指南及定價均已在 Google Cloud 官方博客開放。(作者:談哲@深圳灣)