百度度秘與海爾、美的達成戰略合作,還會怎樣為智能語音產品化鋪路?丨AWE 2017

從實時語音合成到上百種口音的進階,百度 Deep Voice 2 模仿人聲的能力更強了
Google 你怕不怕?
在與機器進行語音交談時,人們都更傾向于希望機器的聲音有一定的語調和情感,這樣比起那些機械、一字一頓的機器聲更受歡迎。主要還是因為讓人感覺「我在跟一個人說話」。
在業界,要達到這一效果,通常有兩種解決方案:一是拼接式語音合成(Concatenative Synthesis),先錄制單個說話者的大量語音片段,形成一定規模的語料庫,接著從中提取特征以完成相應的語段音頻。二是參數化的方法,利用數學模型對已知的聲音進行排列、組裝成詞語或句子來重新創造音頻。
相比拼接式的語音合成,參數化方法所形成的語音片段更自然,但兩種方法都是對語音進行機械式的拼接,且其中還需要經過多道復雜的程序才得以完成,稱得上是一項大型工程。日常的語音導航系統就是依靠這樣的方法進行語音、語調的合成。
在百度位于美國硅谷的人工智能實驗室(AI Lab),除了自動駕駛技術之外,他們還有一項重要的研究項目—— Deep Voice,該項目組主要致力于人工智能語音技術研發。
在今年 3 月份,該研究部門首次向外界推出了 Deep Voice(深度語音系統),該系統是一個完全由深度神經網絡構建的語音轉文本(TTS,Text-to-Speech)系統,最大的亮點在于能實時合成人工語音。
Deep Voice 仿照傳統文字轉語音的途徑,采用相似的結構,替換上相應的組件。其實現主要依靠由深度學習網絡搭建成的語音合成神經網絡系統(Real-Time Neural Text-to-Speech for Production)對所采集的數據集、語音進行提煉,進一步生成新的音頻。在這一過程中,無需進行數據注釋等任何手動工作,大大簡化了語音合成流程且有高品質效果。(論文地址:https://arxiv.org/pdf/1702.07825.pdf)

近日,在時隔不到 3 個月的時間,百度 Deep Voice 發布了最新的研究成果并推出 Deep Voice 2。Deep Voice 2 的主要更新在于,可實時合成上百種口音的音頻,而上一代的系統僅能合成一個人聲。(百度官方提供了多個示例樣本:http://research.baidu.com/deep-voice-2-multi-speaker-neural-text-speech/)
在該系統中,機器完成每個口音模仿的學習僅需半小時的時間,同樣的,在這個語音合成的過程中,并不需要任何的人工調整。相比上一代,Deep Voice 2 的運行速度快了好幾倍。
與上一代的運行思路不同的是,在形成多個口音音頻的過程中,Deep Voice 2 通過數百個人聲樣本中提取數據、特征,建立一個音頻模型,語音合成神經網絡根據這些模型進行調整以設計出不同特征的聲音。

對于 Deep Voice 2 的意義,百度官方表示,其在個人語音助理、電子閱讀器等應用中有非常大的想象空間,如為個人提供不同音色的文本朗讀。
類似的,Google 旗下 DeepMind 深度學習實驗室早在去年公布了其利用卷積神經網絡(convolutional neural networks)對原始音頻波形(Raw SoundWave)建模的語音合成技術 WaveNet,同樣是一種通過原始語音合成新音頻的技術,且效果也相當接近原音。
通過人類語音訓練過的卷積神經網絡能辨別語音、語言的音頻模式,對 WaveNet 系統輸入新的文本信息后,該系統會根據新的語音特征來生成新的原始音頻波段來讀出這個新的文本信息:

不過,WaveNet 需要對整個的原始音頻波形(Raw SoundWave)進行計算,而每輸出一秒音頻神經網絡必須處理 16000 個樣本,所以其運算量不小。
從技術更新上看,百度比 Google DeepMind 的要走在更前且短時間內實現迅速發展。但兩者的技術均處在實驗室階段,不管是在它們各自的語音操作系統和應用中,還是在硬件接入上,都有著巨大的發揮空間。