Google I/O 2019:AI 往實(shí)用性的道路前行,少了黑科技依舊精彩

Google 發(fā)布 Translatotron 翻譯系統(tǒng),支持語音直接翻語音
未來的 Google 翻譯能模仿你的說話特征
隨著機(jī)器學(xué)習(xí)和 AI 技術(shù)的發(fā)展,機(jī)器翻譯得到了快速的發(fā)展,在很多的場景下,我們都可以看到機(jī)器語音翻譯的應(yīng)用。在現(xiàn)階段,語音翻譯系統(tǒng)在實(shí)現(xiàn)翻譯時(shí)大致需要三個(gè)步驟:
1、自動(dòng)語音識(shí)別,將語音轉(zhuǎn)錄為文本
2、通過機(jī)器翻譯,將文本翻譯成另一種語言的文本
3、將文本再生成翻譯后的語音(TTS)
不過,Google AI 最新的論文顯示,Google 正嘗試將這三步中的文本翻譯去掉——日前,Google AI 官方博客提出了一個(gè)實(shí)驗(yàn)性質(zhì)的新系統(tǒng) 「Translatotron」,這一系統(tǒng)可實(shí)現(xiàn)使用序列到序列模型的直接語音翻譯,是首個(gè)能夠直接將一種語言的語音內(nèi)容直接翻譯成另一種語言的語音版本,而中間不需要文本轉(zhuǎn)化的端到端模型。得益于此,Translatotron 可以實(shí)現(xiàn)更快的翻譯速度,還能降低機(jī)器轉(zhuǎn)譯出現(xiàn)的錯(cuò)誤。
Translatotron 系統(tǒng)能夠在翻譯時(shí)將說話者的語音使用頻譜圖作為輸入,再配合神經(jīng)聲碼器和揚(yáng)聲器編碼器的切入進(jìn)行編碼處理,最終以目標(biāo)語言生成新的頻譜圖,實(shí)現(xiàn)語音到語音的翻譯轉(zhuǎn)換輸出。

并且,揚(yáng)聲器編碼器可以在預(yù)先進(jìn)行一些簡單的對話訓(xùn)練,并在訓(xùn)練中針對說話者的聲音特征進(jìn)行編碼。通過學(xué)習(xí)之后,再調(diào)節(jié)新的頻譜圖解碼器,這樣就可以使合成后的語音能夠保留一些說話者的聲音特征,就算是不同的語言也都可以實(shí)現(xiàn)特征保留。
雖然最終的語音聽起來會(huì)有些機(jī)器人的感覺,不過也算是在實(shí)現(xiàn)真正的「同聲」傳譯之路上邁進(jìn)一大步了。
Google 表示,Translatotron 系統(tǒng)的推進(jìn)將是未來語音轉(zhuǎn)語音翻譯系統(tǒng)的新起點(diǎn)。