何止 Meta x Oakley,小米等十家 AI 拍攝眼鏡上新!下半年好看!

這家公司的技術能「竊取」你的聲音,未來科技還是招搖撞騙?
嗯,聽上去充滿濃郁的民科味兒……
語音合成,指的是通過人工方法合成人聲的技術,這種技術現在已經比較成熟,特別是今年以來,語音作為交互與人工智能結合受到了更多的重視,語音合成技術也接連取得突破。
雖然「制造」人聲已經不是什么難事,但要讓人為合成的聲音聽起來更像真人卻還有很長一段路要走。來自舊金山的一支初創團隊 BabelOn 打算在語音合成領域做一些微小的工作——讓你能直接把自己的聲音「翻譯」為其他語言,效果就像你本人在用八門外語談笑風生一樣。
BabelOn 的技術需要采集用戶的聲音信息,用戶要在 BabelOn 的錄音室里花大概 20 分鐘的時間,用各種不同的情緒語氣朗讀特定的文本,用來創建語言信息檔案(BabelOn Language Information Profile, BLIP),此后,基于這份人聲檔案,BabelOn 就能合成出與本人嗓音高度一致的人聲。
這似乎跟已有的語音合成方法沒什么兩樣,例如某導航 App 上人人都愛的林志玲導航語音包,就是通過這種本人聲音素材采集+算法合成的方式重現志玲阿姨性感嗓音的。但 BLIP 檔案包含的不僅僅是人的聲音樣本,BabelOn 聯合創始人 Daisy Hamilton 將人的身體比喻為樂器,在建立 BLIP 檔案時,BabelOn 專門的采集終端會捕捉和分析各種影響和構成人聲的因素,例如說話時氣息、嘴部的運動、聲音在胸腔和喉嚨的傳播等等,將這些因素加以量化,形成包含多個維度的聲音檔案。有了所有這些發聲要素的信息,BabelOn 幾乎等于構建了一個能夠重現用戶聲音的虛擬的發聲系統。
聽上去簡直科幻不是嗎,一旦建成這樣一份檔案,就相當于給人復制了一張萬能的虛擬嘴巴,語音翻譯似乎是最不起眼的應用方向。
不過,像大多數最終效果聽上去很科幻的技術一樣,BabelOn 的技術也還處在十分初級的階段,早在 2004 年,Hamilton 的父輩就看到了類似技術在電影配音行業中的前景,并申請了 BabelOn 背后核心技術的專利。BabelOn 技術的初期的應用方向,也將主要在電影和游戲的配音上。基于人聲檔案,BabelOn 可以用演員本人的聲音合成多種語言的臺詞,同時賦予聲音劇本需要的情感和語氣變化,相比請多個語種的配音演員,BabelOn 能夠大大提高配音效率,同時減少人工成本。未來,BabelOn 希望能夠實現實時的語音翻譯。
當外媒關注到 BabelOn 的技術時,首先擔心的是一個能夠完全復制人聲音的系統所帶來的潛在安全問題,但這可能是 BabelOn 目前最不需要擔心的問題。
BabelOn 技術的關鍵,在于將各種的影響和構成人聲的參數盡可能完整地納入模型當中,但這一設想本身可能就過于理想化了。把人比作「樂器」的比喻或許沒錯,但這是一臺極其復雜的樂器,一種語言中的某個舌音在另一種語言中根本不存在的情況比比皆是,要根據有限樣本模擬這個充滿變量的發聲系統,并應用到其他語言的發音中,這是與傳統的語音合成不同的實現理念。

但在實際合成語音的過程中,BabelOn 又不可避免地仍需借用現有的語音合成相關技術,早在 2004 年 BabelOn 技術沒能實現的原因就是「周邊技術的限制」,那么現在,BabelOn 在語音合成最基本的可理解度和自然度上,是否就能超越現有的語音合成技術了呢?
BabelOn 表示,他們用于人聲信息采集的硬件終端是與美國勞倫斯利弗莫爾國家實驗室合作開發的,據稱改裝自美國國防部用于其他用途的設備。此外關于軟件和硬件的相關信息,BabelOn 再沒有透露更多。
最后,BabelOn 的這樣一項初期明顯面向 B 端市場的技術,很奇怪地選擇了登錄 Indiegogo 展開眾籌,Hamilton 表示,他們只是希望通過 Indiagogo 將 BabelOn 介紹給全世界,同時獲得申請軟件許可的啟動資金。
嗯,雖然聽上去還是充滿濃郁的民科味兒,但還是象征性地表示一下期待吧。