Uploads%2farticles%2f11489%2ftimg meitu 2

2017-04-13

從搜狗的語(yǔ)音技術(shù)發(fā)展史中，我們來(lái)看平臺(tái)技術(shù)是如何落地的

你只知搜狗是做搜索起家的，但你知道它在智能語(yǔ)音中做了多少布局嗎？

提起智能語(yǔ)音，大家或多或少會(huì)想到蘋果的 Siri，畢竟整個(gè)行業(yè)由它牽頭帶動(dòng)的，包括后來(lái)亞馬遜的 Alexa，微軟 Cortana，Google Assistant 等，各個(gè)巨頭將智能語(yǔ)音視為了一塊必爭(zhēng)之地，業(yè)界更是將語(yǔ)音定義為下一個(gè)人機(jī)交互的新形式。

在國(guó)內(nèi)，除了百度、科大訊飛以及一些初創(chuàng)公司，我們似乎很少會(huì)提起搜狗這家同樣專注于人工智能語(yǔ)音的公司，甚至有人認(rèn)為智能語(yǔ)音是搜狗向 AI 轉(zhuǎn)型的一大戰(zhàn)略。為此，搜狗 CEO 王小川曾強(qiáng)調(diào)，搜狗雖然以搜索起家，但事實(shí)上它就是一家 AI 公司，并一直致力于讓搜索引擎變得更聰明，其中就包括語(yǔ)音技術(shù)。

搜狗的語(yǔ)音技術(shù)研究始于 2012 年，曾推出語(yǔ)音助手應(yīng)用

從 2012 年開(kāi)始，搜狗就著手語(yǔ)音技術(shù)的研究，并在一年多之后完成深度學(xué)習(xí)技術(shù)的研發(fā)和上線，經(jīng)過(guò)一段時(shí)間的測(cè)試、準(zhǔn)確率對(duì)比后，最終在 2013 年 6 月，接入搜狗包括輸入法、地圖在內(nèi)的全線產(chǎn)品，代替原本所采用第三方公司的技術(shù)。

同時(shí)在這個(gè)過(guò)程中，搜狗于推出了搜狗語(yǔ)音助手，得益于多年來(lái)積累的搜索能力，搜狗語(yǔ)音助手的技術(shù)在短時(shí)間內(nèi)做到了中文業(yè)內(nèi)的領(lǐng)先。但它也面臨著與 Siri 等語(yǔ)音助手相類似的窘境，在手機(jī)端上提供的交互體驗(yàn)并不能讓用戶產(chǎn)生足夠的依賴性，最終導(dǎo)致產(chǎn)品的使用率并不高。

此后，搜狗語(yǔ)音團(tuán)隊(duì)則沒(méi)有對(duì)手機(jī)語(yǔ)音助手做繼續(xù)的研發(fā)和推進(jìn)，但對(duì)智能語(yǔ)音的研究依舊持續(xù)著，并將目標(biāo)聚焦在老本行——搜索上。他們思考著如何利用智能語(yǔ)音讓搜索變得更有效率、且往「更智能化」的方向走。到目前為止，搜狗語(yǔ)音團(tuán)隊(duì)每年都會(huì)將自家的技術(shù)拿到業(yè)界中進(jìn)行對(duì)比測(cè)評(píng)，以了解自身在行業(yè)中所處的實(shí)際位置。

基于前期技術(shù)的積累，敲定搜狗人工智能未來(lái)的方向：自然交互 + 知識(shí)計(jì)算

2016 年 8 月，沉寂許久的搜狗在智能語(yǔ)音中再次有了新動(dòng)作，除了實(shí)現(xiàn)將語(yǔ)音轉(zhuǎn)化成文字的功能，還發(fā)布了語(yǔ)音交互引擎「知音」。同時(shí)，搜狗 CTO 楊洪濤在發(fā)布會(huì)中首次公布搜狗人工智能未來(lái) 8 年工作的主要方向：自然交互 + 知識(shí)計(jì)算，其中，自然交互指的是讓機(jī)器能夠在交互中更懂人，知識(shí)計(jì)算即將網(wǎng)絡(luò)中的海量信息提取出來(lái)，并做進(jìn)一步的運(yùn)算、推理，輔助用戶做更好的決策。

這套由語(yǔ)音識(shí)別、語(yǔ)義理解、知識(shí)圖譜等技術(shù)梳理成一套成體系的「知音」交互引擎，主要是在加固此前搜狗在這方面的技術(shù)、產(chǎn)品積累，并讓其朝高效、更智能化的方向走。

基于深度學(xué)習(xí)平臺(tái)搭建識(shí)別引擎，提高語(yǔ)音識(shí)別效率、實(shí)現(xiàn)實(shí)時(shí)翻譯功能

發(fā)布「知音搜索」后，搜狗則開(kāi)始基于已有的深度學(xué)習(xí)平臺(tái)搭建自己的識(shí)別引擎，一方面依據(jù)人類說(shuō)話的生物特征將每一個(gè)音節(jié)分為獨(dú)立的幀，提高對(duì)靜音的識(shí)別，進(jìn)一步提高語(yǔ)音識(shí)別（將語(yǔ)音轉(zhuǎn)化為文本）的效率；另一方面，在語(yǔ)音識(shí)別的框架下建立聲學(xué)模型，根據(jù)人在發(fā)音時(shí)聲音信號(hào)和錄音信號(hào)波形的對(duì)比，實(shí)現(xiàn)錄音和文字之間的映射。

其中，在語(yǔ)音實(shí)時(shí)翻譯技術(shù)上，搜狗采用基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯技術(shù)，以文本斷句為橋梁，做到用戶在一直說(shuō)話的同時(shí)，系統(tǒng)將輸入的語(yǔ)音進(jìn)行區(qū)分、翻譯，將中、英文短語(yǔ)之間的映射關(guān)系建立起來(lái)，利用語(yǔ)音模型將詞序或語(yǔ)序進(jìn)行調(diào)整，實(shí)現(xiàn)語(yǔ)音翻譯同傳。

搜狗 CEO 王小川在演講現(xiàn)場(chǎng)中展示搜狗語(yǔ)音的實(shí)時(shí)翻譯功能

除了技術(shù)框架的搭建，大量的訓(xùn)練數(shù)據(jù)是確保語(yǔ)音識(shí)別準(zhǔn)確率的基礎(chǔ)，因率先在中文手機(jī)輸入法中搶占先機(jī)，以及大量搜索用戶的基礎(chǔ)，讓搜狗的語(yǔ)音識(shí)別取得了良好的效果，也成為語(yǔ)音實(shí)時(shí)翻譯的重要基礎(chǔ)。據(jù)搜狗團(tuán)隊(duì)的介紹，搜狗語(yǔ)音識(shí)別的準(zhǔn)確率已達(dá)到 97% 。而在當(dāng)時(shí)，單是搜狗語(yǔ)音輸入法每日的請(qǐng)求次數(shù)就已經(jīng)超過(guò) 1.8 億次，也就是大約 16 萬(wàn)小時(shí)的語(yǔ)料規(guī)模。

推進(jìn)語(yǔ)音技術(shù)在產(chǎn)品中的落地，并非做簡(jiǎn)單的技術(shù)提供商

隨著人工智能技術(shù)得到一定的進(jìn)展，搜狗也逐漸考慮實(shí)現(xiàn)技術(shù)在產(chǎn)品中落地的事情。在這一戰(zhàn)略過(guò)程中，搜狗并不打算做一個(gè)純粹的技術(shù)出售商，游離于產(chǎn)品之外做技術(shù)的整合和貢獻(xiàn)，而是將產(chǎn)品與技術(shù)緊密聯(lián)系在一起，既做技術(shù)又做產(chǎn)品，或者在與他人合作時(shí)，依靠自己的人工智能算法和別人的數(shù)據(jù)去對(duì)接。

對(duì)此，搜狗 CTO 楊洪濤曾表示，「如果只是開(kāi)放 SDK 接口供開(kāi)發(fā)者嵌入和使用，這樣雙方就不能進(jìn)行良好的互動(dòng)，最終的產(chǎn)品體驗(yàn)一定不會(huì)好，而好的產(chǎn)品體驗(yàn)需要兩個(gè)團(tuán)隊(duì)共同的緊密結(jié)合。」

在去年 12 月份，搜狗宣布與四維圖新、飛歌展開(kāi)合作，三方共同研發(fā)智能車聯(lián)網(wǎng)軟硬件解決方案，推出飛歌最新的 G8Ⅱ 后裝智能車機(jī)。其中，搜狗語(yǔ)音提供的車載語(yǔ)音系統(tǒng)已在車載場(chǎng)景下做了專項(xiàng)優(yōu)化，是基于搜狗語(yǔ)音交互引擎「知音」面向車載方向的升級(jí)。同時(shí)，其與搜狗語(yǔ)音地圖進(jìn)行整合后，用戶可通過(guò)自然語(yǔ)音交互的方式向?qū)Ш较到y(tǒng)輸入目的地。

在今年 3 月份的小米新品發(fā)布會(huì)上，小米發(fā)布了與搜狗語(yǔ)音深度結(jié)合的智能語(yǔ)音電視——小米電視 4A，依靠搜狗的語(yǔ)義理解技術(shù)及其在小米 4A 使用場(chǎng)景下的優(yōu)化，用戶能夠在向電視提出復(fù)合指令時(shí)得到精準(zhǔn)的反饋結(jié)果。另外，搜狗語(yǔ)音和小米還一起建立了同步上線機(jī)制，在小米電視內(nèi)容上線更新的同時(shí)，搜狗語(yǔ)音都將快速跟進(jìn)優(yōu)化，為用戶提供良好的交互體驗(yàn)。

小米智能語(yǔ)音電視發(fā)布會(huì)

前不久，會(huì)議平板廠商視源股份發(fā)布首款智能語(yǔ)音平板 MAXHUB，其中就整合了搜狗的語(yǔ)音技術(shù)。在使用這款會(huì)議平板的過(guò)程中，用戶用自然的語(yǔ)音指令即可調(diào)動(dòng)語(yǔ)音助手執(zhí)行相應(yīng)的任務(wù)，提高辦公及會(huì)議效率。

語(yǔ)音交互的剛需在于駕車、客廳、戶外這幾個(gè)方向，產(chǎn)品本身也必須是「剛需」

就跟當(dāng)初放棄搜狗語(yǔ)音助手應(yīng)用一樣的道理，搜狗語(yǔ)音負(fù)責(zé)人王硯峰認(rèn)為，技術(shù)應(yīng)該用在能夠真正解決用戶實(shí)際問(wèn)題的方向上，躺在手機(jī)上的語(yǔ)音助手并不能幫人們解決實(shí)際的需求。在物聯(lián)網(wǎng)和車聯(lián)網(wǎng)時(shí)代，更自然的人機(jī)交互方式已成為一個(gè)趨勢(shì)，而語(yǔ)音助手則需要找到它真正的用武之地。

王硯峰進(jìn)一步表示，語(yǔ)音交互的剛需存在于駕車、客廳、戶外等不方便使用鍵盤打字的場(chǎng)景中，另外，產(chǎn)品自身也應(yīng)該是剛需。如目前的機(jī)器人并不足以解決用戶的實(shí)際需求，因此搜狗也沒(méi)有把它作為一個(gè)跟進(jìn)的方向，而是希望繼續(xù)在以上三個(gè)場(chǎng)景中將語(yǔ)音交互的體驗(yàn)做得更好、更深，給用戶帶來(lái)實(shí)際價(jià)值。

目前，搜狗一方面通過(guò)產(chǎn)品將語(yǔ)音技術(shù)更多的落地到用戶端，另一方面則深耕技術(shù)，投入到對(duì)前沿技術(shù)的研發(fā)中，如與清華大學(xué)聯(lián)合成立「清華大學(xué)天工智能計(jì)算研究院」。

從以上來(lái)看，我們沒(méi)有在搜狗語(yǔ)音身上看到「大雜燴」形式的產(chǎn)業(yè)布局，而是聚焦在垂直領(lǐng)域，尋找并切入剛需市場(chǎng)，對(duì)技術(shù)進(jìn)行深化以及貼近產(chǎn)品式的研究，方向是如此的堅(jiān)決且明朗。

活動(dòng)預(yù)告：
語(yǔ)見(jiàn) 語(yǔ)音智能峰會(huì) | WARE 2017

4 月 15 日（本周六），深圳灣（公眾號(hào) ID：shenzhenware）將舉辦「語(yǔ)見(jiàn) 語(yǔ)音智能峰會(huì) | WARE 2017」，本屆峰會(huì)，將聚焦語(yǔ)音智能，邀請(qǐng)行業(yè)領(lǐng)軍企業(yè)、以及行業(yè)意見(jiàn)領(lǐng)袖，分享關(guān)于語(yǔ)音智能的相關(guān)平臺(tái)技術(shù)和應(yīng)用案例，通過(guò)會(huì)議的交流互動(dòng)，以及會(huì)議主題的傳播，幫助人們更好的預(yù)見(jiàn)未來(lái)。

屆時(shí)，搜狗公司桌面事業(yè)部高級(jí)總監(jiān)，桌面研究部和語(yǔ)音交互技術(shù)中心負(fù)責(zé)人王硯峰將出席本次峰會(huì)，發(fā)表『從語(yǔ)音到語(yǔ)言』的主題演講。

點(diǎn)擊此處，進(jìn)入峰會(huì)報(bào)名頁(yè)面，可了解峰會(huì)詳情。

智能語(yǔ)音

搜狗

深圳灣（微信公眾號(hào) ID：shenzhenware）是最早也是最活躍的硬件創(chuàng)新社區(qū)和媒體，關(guān)注「軟件+硬件」帶來(lái)的場(chǎng)景和交互創(chuàng)新，以及與平臺(tái)和應(yīng)用相連的產(chǎn)業(yè)鏈升級(jí)。

版權(quán)聲明：本文系深圳灣原創(chuàng)，轉(zhuǎn)載或摘錄請(qǐng)先獲得授權(quán)。
深圳灣微信公眾號(hào)：shenzhenware。深圳灣同時(shí)在頭條號(hào)、企鵝號(hào)、知乎等主流媒體站開(kāi)設(shè)專欄板塊，歡迎關(guān)注。轉(zhuǎn)載、約稿、投稿、團(tuán)隊(duì)報(bào)道請(qǐng)?jiān)诠娞?hào)對(duì)話框回復(fù)關(guān)鍵字并留下聯(lián)系方式。

上一篇：敢叫板蘋果的 Fitbit 新智能手表延期發(fā)布，但這不過(guò)是 Fitbit 給自己判的「死緩」

下一篇：科大訊飛最新發(fā)布！打造下一代智能交互新范式