科大訊飛最新發(fā)布!打造下一代智能交互新范式

從搜狗的語(yǔ)音技術(shù)發(fā)展史中,我們來(lái)看平臺(tái)技術(shù)是如何落地的
你只知搜狗是做搜索起家的,但你知道它在智能語(yǔ)音中做了多少布局嗎?
提起智能語(yǔ)音,大家或多或少會(huì)想到蘋果的 Siri,畢竟整個(gè)行業(yè)由它牽頭帶動(dòng)的,包括后來(lái)亞馬遜的 Alexa,微軟 Cortana,Google Assistant 等,各個(gè)巨頭將智能語(yǔ)音視為了一塊必爭(zhēng)之地,業(yè)界更是將語(yǔ)音定義為下一個(gè)人機(jī)交互的新形式。
在國(guó)內(nèi),除了百度、科大訊飛以及一些初創(chuàng)公司,我們似乎很少會(huì)提起搜狗這家同樣專注于人工智能語(yǔ)音的公司,甚至有人認(rèn)為智能語(yǔ)音是搜狗向 AI 轉(zhuǎn)型的一大戰(zhàn)略。為此,搜狗 CEO 王小川曾強(qiáng)調(diào),搜狗雖然以搜索起家,但事實(shí)上它就是一家 AI 公司,并一直致力于讓搜索引擎變得更聰明,其中就包括語(yǔ)音技術(shù)。
搜狗的語(yǔ)音技術(shù)研究始于 2012 年,曾推出語(yǔ)音助手應(yīng)用
從 2012 年開(kāi)始,搜狗就著手語(yǔ)音技術(shù)的研究,并在一年多之后完成深度學(xué)習(xí)技術(shù)的研發(fā)和上線,經(jīng)過(guò)一段時(shí)間的測(cè)試、準(zhǔn)確率對(duì)比后,最終在 2013 年 6 月,接入搜狗包括輸入法、地圖在內(nèi)的全線產(chǎn)品,代替原本所采用第三方公司的技術(shù)。
同時(shí)在這個(gè)過(guò)程中,搜狗于推出了搜狗語(yǔ)音助手,得益于多年來(lái)積累的搜索能力,搜狗語(yǔ)音助手的技術(shù)在短時(shí)間內(nèi)做到了中文業(yè)內(nèi)的領(lǐng)先。但它也面臨著與 Siri 等語(yǔ)音助手相類似的窘境,在手機(jī)端上提供的交互體驗(yàn)并不能讓用戶產(chǎn)生足夠的依賴性,最終導(dǎo)致產(chǎn)品的使用率并不高。
此后,搜狗語(yǔ)音團(tuán)隊(duì)則沒(méi)有對(duì)手機(jī)語(yǔ)音助手做繼續(xù)的研發(fā)和推進(jìn),但對(duì)智能語(yǔ)音的研究依舊持續(xù)著,并將目標(biāo)聚焦在老本行——搜索上。他們思考著如何利用智能語(yǔ)音讓搜索變得更有效率、且往「更智能化」的方向走。到目前為止,搜狗語(yǔ)音團(tuán)隊(duì)每年都會(huì)將自家的技術(shù)拿到業(yè)界中進(jìn)行對(duì)比測(cè)評(píng),以了解自身在行業(yè)中所處的實(shí)際位置。
基于前期技術(shù)的積累,敲定搜狗人工智能未來(lái)的方向:自然交互 + 知識(shí)計(jì)算
2016 年 8 月,沉寂許久的搜狗在智能語(yǔ)音中再次有了新動(dòng)作,除了實(shí)現(xiàn)將語(yǔ)音轉(zhuǎn)化成文字的功能,還發(fā)布了語(yǔ)音交互引擎「知音」。同時(shí),搜狗 CTO 楊洪濤在發(fā)布會(huì)中首次公布搜狗人工智能未來(lái) 8 年工作的主要方向:自然交互 + 知識(shí)計(jì)算,其中,自然交互指的是讓機(jī)器能夠在交互中更懂人,知識(shí)計(jì)算即將網(wǎng)絡(luò)中的海量信息提取出來(lái),并做進(jìn)一步的運(yùn)算、推理,輔助用戶做更好的決策。

這套由語(yǔ)音識(shí)別、語(yǔ)義理解、知識(shí)圖譜等技術(shù)梳理成一套成體系的「知音」交互引擎,主要是在加固此前搜狗在這方面的技術(shù)、產(chǎn)品積累,并讓其朝高效、更智能化的方向走。
基于深度學(xué)習(xí)平臺(tái)搭建識(shí)別引擎,提高語(yǔ)音識(shí)別效率、實(shí)現(xiàn)實(shí)時(shí)翻譯功能
發(fā)布「知音搜索」后,搜狗則開(kāi)始基于已有的深度學(xué)習(xí)平臺(tái)搭建自己的識(shí)別引擎,一方面依據(jù)人類說(shuō)話的生物特征將每一個(gè)音節(jié)分為獨(dú)立的幀,提高對(duì)靜音的識(shí)別,進(jìn)一步提高語(yǔ)音識(shí)別(將語(yǔ)音轉(zhuǎn)化為文本)的效率;另一方面,在語(yǔ)音識(shí)別的框架下建立聲學(xué)模型,根據(jù)人在發(fā)音時(shí)聲音信號(hào)和錄音信號(hào)波形的對(duì)比,實(shí)現(xiàn)錄音和文字之間的映射。
其中,在語(yǔ)音實(shí)時(shí)翻譯技術(shù)上,搜狗采用基于神經(jīng)網(wǎng)絡(luò)的機(jī)器翻譯技術(shù),以文本斷句為橋梁,做到用戶在一直說(shuō)話的同時(shí),系統(tǒng)將輸入的語(yǔ)音進(jìn)行區(qū)分、翻譯,將中、英文短語(yǔ)之間的映射關(guān)系建立起來(lái),利用語(yǔ)音模型將詞序或語(yǔ)序進(jìn)行調(diào)整,實(shí)現(xiàn)語(yǔ)音翻譯同傳。

搜狗 CEO 王小川在演講現(xiàn)場(chǎng)中展示搜狗語(yǔ)音的實(shí)時(shí)翻譯功能
除了技術(shù)框架的搭建,大量的訓(xùn)練數(shù)據(jù)是確保語(yǔ)音識(shí)別準(zhǔn)確率的基礎(chǔ),因率先在中文手機(jī)輸入法中搶占先機(jī),以及大量搜索用戶的基礎(chǔ),讓搜狗的語(yǔ)音識(shí)別取得了良好的效果,也成為語(yǔ)音實(shí)時(shí)翻譯的重要基礎(chǔ)。據(jù)搜狗團(tuán)隊(duì)的介紹,搜狗語(yǔ)音識(shí)別的準(zhǔn)確率已達(dá)到 97% 。而在當(dāng)時(shí),單是搜狗語(yǔ)音輸入法每日的請(qǐng)求次數(shù)就已經(jīng)超過(guò) 1.8 億次,也就是大約 16 萬(wàn)小時(shí)的語(yǔ)料規(guī)模。
推進(jìn)語(yǔ)音技術(shù)在產(chǎn)品中的落地,并非做簡(jiǎn)單的技術(shù)提供商
隨著人工智能技術(shù)得到一定的進(jìn)展,搜狗也逐漸考慮實(shí)現(xiàn)技術(shù)在產(chǎn)品中落地的事情。在這一戰(zhàn)略過(guò)程中,搜狗并不打算做一個(gè)純粹的技術(shù)出售商,游離于產(chǎn)品之外做技術(shù)的整合和貢獻(xiàn),而是將產(chǎn)品與技術(shù)緊密聯(lián)系在一起,既做技術(shù)又做產(chǎn)品,或者在與他人合作時(shí),依靠自己的人工智能算法和別人的數(shù)據(jù)去對(duì)接。
對(duì)此,搜狗 CTO 楊洪濤曾表示,「如果只是開(kāi)放 SDK 接口供開(kāi)發(fā)者嵌入和使用,這樣雙方就不能進(jìn)行良好的互動(dòng),最終的產(chǎn)品體驗(yàn)一定不會(huì)好,而好的產(chǎn)品體驗(yàn)需要兩個(gè)團(tuán)隊(duì)共同的緊密結(jié)合。」
在去年 12 月份,搜狗宣布與四維圖新、飛歌展開(kāi)合作,三方共同研發(fā)智能車聯(lián)網(wǎng)軟硬件解決方案,推出飛歌最新的 G8Ⅱ 后裝智能車機(jī)。其中,搜狗語(yǔ)音提供的車載語(yǔ)音系統(tǒng)已在車載場(chǎng)景下做了專項(xiàng)優(yōu)化,是基于搜狗語(yǔ)音交互引擎「知音」面向車載方向的升級(jí)。同時(shí),其與搜狗語(yǔ)音地圖進(jìn)行整合后,用戶可通過(guò)自然語(yǔ)音交互的方式向?qū)Ш较到y(tǒng)輸入目的地。
在今年 3 月份的小米新品發(fā)布會(huì)上,小米發(fā)布了與搜狗語(yǔ)音深度結(jié)合的智能語(yǔ)音電視——小米電視 4A,依靠搜狗的語(yǔ)義理解技術(shù)及其在小米 4A 使用場(chǎng)景下的優(yōu)化,用戶能夠在向電視提出復(fù)合指令時(shí)得到精準(zhǔn)的反饋結(jié)果。另外,搜狗語(yǔ)音和小米還一起建立了同步上線機(jī)制,在小米電視內(nèi)容上線更新的同時(shí),搜狗語(yǔ)音都將快速跟進(jìn)優(yōu)化,為用戶提供良好的交互體驗(yàn)。

小米智能語(yǔ)音電視發(fā)布會(huì)
前不久,會(huì)議平板廠商視源股份發(fā)布首款智能語(yǔ)音平板 MAXHUB,其中就整合了搜狗的語(yǔ)音技術(shù)。在使用這款會(huì)議平板的過(guò)程中,用戶用自然的語(yǔ)音指令即可調(diào)動(dòng)語(yǔ)音助手執(zhí)行相應(yīng)的任務(wù),提高辦公及會(huì)議效率。

語(yǔ)音交互的剛需在于駕車、客廳、戶外這幾個(gè)方向,產(chǎn)品本身也必須是「剛需」
就跟當(dāng)初放棄搜狗語(yǔ)音助手應(yīng)用一樣的道理,搜狗語(yǔ)音負(fù)責(zé)人王硯峰認(rèn)為,技術(shù)應(yīng)該用在能夠真正解決用戶實(shí)際問(wèn)題的方向上,躺在手機(jī)上的語(yǔ)音助手并不能幫人們解決實(shí)際的需求。在物聯(lián)網(wǎng)和車聯(lián)網(wǎng)時(shí)代,更自然的人機(jī)交互方式已成為一個(gè)趨勢(shì),而語(yǔ)音助手則需要找到它真正的用武之地。
王硯峰進(jìn)一步表示,語(yǔ)音交互的剛需存在于駕車、客廳、戶外等不方便使用鍵盤打字的場(chǎng)景中,另外,產(chǎn)品自身也應(yīng)該是剛需。如目前的機(jī)器人并不足以解決用戶的實(shí)際需求,因此搜狗也沒(méi)有把它作為一個(gè)跟進(jìn)的方向,而是希望繼續(xù)在以上三個(gè)場(chǎng)景中將語(yǔ)音交互的體驗(yàn)做得更好、更深,給用戶帶來(lái)實(shí)際價(jià)值。
目前,搜狗一方面通過(guò)產(chǎn)品將語(yǔ)音技術(shù)更多的落地到用戶端,另一方面則深耕技術(shù),投入到對(duì)前沿技術(shù)的研發(fā)中,如與清華大學(xué)聯(lián)合成立「清華大學(xué)天工智能計(jì)算研究院」。
從以上來(lái)看,我們沒(méi)有在搜狗語(yǔ)音身上看到「大雜燴」形式的產(chǎn)業(yè)布局,而是聚焦在垂直領(lǐng)域,尋找并切入剛需市場(chǎng),對(duì)技術(shù)進(jìn)行深化以及貼近產(chǎn)品式的研究,方向是如此的堅(jiān)決且明朗。
活動(dòng)預(yù)告:
語(yǔ)見(jiàn) 語(yǔ)音智能峰會(huì) | WARE 2017

4 月 15 日(本周六),深圳灣(公眾號(hào) ID:shenzhenware)將舉辦「語(yǔ)見(jiàn) 語(yǔ)音智能峰會(huì) | WARE 2017」,本屆峰會(huì),將聚焦語(yǔ)音智能,邀請(qǐng)行業(yè)領(lǐng)軍企業(yè)、以及行業(yè)意見(jiàn)領(lǐng)袖,分享關(guān)于語(yǔ)音智能的相關(guān)平臺(tái)技術(shù)和應(yīng)用案例,通過(guò)會(huì)議的交流互動(dòng),以及會(huì)議主題的傳播,幫助人們更好的預(yù)見(jiàn)未來(lái)。
屆時(shí),搜狗公司桌面事業(yè)部高級(jí)總監(jiān),桌面研究部和語(yǔ)音交互技術(shù)中心負(fù)責(zé)人王硯峰將出席本次峰會(huì),發(fā)表『從語(yǔ)音到語(yǔ)言』的主題演講。
點(diǎn)擊此處,進(jìn)入峰會(huì)報(bào)名頁(yè)面,可了解峰會(huì)詳情。