從搜狗的語音技術(shù)發(fā)展史中,我們來看平臺(tái)技術(shù)是如何落地的

從「語音」到「語言」的工作重心轉(zhuǎn)變,搜狗如何實(shí)現(xiàn) AI 的跨越式發(fā)展丨WARE 2017
「語言」即思想和知識(shí)的載體,是 AI 理解人話的關(guān)鍵。
智能語音要做到越來越「智能」,則需要大量的訓(xùn)練數(shù)據(jù),國內(nèi)外不少做智能語音技術(shù)的搜索公司就有這點(diǎn)優(yōu)勢(shì)。國內(nèi)的搜狗則是一家比較低調(diào)的公司,事實(shí)上,搜狗從 2013 年就開始做智能語音技術(shù),先后推出實(shí)時(shí)轉(zhuǎn)寫、實(shí)時(shí)翻譯等功能。目前,搜狗已與車載、家電廠商合作推出搭載其智能語音技術(shù)的智能車機(jī)、智能電視等產(chǎn)品。
在去年的新硬件生態(tài)大會(huì)上,搜狗王小川做客深圳灣,暢談了人工智能為我們帶來的機(jī)遇。在今年的「WARE 2017 語音智能平臺(tái)與應(yīng)用峰會(huì)」中, 搜狗公司語音交互技術(shù)中心總經(jīng)理和搜狗輸入法研究負(fù)責(zé)人王硯峰發(fā)表了『從語音到語言』的演講,講述了搜狗在語音技術(shù)更新迭代過程中所做的主要工作。
AI 工作重心的轉(zhuǎn)移:從「語音」到「語言」
王硯峰指出,以往的語音助手之所以不夠「智能」,是因?yàn)闄C(jī)器經(jīng)常沒「聽」懂人話,或者不能「理解」所聽到的內(nèi)容。事實(shí)上,「語音」只是機(jī)器收集信息的一個(gè)入口,「語言」才是機(jī)器理解的所在,也就是說,機(jī)器要有知識(shí)并懂得如何思考。

在這幾年的時(shí)間里,搜狗一直在更新自己的語音技術(shù),因?yàn)橐庾R(shí)到這一點(diǎn),逐漸將人工智能(AI)工作的重心從「語音」向「語言」技術(shù)進(jìn)行轉(zhuǎn)移,解決大部分語音助手「聽」不懂人話、難以實(shí)現(xiàn)多倫對(duì)話的窘境。其中最核心的是解決「語言」這重要一環(huán)。
在產(chǎn)品演化的過程中,如何解決「語言」這一核心問題?
那么,搜狗是通過哪些路徑解決這些困難的呢?王硯峰提出了以下幾點(diǎn):
第一,優(yōu)化語音識(shí)別的準(zhǔn)確率,用深度學(xué)習(xí)和數(shù)據(jù)驅(qū)動(dòng)語音識(shí)別的進(jìn)步。 隨著搜狗輸入法所收集數(shù)據(jù)量的不斷提升,技術(shù)也隨之更新并且使得深度學(xué)習(xí)技術(shù)不斷得到加強(qiáng),語音識(shí)別的精確度因此也得到大幅度提高。另外,讓語音技術(shù)在更多硬件設(shè)備中落地,進(jìn)一步解決噪音、口音、遠(yuǎn)場等問題。目前,搜狗輸入法每日的語音接收量達(dá)到 2.4 億次,等同于 20 萬個(gè)小時(shí)的訓(xùn)練語料。

第二,即進(jìn)入設(shè)計(jì)+工程化的階段。例如要實(shí)現(xiàn)人與機(jī)器溝通過程中能夠「隨意打斷」的目標(biāo),就需要利用工程化的方法,通過「喚醒」的方法讓機(jī)器理解人機(jī)對(duì)話過程中的關(guān)鍵指令。
第三,場景化、功能化、知識(shí)化。傳統(tǒng)的語音助手是一個(gè)開放和通用的應(yīng)用,并不能有一個(gè)穩(wěn)定的預(yù)期。而將自然語言理解放在一個(gè)垂直的場景和功能上,并通過知識(shí)的整理,能夠?yàn)橛脩籼峁└玫娜藱C(jī)交互體驗(yàn)。如場景化后的車載語音助手以及智能電視語音助手。

如何讓語音識(shí)別技術(shù)做到真正的「智能」?
接下來,則是要「死磕」語言,讓語音識(shí)別技術(shù)實(shí)現(xiàn)真正的「智能」。王硯峰總結(jié)出了搜狗以下的幾個(gè)關(guān)鍵做法:
一、追求掌握更先進(jìn)的自然語言理解和深度學(xué)習(xí)技術(shù),這是推動(dòng)技術(shù)發(fā)展的根本。例如搜狗所推出的實(shí)時(shí)翻譯技術(shù),就采用了目前業(yè)界里最先進(jìn)的架構(gòu),相比 Google 深度學(xué)習(xí)層數(shù)達(dá)到的 8 層,搜狗目前的層數(shù)雖然少一些, 但已與國內(nèi)領(lǐng)先的百度達(dá)到持平的狀態(tài)。

二、在高頻應(yīng)用場景中通過產(chǎn)品創(chuàng)新帶來用戶數(shù)據(jù)迭代,提升對(duì)話能力。在機(jī)器學(xué)習(xí)中,數(shù)據(jù)量是最重要的一環(huán)。AI 不能只談技術(shù),而是應(yīng)該與產(chǎn)品結(jié)合起來,或者讓好的產(chǎn)品驅(qū)動(dòng)語音技術(shù)的發(fā)展。越多用戶使用的產(chǎn)品,產(chǎn)品背后的技術(shù)能夠反向推動(dòng)語音技術(shù)的提升。
三、讓搜索進(jìn)一步走向問答。數(shù)據(jù)的不斷挖掘是自然語言進(jìn)步的重要基礎(chǔ),搜狗則利用搜索公司本身所擁有的這方面優(yōu)勢(shì),讓大量數(shù)據(jù)推動(dòng)技術(shù)的進(jìn)步。如讓機(jī)器基于搜索,并通過自然語言理解的方式對(duì)數(shù)據(jù)庫進(jìn)行解釋,提供知識(shí)問答服務(wù)。
總的來說,搜狗發(fā)展語音技術(shù)的關(guān)鍵可歸結(jié)為以下幾點(diǎn):
- 智能語音 = 語音入口 + 自然交互 + 知識(shí)計(jì)算
- 智能語音產(chǎn)品的發(fā)展路徑,就是不斷通過各種條件降低自然語言理解難度的一個(gè)過程。
- 語言是大腦的核心,是智能語音追求的終極目標(biāo)。
- 我們不僅要追求先進(jìn)技術(shù),還要同時(shí)在產(chǎn)品創(chuàng)新上給技術(shù)的進(jìn)化創(chuàng)造出更多條件。
- 讓輸入法走向?qū)υ挘屗阉髯呦騿柎稹?br>
問答
Q:AI 的問答機(jī)制是否都需要人參與梳理原始邏輯?
A:一般是不需要的。
Q:搜狗的語音技術(shù)能否支持離線模式?
A:是。
Q:搜狗有沒有像其他巨頭那樣提供 AI 公共平臺(tái)的戰(zhàn)略規(guī)劃?
A:會(huì)的,搜狗應(yīng)該會(huì)在今年下半年提供開放平臺(tái)。
Q:搜狗展示的語音識(shí)別翻譯的翻譯引擎是自家開發(fā)的嗎?搜狗有在翻譯數(shù)據(jù)基礎(chǔ)上做自己的優(yōu)化嗎?
A:搜狗的語音翻譯就是用的搜狗自己開發(fā)的,神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯,數(shù)據(jù)源也是網(wǎng)上抓的。搜狗有深度語言學(xué)習(xí)的基礎(chǔ),很快就能構(gòu)建語音識(shí)別和機(jī)器翻譯的技術(shù)。
Q:語音技術(shù)有哪些最新的研究進(jìn)展?
A:在人聲分離、語音合成、陣列前端這幾個(gè)領(lǐng)域,大家都在嘗試深度學(xué)習(xí)的方法。更前沿的技術(shù),在沒有深度學(xué)習(xí)的領(lǐng)域嘗試工程化的方法去理解,在傳統(tǒng)的領(lǐng)域通過深度學(xué)習(xí)來解決,并且讓整個(gè)過程都深度學(xué)習(xí)化,端到端的語音識(shí)別雖然不成熟,但是都是大家努力的方向。
Q:目前國內(nèi)語音市場前景如何?
A:前景還是不錯(cuò)的。這也是為什么創(chuàng)業(yè)公司和大公司,包括像小米這樣的智能硬件公司,都在智能語音領(lǐng)域布局,這是大的趨勢(shì)。但總體還是在非理性的狀態(tài)下,創(chuàng)業(yè)公司的估值偏高,以后會(huì)慢慢的沉淀下來,小的創(chuàng)業(yè)公司會(huì)掛掉或被收購。在語音、自然語音處理、AI 等行業(yè)前沿的核心技術(shù),最終都是大公司的賽道。
Q:為什么國內(nèi)智能音箱市場沒有國外那么火?
A:從文化的角度,從體驗(yàn)的角度,從銷售的渠道,國內(nèi)的智能音箱,與 Echo 都是有差距的。
Q:搜狗和國內(nèi)其他語音廠商的方案相比有哪些優(yōu)勢(shì)?如何評(píng)價(jià)其他廠商的方案?
A:國內(nèi)的語音廠商,長遠(yuǎn)來看,比較看好搜狗和百度。這兩家公司在搜索和語音等方面還是比較完整的,有搜索地圖,有垂直搜索,從語音的入口到最終的服務(wù),是一個(gè)閉環(huán),目前只有搜狗和百度能做到。其他公司,科大訊飛、思必馳、云知聲,可能相對(duì)只有中間環(huán)節(jié)的語音技術(shù),而沒有背后服務(wù)能力的支撐。
但是在目前的商業(yè)模式和市場環(huán)境下,靠提供技術(shù)解決方案的方式實(shí)現(xiàn)商業(yè)價(jià)值,在國內(nèi)并沒有那么好的市場前景。對(duì)于提供這些技術(shù)解決方案的公司,需要下沉到某一個(gè)垂直產(chǎn)業(yè),做更上游的事情,才能更好的實(shí)現(xiàn)商業(yè)價(jià)值。比如科大訊飛,在教育領(lǐng)域,提供更完整的全套的教育解決方案,而不僅僅是教育中所需要的語音技術(shù)。
Q:國內(nèi)做語義理解有哪些比較好的應(yīng)用場景?
A:目前國內(nèi),語義理解的場景和語音理解的場景,本質(zhì)沒有什么區(qū)別,主要是在更垂直的行業(yè)、產(chǎn)品、應(yīng)用中,比如車載、電視、音箱。如果能在輸入法和搜索方面,能夠把這樣的語音和語義能力融合的更好的話,也是一個(gè)不錯(cuò)的應(yīng)用場景,比如搜索方面的用戶查詢,都是自然語音,而用戶在輸入法中的聊天,本來就是自然語言,可以依據(jù)這些產(chǎn)生很多產(chǎn)品創(chuàng)新的。
語義理解最大的應(yīng)用場景,是客服。在任何大產(chǎn)品上都有需求,比如支付寶、京東、順豐,任何呼叫中心的客服,都是語義理解、自然語言理解特別好的應(yīng)用場景。
后記:
在搜狗內(nèi)部團(tuán)隊(duì)歷年的黑客馬拉松上,我們可以看到搜狗基于人工智能核心技術(shù),所做的創(chuàng)新探索。在「WARE 2017」會(huì)前的采訪中(查看全文),我們了解到了搜狗這家公司的語音技術(shù)發(fā)展歷史,以及搜狗是如何基于自己的搜索核心技術(shù)進(jìn)行商業(yè)化落地。從語音的入口到最終的服務(wù),國內(nèi)的兩家公司,搜狗和百度,在技術(shù)上都在各自建立著自己的壁壘。我們期待搜狗未來更好的表現(xiàn)。