Uploads%2farticles%2f12545%2f42429930235 b13a6689ec k

2018-07-16

虛擬主播、智能硬件… AI 的下一個(gè)應(yīng)用突破會(huì)在哪里 | 對(duì)話搜狗王小川

我們認(rèn)為，靠技術(shù)創(chuàng)新，可以獲得巨大的市場(chǎng)份額。

和國(guó)內(nèi) BAT 大型發(fā)布會(huì)高唱 AI 賦能各種場(chǎng)景的論調(diào)不太一致的地方，是華爾街對(duì)于 AI 的態(tài)度：回歸冷靜，伴隨對(duì) AI 公司的投資放緩、估值下移。

在上周香港召開(kāi)的 RISE 大會(huì)上，微軟、亞馬遜、LINE、索菲亞機(jī)器人等領(lǐng)軍企業(yè)帶著數(shù)十家高唱 AI 的企業(yè)，在 keynote 和圓桌環(huán)節(jié)悉數(shù)登場(chǎng)。其中就包含行業(yè)明星和新秀，與老練穩(wěn)重的老牌巨頭相比，他們展示了獨(dú)有的活力，與參會(huì)者積極的討論下一個(gè)科技熱潮。

同樣亮相 RISE 大會(huì)的搜狗，則在大會(huì)上發(fā)布了全球首個(gè)高度實(shí)用化、定制化的虛擬主播。不需要主播本人的出境，只需要央視新聞主播姚雪松 1.5 個(gè)小時(shí)的音視頻數(shù)據(jù)，結(jié)合語(yǔ)音、圖像等多模態(tài)信息進(jìn)行聯(lián)合建模訓(xùn)練，輸入一段 RISE 大會(huì)文字稿，就可以快速預(yù)測(cè)生成與真人無(wú)異的播報(bào)效果。（觀看以下視頻了解實(shí)況）

在「兜售」了一遍搜狗以語(yǔ)言為核心的 AI 戰(zhàn)略布局后，搜狗出人意料地在大會(huì)上爆料，將在年底前發(fā)布 4 款新的智能硬件。

帶著一些對(duì)于 AI 落地的疑問(wèn)，深圳灣發(fā)起了一次與王小川的對(duì)話。

是嗎？AI 已經(jīng)沒(méi)有那么吃香了？

在人工智能方面，我認(rèn)為中國(guó)還是有機(jī)會(huì)跟美國(guó)在應(yīng)用層面上齊頭并進(jìn)。

2018 年 3 月 5 日，人工智能產(chǎn)業(yè)第二次被寫(xiě)入政府工作報(bào)告。據(jù)統(tǒng)計(jì)，2017 年中國(guó)人工智能核心產(chǎn)業(yè)規(guī)模超過(guò) 700 億元，隨著各地人工智能建設(shè)的逐步啟動(dòng)，預(yù)計(jì)到 2020 年，中國(guó)人工智能核心產(chǎn)業(yè)規(guī)模將超過(guò) 1600 億元，年復(fù)合增長(zhǎng)率將達(dá) 31.7%。

事實(shí)上，人工智能不是一個(gè)新課題，上個(gè)世紀(jì) 60 年代、80 年代就分別有兩波人工智能熱潮。不同于以往人工智能只存在于高校，現(xiàn)在參與人工智能的企業(yè)數(shù)是過(guò)去的數(shù)倍，可以說(shuō)，現(xiàn)在人工智能才開(kāi)始真正走向了實(shí)用。

在目前的中國(guó)經(jīng)濟(jì)體系中，互聯(lián)網(wǎng)是最有創(chuàng)新活力的一個(gè)版塊，擁有著龐大的用戶(hù)規(guī)模。而以這個(gè)群體為核心，中國(guó)在人工智能應(yīng)用領(lǐng)域具備很大優(yōu)勢(shì)。這些互聯(lián)網(wǎng)公司有大量的數(shù)據(jù)，有足夠的資金和創(chuàng)新動(dòng)力，也能吸引不少工程師人才，甚至是美國(guó)的頂尖科學(xué)家。

在技術(shù)研究方面，中國(guó)略顯薄弱。好在目前全球是一個(gè)知識(shí)共享體系，在有最前沿的人工智能論文出來(lái)之后，我們很快就能學(xué)習(xí)到新的學(xué)術(shù)成果，并將之轉(zhuǎn)化成生產(chǎn)力。因此，在人工智能應(yīng)用層面上，我認(rèn)為中國(guó)還是有機(jī)會(huì)跟美國(guó)齊頭并進(jìn)的。

那么，AI 的下一個(gè)應(yīng)用突破會(huì)在哪里？

我們已看到當(dāng)前最熱的「智能音箱大戰(zhàn)」...這些事情背后有一個(gè)共同點(diǎn)——讓人工智能開(kāi)始去解決語(yǔ)言的問(wèn)題。

在這一年間，人工智能領(lǐng)域有許多新的突破。包括當(dāng)前最熱「智能音箱大戰(zhàn)」，以及其他「黑科技」。例如，Google 在今年 I/O 大會(huì)上提出，讓機(jī)器幫助人打電話預(yù)訂餐廳等。所有這些事情背后都有一個(gè)共同點(diǎn)，那就是讓人工智能開(kāi)始去解決語(yǔ)言的問(wèn)題。

我認(rèn)為以后 AI 會(huì)融入到方方面面，并呈現(xiàn)這樣一個(gè)消費(fèi)趨勢(shì)——機(jī)器越來(lái)越懂人，而不是人去適應(yīng)機(jī)器。比如，從以前的五筆輸入法到現(xiàn)在的拼音、語(yǔ)音輸入，就是一個(gè)從人適應(yīng)機(jī)器到機(jī)器適應(yīng)人的一個(gè)典例。

未來(lái)的 AI，應(yīng)該可以做到讓人和機(jī)器更自然地交流，變得更聰明且能幫人類(lèi)處理更多的工作。人工智能可能會(huì)在以下幾個(gè)領(lǐng)域率先有所發(fā)展：

一是識(shí)別。比如涉及到大量識(shí)別工作的安防領(lǐng)域。
二是商業(yè)智能，即讓機(jī)器智能做出決策判斷。比如在投資等一些領(lǐng)域，讓機(jī)器做出比人類(lèi)更高效、可靠的判斷。
三是在娛樂(lè)產(chǎn)業(yè)。人類(lèi)需要享受藝術(shù)和文化生活，而目前包括畫(huà)作、音樂(lè)、影視劇、游戲等在內(nèi)的相關(guān)作品都由人創(chuàng)作。未來(lái)在 AI 的幫助下，創(chuàng)作效率可以得到極大的提高，為人類(lèi)提供更好的娛樂(lè)產(chǎn)品。
另外在這些垂直領(lǐng)域，AI 也會(huì)有大的突破：一個(gè)是醫(yī)療，一個(gè)是電商和客服。

僅 1.5 小時(shí)的數(shù)據(jù)訓(xùn)練，就能生成虛擬主播，搜狗家的技術(shù)優(yōu)勢(shì)在哪里？

這是全球首款高實(shí)用化、定制化的虛擬主播，采用搜狗業(yè)界領(lǐng)先的語(yǔ)音合成、唇語(yǔ)合成、音視頻聯(lián)合建模、深度學(xué)習(xí)等技術(shù)。

在本次大會(huì)（RISE）亮相的虛擬主播是全球首款高實(shí)用化、定制化的虛擬主播，目前市面上還沒(méi)有類(lèi)似的產(chǎn)品。

它采用了搜狗在語(yǔ)音合成、唇語(yǔ)合成、音視頻聯(lián)合建模、深度學(xué)習(xí)等技術(shù)的研究成果。采用一個(gè)主播的音視頻數(shù)據(jù)，結(jié)合語(yǔ)音、圖像等多模態(tài)信息進(jìn)行聯(lián)合建模訓(xùn)練，給機(jī)器輸入一段文字，便可以生成一段音視頻同步的新聞播報(bào)。

其最大的難點(diǎn)在于，經(jīng)過(guò)真人主播 1.5 小時(shí)的數(shù)據(jù)訓(xùn)練后，僅提供一段文本，機(jī)器要通過(guò)虛擬主播技術(shù)來(lái)生成逼真度極高的視頻，并且還要確保視頻中主播的音頻和臉部表情、唇動(dòng)能夠自然且一致。

至于技術(shù)優(yōu)勢(shì)方面，早在 2012 年，搜狗就開(kāi)始研究語(yǔ)音合成技術(shù)，經(jīng)過(guò)多年的技術(shù)沉淀和數(shù)據(jù)積累，目前已具備多語(yǔ)種、多音色的語(yǔ)音合成能力，并在業(yè)內(nèi)首推個(gè)性化語(yǔ)音合成和情感遷移的技術(shù)。用戶(hù)上傳少量音頻，即可合成高質(zhì)量的個(gè)性化音色，并且能快速遷移成多種講話風(fēng)格（相聲貫口、唱歌、繞口令等）。

未來(lái)，搜狗會(huì)在虛擬主播情感表達(dá)上做更深入的研究，讓虛擬主播的真實(shí)感得到提升。結(jié)合搜狗語(yǔ)音交互系統(tǒng)知音 OS 能力，我們可以讓虛擬主播具備交互能力。例如用在帶屏幕的智能音箱，虛擬主播就可以發(fā)展成為虛擬私人助理，用戶(hù)可以從單純與聲音交互變成與一個(gè)逼真的虛擬人物交互。

這么多很牛的技術(shù)，具體會(huì)應(yīng)用在哪里？

搜狗希望可以讓人和機(jī)器的交互更自然。接下來(lái)我們會(huì)推出更完整的虛擬主播，它能跟你在互動(dòng)時(shí)開(kāi)始具有自己的表情，甚至模仿具體的人的聲音跟你去互動(dòng)，跟用戶(hù)的交互更自然親切。

自然交互方面，搜狗涉及的技術(shù)包括語(yǔ)音識(shí)別與合成、圖像識(shí)別與合成等。其中，搜狗中文語(yǔ)音識(shí)別準(zhǔn)確率已經(jīng)做到 98%。

目前，搜狗輸入法已經(jīng)是中國(guó)最大的語(yǔ)音輸入引擎，為我們的語(yǔ)音交互研究積累了大量語(yǔ)料和用戶(hù)行為基礎(chǔ)。接下來(lái)，我們會(huì)把更多的工作聚焦到語(yǔ)種、方言、麥克風(fēng)矩陣，以及語(yǔ)音的糾錯(cuò)修改等。

除了語(yǔ)音識(shí)別以外，我們開(kāi)始嘗試對(duì)于表情做更多的理解，其中包括：

唇語(yǔ)識(shí)別，即機(jī)器通過(guò)圖像識(shí)別捕捉人嘴唇運(yùn)動(dòng)，并建立識(shí)別模型。搜狗中文唇語(yǔ)識(shí)別技術(shù)在垂直應(yīng)用領(lǐng)域中的準(zhǔn)確率超過(guò) 90%。

情感遷移技術(shù)，即生成相同音色，實(shí)現(xiàn)個(gè)性化語(yǔ)音合成。這一技術(shù)對(duì)聲音結(jié)構(gòu)，主要在風(fēng)格、音色等方面，有更深層次的理解。

基于以上幾項(xiàng)技術(shù)聯(lián)合建模，接下來(lái)我們會(huì)推出更完整的虛擬主播，它能跟你在互動(dòng)時(shí)具備自己的表情，甚至模仿具體的人的聲音跟你去互動(dòng)，從而跟用戶(hù)的交互變得更自然親切。

這么多很牛的技術(shù)，怎么賺錢(qián)？

我們認(rèn)為，靠技術(shù)創(chuàng)新，可以獲得巨大的市場(chǎng)份額。

過(guò)去，搜狗主要依靠搜索廣告盈利，提供的是人和信息的服務(wù)。伴隨 AI 技術(shù)的應(yīng)用，用戶(hù)能夠與機(jī)器進(jìn)行更自然的語(yǔ)言交互。另外，機(jī)器通過(guò)計(jì)算，對(duì)語(yǔ)言邏輯進(jìn)行處理，能給用戶(hù)提供更精準(zhǔn)的答案。

在 AI 技術(shù)的幫助下，這一模式會(huì)獲得更大的增值。這一競(jìng)爭(zhēng)力的直接體現(xiàn)就在于收入的提升。我們認(rèn)為，靠技術(shù)創(chuàng)新，可以獲得巨大的市場(chǎng)份額。

概括來(lái)講，我們的盈利現(xiàn)在分成三大部分：

搜索引擎：搜狗在國(guó)內(nèi)占有 18% 的市場(chǎng)份額，一年收入規(guī)模達(dá)到 60 億。
搜狗輸入法：幫助中國(guó)人更好的用中文表達(dá)自己的想法，目前，搜狗輸入法在中國(guó) PC 和手機(jī)上都處于相對(duì)壟斷的位置。
翻譯：今年我們推出了新的智能硬件，搜狗旅行翻譯寶和搜狗錄音翻譯筆，兩款以 AI 翻譯為核心，能夠幫大家解決語(yǔ)言問(wèn)題的產(chǎn)品。這些產(chǎn)品和搜狗的輸入法是一脈相承的，也是幫大家表達(dá)和獲取信息，而范圍從表達(dá)中文，獲取中文信息，擴(kuò)展到了獲取全世界的信息，和全世界對(duì)話。

另外，在電商和客服等垂直行業(yè)，我們會(huì)尋求更大的突破。例如通過(guò)人機(jī)結(jié)合，幫助電商人員更好的表達(dá)他們的想法，從而更方便的提供電商咨詢(xún)等服務(wù)。

從「造硬件」到「賣(mài)硬件」，搜狗這家互聯(lián)網(wǎng)公司有什么心得？

一個(gè)新的產(chǎn)品出來(lái)之后，從用戶(hù)對(duì)它有大概的認(rèn)知，到真正去使用，再到去進(jìn)行口碑傳播，需要一個(gè)過(guò)程。

我們知道，一個(gè)新的產(chǎn)品出來(lái)之后，從用戶(hù)對(duì)它有大概的認(rèn)知，到真正去使用，再到去進(jìn)行口碑傳播，需要一個(gè)過(guò)程。

以搜狗的翻譯寶和錄音翻譯筆這兩款產(chǎn)品為例，從產(chǎn)品角度來(lái)講，目前整個(gè)翻譯市場(chǎng)還是相對(duì)比較垂直、小眾。我們的翻譯類(lèi)產(chǎn)品從推出到現(xiàn)在僅有幾個(gè)月時(shí)間，在這期間，用戶(hù)逐漸形成了對(duì)產(chǎn)品、技術(shù)、企業(yè)的認(rèn)知。

最終，這兩款產(chǎn)品的市場(chǎng)反饋也都不錯(cuò)：翻譯寶在首發(fā)日開(kāi)售 1 小時(shí)后，各地就陸續(xù)售罄，當(dāng)日銷(xiāo)售額突破 1000 萬(wàn)；搜狗錄音翻譯筆發(fā)售前在京東平臺(tái)的預(yù)約量超過(guò) 11 萬(wàn)。

未來(lái)，無(wú)論是在旅游還是在商務(wù)場(chǎng)景，跨語(yǔ)言交流市場(chǎng)將會(huì)巨大的發(fā)展?jié)摿Γ压穼⒋俗鳛橹匾繕?biāo)并有所作為。

關(guān)于川總爆料今年年內(nèi)還會(huì)推出 4 款新硬件，可以了解更多嗎？

可以透露的信息是，它們是以語(yǔ)言為核心的，2C 的、便攜性產(chǎn)品。

這些新產(chǎn)品目前還處于保密階段，可以透露的信息是，它們是以語(yǔ)言為核心的，2C 的、便攜性產(chǎn)品。

在智能硬件布局上，搜狗遵循的核心的邏輯是，產(chǎn)品具有核心的語(yǔ)音、語(yǔ)言交互技術(shù)，并為某個(gè)和用戶(hù)個(gè)人直接相關(guān)、真實(shí)落地的場(chǎng)景打造。

搜狗

翻譯

深圳灣（微信公眾號(hào) ID：shenzhenware）是最早也是最活躍的硬件創(chuàng)新社區(qū)和媒體，關(guān)注「軟件+硬件」帶來(lái)的場(chǎng)景和交互創(chuàng)新，以及與平臺(tái)和應(yīng)用相連的產(chǎn)業(yè)鏈升級(jí)。

版權(quán)聲明：本文系深圳灣原創(chuàng)，轉(zhuǎn)載或摘錄請(qǐng)先獲得授權(quán)。
深圳灣微信公眾號(hào)：shenzhenware。深圳灣同時(shí)在頭條號(hào)、企鵝號(hào)、知乎等主流媒體站開(kāi)設(shè)專(zhuān)欄板塊，歡迎關(guān)注。轉(zhuǎn)載、約稿、投稿、團(tuán)隊(duì)報(bào)道請(qǐng)?jiān)诠娞?hào)對(duì)話框回復(fù)關(guān)鍵字并留下聯(lián)系方式。

上一篇：微軟要做智能耳機(jī)？對(duì)標(biāo) AirPods 又不止 AirPods

下一篇：何止 Meta x Oakley，小米等十家 AI 拍攝眼鏡上新！下半年好看！