速記和同傳可以轉(zhuǎn)行了,搜狗 398 元的錄音翻譯筆現(xiàn)已開(kāi)售

虛擬主播、智能硬件… AI 的下一個(gè)應(yīng)用突破會(huì)在哪里 | 對(duì)話搜狗王小川
我們認(rèn)為,靠技術(shù)創(chuàng)新,可以獲得巨大的市場(chǎng)份額。
和國(guó)內(nèi) BAT 大型發(fā)布會(huì)高唱 AI 賦能各種場(chǎng)景的論調(diào)不太一致的地方,是華爾街對(duì)于 AI 的態(tài)度:回歸冷靜,伴隨對(duì) AI 公司的投資放緩、估值下移。
在上周香港召開(kāi)的 RISE 大會(huì)上,微軟、亞馬遜、LINE、索菲亞機(jī)器人等領(lǐng)軍企業(yè)帶著數(shù)十家高唱 AI 的企業(yè),在 keynote 和圓桌環(huán)節(jié)悉數(shù)登場(chǎng)。其中就包含行業(yè)明星和新秀,與老練穩(wěn)重的老牌巨頭相比,他們展示了獨(dú)有的活力,與參會(huì)者積極的討論下一個(gè)科技熱潮。
同樣亮相 RISE 大會(huì)的搜狗,則在大會(huì)上發(fā)布了全球首個(gè)高度實(shí)用化、定制化的虛擬主播。不需要主播本人的出境,只需要央視新聞主播姚雪松 1.5 個(gè)小時(shí)的音視頻數(shù)據(jù),結(jié)合語(yǔ)音、圖像等多模態(tài)信息進(jìn)行聯(lián)合建模訓(xùn)練,輸入一段 RISE 大會(huì)文字稿,就可以快速預(yù)測(cè)生成與真人無(wú)異的播報(bào)效果。(觀看以下視頻了解實(shí)況)
在「兜售」了一遍搜狗以語(yǔ)言為核心的 AI 戰(zhàn)略布局后,搜狗出人意料地在大會(huì)上爆料,將在年底前發(fā)布 4 款新的智能硬件。
帶著一些對(duì)于 AI 落地的疑問(wèn),深圳灣發(fā)起了一次與王小川的對(duì)話。
是嗎?AI 已經(jīng)沒(méi)有那么吃香了?
在人工智能方面,我認(rèn)為中國(guó)還是有機(jī)會(huì)跟美國(guó)在應(yīng)用層面上齊頭并進(jìn)。
2018 年 3 月 5 日,人工智能產(chǎn)業(yè)第二次被寫(xiě)入政府工作報(bào)告。據(jù)統(tǒng)計(jì),2017 年中國(guó)人工智能核心產(chǎn)業(yè)規(guī)模超過(guò) 700 億元,隨著各地人工智能建設(shè)的逐步啟動(dòng),預(yù)計(jì)到 2020 年,中國(guó)人工智能核心產(chǎn)業(yè)規(guī)模將超過(guò) 1600 億元,年復(fù)合增長(zhǎng)率將達(dá) 31.7%。
事實(shí)上,人工智能不是一個(gè)新課題,上個(gè)世紀(jì) 60 年代、80 年代就分別有兩波人工智能熱潮。不同于以往人工智能只存在于高校,現(xiàn)在參與人工智能的企業(yè)數(shù)是過(guò)去的數(shù)倍,可以說(shuō),現(xiàn)在人工智能才開(kāi)始真正走向了實(shí)用。
在目前的中國(guó)經(jīng)濟(jì)體系中,互聯(lián)網(wǎng)是最有創(chuàng)新活力的一個(gè)版塊,擁有著龐大的用戶(hù)規(guī)模。而以這個(gè)群體為核心,中國(guó)在人工智能應(yīng)用領(lǐng)域具備很大優(yōu)勢(shì)。這些互聯(lián)網(wǎng)公司有大量的數(shù)據(jù),有足夠的資金和創(chuàng)新動(dòng)力,也能吸引不少工程師人才,甚至是美國(guó)的頂尖科學(xué)家。
在技術(shù)研究方面,中國(guó)略顯薄弱。好在目前全球是一個(gè)知識(shí)共享體系,在有最前沿的人工智能論文出來(lái)之后,我們很快就能學(xué)習(xí)到新的學(xué)術(shù)成果,并將之轉(zhuǎn)化成生產(chǎn)力。因此,在人工智能應(yīng)用層面上,我認(rèn)為中國(guó)還是有機(jī)會(huì)跟美國(guó)齊頭并進(jìn)的。
那么,AI 的下一個(gè)應(yīng)用突破會(huì)在哪里?
我們已看到當(dāng)前最熱的「智能音箱大戰(zhàn)」...這些事情背后有一個(gè)共同點(diǎn)——讓人工智能開(kāi)始去解決語(yǔ)言的問(wèn)題。
在這一年間,人工智能領(lǐng)域有許多新的突破。包括當(dāng)前最熱「智能音箱大戰(zhàn)」,以及其他「黑科技」。例如,Google 在今年 I/O 大會(huì)上提出,讓機(jī)器幫助人打電話預(yù)訂餐廳等。所有這些事情背后都有一個(gè)共同點(diǎn),那就是讓人工智能開(kāi)始去解決語(yǔ)言的問(wèn)題。
我認(rèn)為以后 AI 會(huì)融入到方方面面,并呈現(xiàn)這樣一個(gè)消費(fèi)趨勢(shì)——機(jī)器越來(lái)越懂人,而不是人去適應(yīng)機(jī)器。比如,從以前的五筆輸入法到現(xiàn)在的拼音、語(yǔ)音輸入,就是一個(gè)從人適應(yīng)機(jī)器到機(jī)器適應(yīng)人的一個(gè)典例。
未來(lái)的 AI,應(yīng)該可以做到讓人和機(jī)器更自然地交流,變得更聰明且能幫人類(lèi)處理更多的工作。人工智能可能會(huì)在以下幾個(gè)領(lǐng)域率先有所發(fā)展:
- 一是識(shí)別。比如涉及到大量識(shí)別工作的安防領(lǐng)域。
- 二是商業(yè)智能,即讓機(jī)器智能做出決策判斷。比如在投資等一些領(lǐng)域,讓機(jī)器做出比人類(lèi)更高效、可靠的判斷。
- 三是在娛樂(lè)產(chǎn)業(yè)。人類(lèi)需要享受藝術(shù)和文化生活,而目前包括畫(huà)作、音樂(lè)、影視劇、游戲等在內(nèi)的相關(guān)作品都由人創(chuàng)作。未來(lái)在 AI 的幫助下,創(chuàng)作效率可以得到極大的提高,為人類(lèi)提供更好的娛樂(lè)產(chǎn)品。
- 另外在這些垂直領(lǐng)域,AI 也會(huì)有大的突破:一個(gè)是醫(yī)療,一個(gè)是電商和客服。
僅 1.5 小時(shí)的數(shù)據(jù)訓(xùn)練,就能生成虛擬主播,搜狗家的技術(shù)優(yōu)勢(shì)在哪里?
這是全球首款高實(shí)用化、定制化的虛擬主播,采用搜狗業(yè)界領(lǐng)先的語(yǔ)音合成、唇語(yǔ)合成、音視頻聯(lián)合建模、深度學(xué)習(xí)等技術(shù)。
在本次大會(huì)(RISE)亮相的虛擬主播是全球首款高實(shí)用化、定制化的虛擬主播,目前市面上還沒(méi)有類(lèi)似的產(chǎn)品。
它采用了搜狗在語(yǔ)音合成、唇語(yǔ)合成、音視頻聯(lián)合建模、深度學(xué)習(xí)等技術(shù)的研究成果。采用一個(gè)主播的音視頻數(shù)據(jù),結(jié)合語(yǔ)音、圖像等多模態(tài)信息進(jìn)行聯(lián)合建模訓(xùn)練,給機(jī)器輸入一段文字,便可以生成一段音視頻同步的新聞播報(bào)。
其最大的難點(diǎn)在于,經(jīng)過(guò)真人主播 1.5 小時(shí)的數(shù)據(jù)訓(xùn)練后,僅提供一段文本,機(jī)器要通過(guò)虛擬主播技術(shù)來(lái)生成逼真度極高的視頻,并且還要確保視頻中主播的音頻和臉部表情、唇動(dòng)能夠自然且一致。

至于技術(shù)優(yōu)勢(shì)方面,早在 2012 年,搜狗就開(kāi)始研究語(yǔ)音合成技術(shù),經(jīng)過(guò)多年的技術(shù)沉淀和數(shù)據(jù)積累,目前已具備多語(yǔ)種、多音色的語(yǔ)音合成能力,并在業(yè)內(nèi)首推個(gè)性化語(yǔ)音合成和情感遷移的技術(shù)。用戶(hù)上傳少量音頻,即可合成高質(zhì)量的個(gè)性化音色,并且能快速遷移成多種講話風(fēng)格(相聲貫口、唱歌、繞口令等)。
未來(lái),搜狗會(huì)在虛擬主播情感表達(dá)上做更深入的研究,讓虛擬主播的真實(shí)感得到提升。結(jié)合搜狗語(yǔ)音交互系統(tǒng)知音 OS 能力,我們可以讓虛擬主播具備交互能力。例如用在帶屏幕的智能音箱,虛擬主播就可以發(fā)展成為虛擬私人助理,用戶(hù)可以從單純與聲音交互變成與一個(gè)逼真的虛擬人物交互。
這么多很牛的技術(shù),具體會(huì)應(yīng)用在哪里?
搜狗希望可以讓人和機(jī)器的交互更自然。接下來(lái)我們會(huì)推出更完整的虛擬主播,它能跟你在互動(dòng)時(shí)開(kāi)始具有自己的表情,甚至模仿具體的人的聲音跟你去互動(dòng),跟用戶(hù)的交互更自然親切。
自然交互方面,搜狗涉及的技術(shù)包括語(yǔ)音識(shí)別與合成、圖像識(shí)別與合成等。其中,搜狗中文語(yǔ)音識(shí)別準(zhǔn)確率已經(jīng)做到 98%。
目前,搜狗輸入法已經(jīng)是中國(guó)最大的語(yǔ)音輸入引擎,為我們的語(yǔ)音交互研究積累了大量語(yǔ)料和用戶(hù)行為基礎(chǔ)。接下來(lái),我們會(huì)把更多的工作聚焦到語(yǔ)種、方言、麥克風(fēng)矩陣,以及語(yǔ)音的糾錯(cuò)修改等。
除了語(yǔ)音識(shí)別以外,我們開(kāi)始嘗試對(duì)于表情做更多的理解,其中包括:
唇語(yǔ)識(shí)別,即機(jī)器通過(guò)圖像識(shí)別捕捉人嘴唇運(yùn)動(dòng),并建立識(shí)別模型。搜狗中文唇語(yǔ)識(shí)別技術(shù)在垂直應(yīng)用領(lǐng)域中的準(zhǔn)確率超過(guò) 90%。
情感遷移技術(shù),即生成相同音色,實(shí)現(xiàn)個(gè)性化語(yǔ)音合成。這一技術(shù)對(duì)聲音結(jié)構(gòu),主要在風(fēng)格、音色等方面,有更深層次的理解。
基于以上幾項(xiàng)技術(shù)聯(lián)合建模,接下來(lái)我們會(huì)推出更完整的虛擬主播,它能跟你在互動(dòng)時(shí)具備自己的表情,甚至模仿具體的人的聲音跟你去互動(dòng),從而跟用戶(hù)的交互變得更自然親切。

這么多很牛的技術(shù),怎么賺錢(qián)?
我們認(rèn)為,靠技術(shù)創(chuàng)新,可以獲得巨大的市場(chǎng)份額。
過(guò)去,搜狗主要依靠搜索廣告盈利,提供的是人和信息的服務(wù)。伴隨 AI 技術(shù)的應(yīng)用,用戶(hù)能夠與機(jī)器進(jìn)行更自然的語(yǔ)言交互。另外,機(jī)器通過(guò)計(jì)算,對(duì)語(yǔ)言邏輯進(jìn)行處理,能給用戶(hù)提供更精準(zhǔn)的答案。
在 AI 技術(shù)的幫助下,這一模式會(huì)獲得更大的增值。這一競(jìng)爭(zhēng)力的直接體現(xiàn)就在于收入的提升。我們認(rèn)為,靠技術(shù)創(chuàng)新,可以獲得巨大的市場(chǎng)份額。
概括來(lái)講,我們的盈利現(xiàn)在分成三大部分:
- 搜索引擎:搜狗在國(guó)內(nèi)占有 18% 的市場(chǎng)份額,一年收入規(guī)模達(dá)到 60 億。
- 搜狗輸入法:幫助中國(guó)人更好的用中文表達(dá)自己的想法,目前,搜狗輸入法在中國(guó) PC 和手機(jī)上都處于相對(duì)壟斷的位置。
- 翻譯:今年我們推出了新的智能硬件,搜狗旅行翻譯寶和搜狗錄音翻譯筆,兩款以 AI 翻譯為核心,能夠幫大家解決語(yǔ)言問(wèn)題的產(chǎn)品。這些產(chǎn)品和搜狗的輸入法是一脈相承的,也是幫大家表達(dá)和獲取信息,而范圍從表達(dá)中文,獲取中文信息,擴(kuò)展到了獲取全世界的信息,和全世界對(duì)話。
另外,在電商和客服等垂直行業(yè),我們會(huì)尋求更大的突破。例如通過(guò)人機(jī)結(jié)合,幫助電商人員更好的表達(dá)他們的想法,從而更方便的提供電商咨詢(xún)等服務(wù)。

從「造硬件」到「賣(mài)硬件」,搜狗這家互聯(lián)網(wǎng)公司有什么心得?
一個(gè)新的產(chǎn)品出來(lái)之后,從用戶(hù)對(duì)它有大概的認(rèn)知,到真正去使用,再到去進(jìn)行口碑傳播,需要一個(gè)過(guò)程。
我們知道,一個(gè)新的產(chǎn)品出來(lái)之后,從用戶(hù)對(duì)它有大概的認(rèn)知,到真正去使用,再到去進(jìn)行口碑傳播,需要一個(gè)過(guò)程。
以搜狗的翻譯寶和錄音翻譯筆這兩款產(chǎn)品為例,從產(chǎn)品角度來(lái)講,目前整個(gè)翻譯市場(chǎng)還是相對(duì)比較垂直、小眾。我們的翻譯類(lèi)產(chǎn)品從推出到現(xiàn)在僅有幾個(gè)月時(shí)間,在這期間,用戶(hù)逐漸形成了對(duì)產(chǎn)品、技術(shù)、企業(yè)的認(rèn)知。
最終,這兩款產(chǎn)品的市場(chǎng)反饋也都不錯(cuò):翻譯寶在首發(fā)日開(kāi)售 1 小時(shí)后,各地就陸續(xù)售罄,當(dāng)日銷(xiāo)售額突破 1000 萬(wàn);搜狗錄音翻譯筆發(fā)售前在京東平臺(tái)的預(yù)約量超過(guò) 11 萬(wàn)。
未來(lái),無(wú)論是在旅游還是在商務(wù)場(chǎng)景,跨語(yǔ)言交流市場(chǎng)將會(huì)巨大的發(fā)展?jié)摿Γ压穼⒋俗鳛橹匾繕?biāo)并有所作為。

關(guān)于川總爆料今年年內(nèi)還會(huì)推出 4 款新硬件,可以了解更多嗎?
可以透露的信息是,它們是以語(yǔ)言為核心的,2C 的、便攜性產(chǎn)品。
這些新產(chǎn)品目前還處于保密階段,可以透露的信息是,它們是以語(yǔ)言為核心的,2C 的、便攜性產(chǎn)品。
在智能硬件布局上,搜狗遵循的核心的邏輯是,產(chǎn)品具有核心的語(yǔ)音、語(yǔ)言交互技術(shù),并為某個(gè)和用戶(hù)個(gè)人直接相關(guān)、真實(shí)落地的場(chǎng)景打造。