何止 Meta x Oakley,小米等十家 AI 拍攝眼鏡上新!下半年好看!

從藍(lán)牙語(yǔ)音到大屏交互,剖析百度在對(duì)話(huà)式 AI 上的創(chuàng)新 | WARE 2019
藍(lán)牙設(shè)備可以像 WiFi 設(shè)備一樣具備語(yǔ)音交互的能力,這是非常有意義的事情。
2017 年,伴隨人工智能音箱行業(yè)的火熱,基于 AI 的語(yǔ)音交互也正逐漸改變?nèi)藱C(jī)交互的方式。同時(shí),集語(yǔ)音技術(shù)以及內(nèi)容、服務(wù)生態(tài)的語(yǔ)音平臺(tái)應(yīng)運(yùn)而生,這些語(yǔ)音平臺(tái)大多背靠互聯(lián)網(wǎng)巨頭、AI 公司,試圖發(fā)展成為「AI 時(shí)代的安卓」。
對(duì)于這些的公司而言,除了 AI 技術(shù)和內(nèi)容閉環(huán)服務(wù)打通,他們更注重將技術(shù)、應(yīng)用落地到產(chǎn)品,帶給用戶(hù)價(jià)值,這樣才能反過(guò)來(lái)促進(jìn)技術(shù)的進(jìn)步,繁榮生態(tài)。
作為國(guó)內(nèi)最繁榮的語(yǔ)音 AI 生態(tài),百度 DuerOS 在產(chǎn)品落地方面有不少領(lǐng)先的成果。在最近由深圳灣主辦的「ON THE GO:隨行 AI 場(chǎng)景的產(chǎn)品創(chuàng)新」峰會(huì)上,來(lái)自百度智能生活事業(yè)群組的劉悅發(fā)表了主題為《百度在對(duì)話(huà)式人工智能上的創(chuàng)新探索》。
以下為演講實(shí)錄,內(nèi)容經(jīng)深圳灣整理和編輯。
人機(jī)交互發(fā)展:從人理解機(jī)器到機(jī)器理解人
每一次人機(jī)交互的迭代都在推動(dòng)著時(shí)代和產(chǎn)品的發(fā)展。
我們簡(jiǎn)單回顧一下人機(jī)交互發(fā)展經(jīng)歷的三個(gè)階段:第一階段的 PC 時(shí)代,以鼠標(biāo)和鍵盤(pán)的交互方式促進(jìn)了 PC 設(shè)備發(fā)展,相關(guān)軟件也應(yīng)運(yùn)而生。第二階段的觸屏?xí)r代,從過(guò)去的鼠標(biāo)、鍵盤(pán)到觸控手機(jī),使得硬件的使用成本極大的降低。第三階段,也就是目前,語(yǔ)音對(duì)話(huà)的人機(jī)交互方式的發(fā)展,使得我們理解機(jī)器成本進(jìn)一步降低。
從人理解機(jī)器到機(jī)器理解人的交互方式的改變,催生了智能音箱、智能大屏設(shè)備、智能可穿戴設(shè)備、智能車(chē)載等設(shè)備的發(fā)展。
基于語(yǔ)音對(duì)話(huà)的人工智能產(chǎn)業(yè)已經(jīng)全面爆發(fā)
從國(guó)外的市場(chǎng)來(lái)看,亞馬遜 、Google、蘋(píng)果、微軟以及許多創(chuàng)業(yè)型的公司加入到這場(chǎng)智能化的變革當(dāng)中,他們的競(jìng)爭(zhēng)已經(jīng)進(jìn)入白熱化階段,并推動(dòng)整個(gè)市場(chǎng)和產(chǎn)業(yè)的發(fā)展。
回過(guò)頭來(lái)看,國(guó)內(nèi)的市場(chǎng)情況也跟國(guó)外非常像。我們預(yù)測(cè),2020 年,對(duì)話(huà)式人工智能在各個(gè)場(chǎng)景上的滲透將大幅度增加:智能家居(上升 27%)、智能車(chē)載(上升 51%)、智能可穿戴(上升 68%)。

中國(guó)市場(chǎng)的潛力非常巨大,我們發(fā)現(xiàn),目前有非常多的音箱、大屏設(shè)備、穿戴設(shè)備、耳機(jī)等設(shè)備都在變成一個(gè)可人機(jī)自然對(duì)話(huà)的智能設(shè)備,基于語(yǔ)音對(duì)話(huà)的人工智能產(chǎn)業(yè)已經(jīng)全面爆發(fā)。
小度自誕生以來(lái)取得的成績(jī)
百度在 2015 年的時(shí)候發(fā)布了第一款小度產(chǎn)品,從那時(shí)候我們開(kāi)始嘗試和探索如何做一款這樣的產(chǎn)品。至今,小度助手已經(jīng)成為中國(guó)市場(chǎng)最繁榮的語(yǔ)音 AI 生態(tài)。
在 2016、2017 年,我們更多的持「生態(tài)賦能」的思路,不斷跟業(yè)界的其他硬件公司合作,包括音箱企業(yè)、電視企業(yè)(TCL、創(chuàng)維等)、汽車(chē)企業(yè)、手表企業(yè)、耳機(jī)企業(yè)、手機(jī)企業(yè)等。我們把 AI 能力賦予不同場(chǎng)景下不同的硬件,讓這些硬件成為可語(yǔ)音交互的設(shè)備。
2018 年,我們統(tǒng)計(jì)了搭載小度助手設(shè)備的激活數(shù):從年初的 5000 萬(wàn)漲到 2018 年年底的 2 億,至今這個(gè)數(shù)字還在不斷提升。當(dāng)然,激活數(shù)據(jù)并不能代表這個(gè)生態(tài)已經(jīng)達(dá)到繁榮,只能從一個(gè)側(cè)面反映了搭載的能力。而這樣的能力是否真正被用戶(hù)使用,以及用戶(hù)是否接受我們給他的新交互方式?

實(shí)際上,我們也會(huì)非常興奮地看到,從語(yǔ)音交互次數(shù)來(lái)看,用戶(hù)的接受程度也在不斷提升。從 2018 年 3 月到 2018 年年底,我們通過(guò)月語(yǔ)音交互次數(shù)的指標(biāo)來(lái)反映用戶(hù)交互頻率,從最開(kāi)始的 2 億次到達(dá)去年年底的 16 億次,這個(gè)數(shù)字至今還在持續(xù)上升,并且速度非常迅速。

從這兩方面看來(lái),小度已經(jīng)變成了中國(guó)最繁榮的對(duì)話(huà)式人工智能平臺(tái)。
這里面有另外兩個(gè)指標(biāo),我也想分享給大家,一個(gè)是語(yǔ)音技能數(shù)量,目前小度已經(jīng)有上千個(gè)各式各樣的語(yǔ)音技能,我們自己只能做一些頭部的技能,更多長(zhǎng)尾的技能需要開(kāi)發(fā)者不斷提供,這些技能絕大部分都來(lái)自于我們社區(qū)當(dāng)中對(duì)這方面感興趣的開(kāi)發(fā)者,使得生態(tài)變得更加健康和更加活躍。

另外,根據(jù) Strategy Analytics 的統(tǒng)計(jì),2018 年第四季度,小度系列智能設(shè)備的出貨量提升到中國(guó)第二,增長(zhǎng)率達(dá)到了全球第一,增勢(shì)非常迅猛。從現(xiàn)在來(lái)看,小度逐漸進(jìn)入千家萬(wàn)戶(hù),成為用戶(hù)貼心可靠的助手,這也是百度在做對(duì)話(huà)式人工智能方面的理念和終極目標(biāo)。
小度的產(chǎn)品發(fā)展經(jīng)歷
回顧一下小度的發(fā)展歷程。在 2015 年的百度世界大會(huì)上,度秘發(fā)布;2017 年推出的 DuerOS 人工智能的對(duì)話(huà)系統(tǒng),到后來(lái)發(fā)展到了 DuerOS 2.0、3.0,期間還發(fā)布了帶屏的小度在家。2019 年 2 月,百度發(fā)布了小度電視伴侶以及小度在家 1S 這兩個(gè)產(chǎn)品。
我們經(jīng)歷了從開(kāi)始發(fā)布產(chǎn)品,到后面不斷給第三方賦能,一直到后面自研硬件,一路走下來(lái)的過(guò)程。

百度對(duì)話(huà)式人工智能的創(chuàng)新一:藍(lán)牙語(yǔ)音解決方案
接下來(lái)講一講百度在對(duì)話(huà)式人工智能所做的創(chuàng)新。除了大家熟悉的無(wú)屏音箱、帶屏智能音箱,我們還在其他方向做了探索,今天借這個(gè)機(jī)會(huì)給大家來(lái)簡(jiǎn)單分享。
第一個(gè)是藍(lán)牙設(shè)備。面對(duì)各種各樣的藍(lán)牙設(shè)備(藍(lán)牙耳機(jī)和手環(huán)等),我們萌生出了給這些藍(lán)牙設(shè)備賦能的想法——使得藍(lán)牙設(shè)備可以像 WiFi 設(shè)備一樣具備語(yǔ)音交互的能力,這是非常有意義的事情。
我們首先來(lái)看一下藍(lán)牙設(shè)備的趨勢(shì):根據(jù) SIG 的調(diào)查,截止到 2022 年,整個(gè)藍(lán)牙設(shè)備全球鋪貨量達(dá)到 8.8 億臺(tái)。這意味著有很多藍(lán)牙設(shè)備等待著我們?nèi)ド?jí),對(duì)話(huà)式 AI 技術(shù)將對(duì)傳統(tǒng)的藍(lán)牙市場(chǎng)帶來(lái)新的機(jī)遇。

從場(chǎng)景上來(lái)看,藍(lán)牙設(shè)備也存在許多痛點(diǎn)。我們主要總結(jié)了三個(gè)場(chǎng)景,一個(gè)是家中,一個(gè)是路上,一個(gè)是在車(chē)內(nèi)。在家中,智能音箱既支持 WiFi 又支持藍(lán)牙,可進(jìn)行語(yǔ)音交互。在路上有穿戴設(shè)備和智能耳機(jī),蘋(píng)果前不久發(fā)布第二代 AirPods 支持了 Siri 語(yǔ)音喚醒。第三個(gè)場(chǎng)景是車(chē)內(nèi),人在開(kāi)車(chē)的時(shí)候雙手被限制在方向盤(pán)上,這時(shí)候語(yǔ)音交互就會(huì)變成非常自然的交互方式。

基于這三個(gè)場(chǎng)景,我們?cè)趺磶椭脩?hù)提升他的體驗(yàn),怎么幫助設(shè)備商更好地提升產(chǎn)品呢?這就是我們之前半年到一年時(shí)間探索當(dāng)中希望解決的問(wèn)題。
小度藍(lán)牙解決方案
在 2018 年 7 月的百度開(kāi)發(fā)者大會(huì)上,百度在國(guó)內(nèi)率先提出了藍(lán)牙設(shè)備的語(yǔ)音解決方案——DMA 藍(lán)牙解決方案。在 11 月的百度世界大會(huì)上,我們發(fā)布了第一款基于 DMA 藍(lán)牙協(xié)議的車(chē)載支架,這也是我們?cè)谲?chē)載場(chǎng)景上基于藍(lán)牙解決方案做的實(shí)踐產(chǎn)品。這個(gè)產(chǎn)品并不希望攪亂市場(chǎng),我們更多是想告訴其他相關(guān)的廠商,這樣的一個(gè)方案是 work 的、是被用戶(hù)買(mǎi)賬的。
同時(shí),因?yàn)榫τ邢蓿覀円膊幌M耆约簛?lái)做所有語(yǔ)音藍(lán)牙設(shè)備,而是希望把藍(lán)牙合作方案輸出給更多合作伙伴,讓大家打造出具備智能對(duì)話(huà)能力的藍(lán)牙設(shè)備。
而做這件事情的時(shí)候,會(huì)給廠商帶來(lái)一系列的問(wèn)題,比如:
用戶(hù)是否有需求?對(duì)這樣的產(chǎn)品感興趣嗎?
是否會(huì)增加很大的生產(chǎn)成本?
AI 技術(shù)接入門(mén)檻高嗎?是否需要投入很多人力和周期?
有成型的方案幫助我們落地嗎?
語(yǔ)音能力、NLP 打包在方案中嗎?
可以給用戶(hù)提供哪些內(nèi)容資源?是否收費(fèi)?

實(shí)際中,我們對(duì)這些問(wèn)題也進(jìn)行了研究和探討:
小度的裝機(jī)量、活躍度,以及小度車(chē)載支架的熱賣(mài),從市場(chǎng)角度印證了,用戶(hù)對(duì)這個(gè)產(chǎn)品有非常大的剛需。
產(chǎn)品的功能方面,我們?cè)谛《人{(lán)牙方案上基于不同的場(chǎng)景做深度的打磨,比如車(chē)載支架相應(yīng)的車(chē)載場(chǎng)景,剛需的內(nèi)容就包括娛樂(lè)、導(dǎo)航、接打電話(huà),針對(duì)這些場(chǎng)景深度打磨的產(chǎn)品都會(huì)在小度 APP 上得以體現(xiàn)。
針對(duì)技術(shù)門(mén)檻,我們也做了很多優(yōu)化,提供 SDK 的開(kāi)發(fā)套件,把研發(fā)的門(mén)檻降到非常低。

DMA 整套方案是免費(fèi)的一體化解決方案,包括語(yǔ)音技術(shù)、背后的內(nèi)容資源和開(kāi)放生態(tài),以及第三方技能。
關(guān)于小度藍(lán)牙的解決方案
接下來(lái)是具體的方案介紹,小度藍(lán)牙的解決方案主要包含兩部分,一個(gè)是小度 APP,第二個(gè)是 DMA 協(xié)議。DMA 協(xié)議的主要作用是幫助藍(lán)牙硬件和手機(jī)上的 APP 之間進(jìn)行對(duì)話(huà)式交互通訊。

通過(guò)我們提供的 DMA SDK,可以快速把 AI 移植到藍(lán)牙設(shè)備,讓數(shù)以千萬(wàn)的藍(lán)牙設(shè)備瞬間變成可以對(duì)話(huà)的人工智能設(shè)備。
當(dāng)這些藍(lán)牙設(shè)備有了語(yǔ)音交互的能力,就能夠讓用戶(hù)通過(guò)語(yǔ)音交互獲取小度云端的內(nèi)容,包括聽(tīng)音樂(lè)、有聲節(jié)目、導(dǎo)航、控制家居等等。

小度的 DMA 語(yǔ)音解決方案有效解決了經(jīng)典藍(lán)牙協(xié)議的以下痛點(diǎn):觸碰和按鍵觸發(fā)、語(yǔ)音輸入延時(shí)明顯、APP 之間的串?dāng)_和搶占等。
DMA 解決方案的語(yǔ)音交互不需要觸發(fā)按鈕,并針對(duì)遠(yuǎn)場(chǎng)的語(yǔ)音交互做了非常多的優(yōu)化,在車(chē)內(nèi)復(fù)雜的環(huán)境下,喚醒率達(dá)到了 97% 以上;DMA 解決方案的 BLE/RFCOMM 通道和 A2DP 可以同時(shí)使用,延時(shí)從 500ms-2000ms 下降到 200ms-300ms,不影響占用錄音通道的 App。

百度對(duì)話(huà)式人工智能的創(chuàng)新二:大屏交互
今天還會(huì)跟大家分享我們另外一個(gè)在做的創(chuàng)新探索,即大屏體驗(yàn)。
「讓用戶(hù)放下遙控器」是我們做大屏探索時(shí)給自己設(shè)定的一個(gè)目標(biāo)。針對(duì)找不到遙控器、找片很費(fèi)勁、音質(zhì)不理想的幾大痛點(diǎn),我們做了小度電視伴侶這樣一個(gè)設(shè)備,它有很好的 Hi-Fi 音質(zhì),全語(yǔ)音遠(yuǎn)場(chǎng)交互,和全天候人工智能助手,這個(gè)產(chǎn)品最終的銷(xiāo)量也遠(yuǎn)高于我們的預(yù)期。

在小度電視伴侶,我們專(zhuān)門(mén)設(shè)計(jì)的小度智能電視 UI 可以告訴用戶(hù),放下遙控器、試著通過(guò)語(yǔ)音來(lái)跟這個(gè)設(shè)備進(jìn)行交互;

我們還創(chuàng)造了「大屏信息流」的概念,把好的內(nèi)容通過(guò)信息流呈現(xiàn),并通過(guò)語(yǔ)音交互做定制化的推送;

同時(shí),這一設(shè)備的整套系統(tǒng)全面接入了小度語(yǔ)音助手,使得語(yǔ)音無(wú)處不在,它開(kāi)機(jī)時(shí)就是智能電視,關(guān)上之后就變成智能音箱,語(yǔ)音交互一直在線(xiàn)……
針對(duì)電視上 APP 應(yīng)用安裝麻煩的痛點(diǎn),小度電視伴侶搭載了 DuerOS 的語(yǔ)音技能,不需要安裝,只需一句話(huà)就可以調(diào)用。

我們希望在后續(xù)中不斷探索人機(jī)交互,以及人工智能如何賦能不同場(chǎng)景的智能硬件,希望對(duì)話(huà)式硬件被更多人使用。