擁抱百度、全面開(kāi)放,坐擁 8500 萬(wàn) IoT 終端的小米想要「朋友多多的」

在和「小愛(ài)同學(xué)」相處數(shù)日后,我發(fā)現(xiàn)語(yǔ)音智能把 IoT 盤(pán)活了
語(yǔ)音交互第一次突破了人機(jī)交互距離的限制。
上周二,小米在北京召開(kāi)了首屆小米 IoT 開(kāi)發(fā)者大會(huì),雷軍宣布,在接入 8500 萬(wàn)設(shè)備之后,小米 IoT 平臺(tái)迎來(lái)全面開(kāi)放,包含模塊和硬件開(kāi)放準(zhǔn)入、米家 APP 開(kāi)放接入、新零售渠道開(kāi)放、智能設(shè)備互聯(lián)互通開(kāi)放控制和 AI 云、大數(shù)據(jù)的開(kāi)放共享。
四個(gè)月前,小米的智能音箱「小愛(ài)同學(xué)」發(fā)布時(shí),小米在 IoT 領(lǐng)域的積累為 AI 產(chǎn)品帶來(lái)的助力就已經(jīng)顯露出來(lái)。

作為「小愛(ài)同學(xué)」的第一批用戶,順為資本投資經(jīng)理段譽(yù)在自己的公眾號(hào)上,撰文講述了自己和「小愛(ài)同學(xué)」的相處時(shí)光,以及他對(duì)語(yǔ)音智能的一些行業(yè)洞見(jiàn)。
本文系段譽(yù)的投稿,深圳灣(公眾號(hào) ID:shenzhenware)在保留原文內(nèi)容基礎(chǔ)上,對(duì)文字進(jìn)行了部分優(yōu)化。
段譽(yù),2013 年初加入順為資本,主要負(fù)責(zé)考察移動(dòng)互聯(lián)網(wǎng)和智能硬件領(lǐng)域的投資機(jī)會(huì),曾參與了華米科技、Yeelink、Ninebot、馭光科技等公司的投資。段譽(yù)畢業(yè)于北京大學(xué)經(jīng)濟(jì)學(xué)院,擁有經(jīng)濟(jì)學(xué)學(xué)士和碩士學(xué)位。業(yè)余時(shí)間,他喜歡健身和越野跑,曾完成了北京 TNF 21KM,寧海 50KM 越野挑戰(zhàn)賽等賽事。
故事的開(kāi)始
前兩天朋友跑來(lái)問(wèn)我,如何在自己的豪宅布置智能家居。交流了各種協(xié)議走線問(wèn)題后,我問(wèn)他控制中心怎么做,這位壕哥提出,打算用美帝的 Control4 的觸控面板做中控。

屌絲終于在此刻找到了自豪感,我淡淡地告訴他,自從用了粗糧家的「小愛(ài)同學(xué)」,家里的無(wú)線開(kāi)關(guān)已經(jīng)開(kāi)始積灰了,更不用提智能家庭 App 了。
我在「小愛(ài)同學(xué)」身邊發(fā)現(xiàn)了語(yǔ)音交互的妙不可言
雖然無(wú)法精確度量,但喜歡窩在沙發(fā)上看國(guó)劇的我,本能地發(fā)現(xiàn)說(shuō)一句「小愛(ài)同學(xué),關(guān)閉客廳的燈」,要比伸手去找遙控器(或者遙控器替代品)要省時(shí)、省力、耗能少。
某聲學(xué)項(xiàng)目的 FA 曾嚴(yán)謹(jǐn)?shù)乇容^過(guò)不同交互方式的優(yōu)劣,當(dāng)然他們的結(jié)論是 Voice First(語(yǔ)音交互優(yōu)先)。而我的理解是:對(duì)于不同的指令任務(wù),有不同的最佳交互路徑。
對(duì)于復(fù)雜的長(zhǎng)時(shí)間輸入(例如寫(xiě)這篇文章,或是 coding),目前仍然需要鍵盤(pán)的支持。對(duì)于多輪次復(fù)雜邏輯的交互,視覺(jué)交互的反饋更快,觸控也具有一定優(yōu)勢(shì),例如重設(shè)一部手機(jī),或是在 App 上買(mǎi)機(jī)票。
但如果是單輪輕度輸入,語(yǔ)音交互的優(yōu)勢(shì)就會(huì)很明顯,例如,讓「小愛(ài)同學(xué)」幫忙設(shè)置早上 7 點(diǎn)的鬧鐘,絕對(duì)是「Killer App」。更有趣的是,在這個(gè)場(chǎng)景下,復(fù)雜的輸入設(shè)置——早晨、7點(diǎn)、每天重復(fù)、確認(rèn)——通過(guò)語(yǔ)音交互可以一氣呵成,妙不可言。

我們更喜歡語(yǔ)音交互,并非因?yàn)橛姓Z(yǔ)音識(shí)別技術(shù),或是語(yǔ)音智能對(duì)話,而是因?yàn)檎Z(yǔ)音交互第一次突破了人機(jī)交互距離的限制。能夠躺在床上/沙發(fā)上隨意發(fā)號(hào)施令,過(guò)去只能由「真人助理」來(lái)完成,現(xiàn)在可以由設(shè)備來(lái)完成了。
雖然這些年 Siri 等手機(jī)語(yǔ)音助手一直致力于解決同樣的問(wèn)題,但單純拿起手機(jī)按下 Home 鍵再舉到嘴邊做這個(gè)發(fā)號(hào)施令的動(dòng)作,就已經(jīng)很令人掃興了,更不要說(shuō)因?yàn)橹形膶?duì)話不夠智能,Siri 時(shí)不時(shí)的答非所問(wèn)。
除了語(yǔ)音交互技術(shù)之外,還有通過(guò)視覺(jué)或超聲波的「隔空手勢(shì)識(shí)別與交互」的技術(shù),但它們相對(duì)于同樣遠(yuǎn)距離的語(yǔ)音交互,使用的復(fù)雜度和學(xué)習(xí)成本都太高了。
我在「小愛(ài)同學(xué)」身后學(xué)習(xí)了遠(yuǎn)場(chǎng)語(yǔ)音技術(shù)
遠(yuǎn)場(chǎng)語(yǔ)音交互的一系列功能是如何實(shí)現(xiàn)的呢?它和近場(chǎng)語(yǔ)音的區(qū)別在哪里?
帶著這些問(wèn)題,我研究了相非老師的技術(shù)架構(gòu)圖:

在進(jìn)行語(yǔ)音識(shí)別(包括本地和云端)之前,有一系列復(fù)雜的聲學(xué)前端算法,包括:
- 回波抵消(去除音箱自己播放的音樂(lè))
- 波束形成(只聽(tīng)人說(shuō)話的那個(gè)方向,去除其他方向的干擾)
- 去混響(去除桌椅板凳的聲音反射)
- 聲紋識(shí)別(區(qū)分爸爸在說(shuō)還是媽媽在說(shuō))
經(jīng)過(guò)這一系列的聲學(xué)處理,相對(duì)「干凈」的語(yǔ)音信號(hào)才會(huì)進(jìn)入負(fù)責(zé)喚醒的模型,喚醒之后才會(huì)進(jìn)一步地進(jìn)入云端負(fù)責(zé)語(yǔ)音識(shí)別的模型。
這一交互涉及到了:
- 物理硬件層(聲腔結(jié)構(gòu)設(shè)計(jì),麥克風(fēng)陣列設(shè)計(jì))
- 信號(hào)層(上述聲學(xué)處理)
- 后續(xù)的數(shù)據(jù)層(語(yǔ)音識(shí)別、NLP、TTS 等)
這三層分別需要物理聲學(xué)、信號(hào)處理、和計(jì)算機(jī)專(zhuān)業(yè)三個(gè)領(lǐng)域的人才相互配合,是一個(gè)相當(dāng)復(fù)雜的系統(tǒng)工程。
以上這些知識(shí),還只是語(yǔ)音技術(shù)層面。作為消費(fèi)級(jí)產(chǎn)品,智能音箱想要達(dá)到好的用戶體驗(yàn)效果,還涉及到產(chǎn)品層面、以及產(chǎn)品之上應(yīng)用層面的一系列問(wèn)題。

我在「小愛(ài)同學(xué)」身上看到了未來(lái)已來(lái)
IoT 喊了很多年,從 20 年前的智能家居,到 2009 年無(wú)錫落地的物聯(lián)網(wǎng)產(chǎn)業(yè)園,再到 2014 年火熱的智能家居創(chuàng)業(yè),乃至去年底孫正義大神提出的「鞋子比人更聰明」,IoT 都處在只打雷不下雨的尷尬狀態(tài)。究其原因,我曾經(jīng)認(rèn)為是「云-網(wǎng)-端」三層中端的密度不夠,即設(shè)備數(shù)量還不夠多,從而數(shù)據(jù)量不夠大,和人接觸點(diǎn)也不夠多。
根據(jù)小米最新公布的數(shù)據(jù),MIoT 在 2016 年底大約 5000 萬(wàn)入網(wǎng)設(shè)備,2017 年中達(dá)到 6000 萬(wàn)臺(tái),2017 年 11 月在小米 IoT 開(kāi)發(fā)者大會(huì)上,公布了 8500 萬(wàn)的入網(wǎng)設(shè)備。

在我看來(lái),5000 萬(wàn)和 8000 萬(wàn)并沒(méi)有本質(zhì)的差別,但這些 IoT 設(shè)備一旦融入了智能語(yǔ)音交互后,原先的 App 指令控制、傳感器觸發(fā),就變成了遠(yuǎn)場(chǎng)語(yǔ)音控制。這樣一來(lái),交互界面從單一的手機(jī) App(家里不方便)、傳感器觸發(fā)(冷冰冰且不豐富),擴(kuò)展到了無(wú)處不在的語(yǔ)音指令(方便且有溫度)。

當(dāng)然,語(yǔ)音交互絕不只是遠(yuǎn)距離版的遙控器而已。
獨(dú)立于智能家居的硬件設(shè)備外,語(yǔ)音交互有機(jī)會(huì)將隨身設(shè)備、車(chē)載設(shè)備、乃至互聯(lián)網(wǎng)的一系列服務(wù)串聯(lián)起來(lái)。常見(jiàn)的語(yǔ)音交互場(chǎng)景包括:在車(chē)?yán)锿ㄟ^(guò)語(yǔ)音交互設(shè)備,提前把外賣(mài)點(diǎn)好(已經(jīng)實(shí)現(xiàn));在跑步時(shí)通過(guò)智能耳機(jī),把家里的熱水器打開(kāi)(還需要解決低功耗喚醒問(wèn)題);在家通過(guò)智能音箱,把凱叔召喚出來(lái)給孩子講故事(已經(jīng)實(shí)現(xiàn))。

技術(shù)本身就是讓原本少數(shù)人的特權(quán)(鋼鐵俠擁有的 Javis)飛入尋常百姓家。能夠見(jiàn)證這一過(guò)程,的確令人興奮。