站在全新硬件生態(tài)周期的起點(diǎn),腳踏實(shí)地,仰望星空 | WARE 2019 精華

AI 推動(dòng)硬件變革,第一步是建立成熟的交互模型 | WARE 2019
具體的做法是:優(yōu)化現(xiàn)有交互模型+建立新的交互模型
互聯(lián)網(wǎng)與 AI 的到來(lái),往往伴隨著新的技術(shù)以及新的產(chǎn)品。但讓新產(chǎn)品滲透到人們的生活中并不是件簡(jiǎn)單的事情,其中,新產(chǎn)品所承載的人機(jī)交互體驗(yàn)是否足夠好,起到至關(guān)重要的作用。
對(duì)于產(chǎn)品廠商來(lái)說(shuō),將一個(gè)新興的人機(jī)交互模式從頭進(jìn)行研究和打磨,意味著高成本、長(zhǎng)周期的投入,但以他們有限的精力來(lái)看,卻是力不從心。
但好在有這么一些研究機(jī)構(gòu)愿意全身心投入其中,并積極將研究結(jié)果共享出來(lái),推動(dòng)行業(yè)的共同進(jìn)步。
百度人工智能交互設(shè)計(jì)院就是這么一個(gè)專注研究和探索人機(jī)交互應(yīng)用的機(jī)構(gòu),于 2017 年 11 月成立,使命是引領(lǐng)與定義最好的人機(jī)交互。
在最近由深圳灣主辦的「ON THE GO:隨行 AI 場(chǎng)景的產(chǎn)品創(chuàng)新」峰會(huì)上,百度人工智能交互設(shè)計(jì)院人機(jī)探索實(shí)驗(yàn)室負(fù)責(zé)人李士巖發(fā)表主題為《人機(jī)交互如何推動(dòng)硬件周期性變革》的演講。
以下為演講實(shí)錄,內(nèi)容經(jīng)深圳灣整理和編輯。
新交互、新產(chǎn)品、新應(yīng)用存在相輔相成的關(guān)系
百度人工智能交互設(shè)計(jì)院研究方向有三個(gè)層次,最底層是「輸入」與「輸出」,即聽覺、視覺、觸覺、嗅覺、情感。中層是交互模型,語(yǔ)音、手勢(shì)、多模態(tài)交互。上層則是基于這些交互模型產(chǎn)生的硬件生態(tài)和服務(wù)生態(tài)。

我今天演講的幾個(gè)關(guān)鍵詞是新交互、新產(chǎn)品、新應(yīng)用,這三者存在著內(nèi)在推動(dòng)關(guān)系與周期性規(guī)律,人機(jī)交互的本質(zhì)是:基于軟硬一體化和傳感器的輸入反饋循環(huán),人機(jī)交互的進(jìn)化是計(jì)算平臺(tái)迭代的基礎(chǔ),新計(jì)算平臺(tái)的規(guī)模化會(huì)促進(jìn)應(yīng)用生態(tài)的繁榮。
從 PC 到智能手機(jī),回顧人機(jī)交互的發(fā)展歷程
在介紹百度人工智能交互設(shè)計(jì)院的一些研究進(jìn)展之前,我們先用「從 PC 到智能手機(jī)」這樣一個(gè)典型的發(fā)展案例來(lái)講解新交互、新產(chǎn)品、新應(yīng)用這三者的關(guān)系,幫助大家更好的理解。
最早的鼠標(biāo)于 1968 年秋季聯(lián)合計(jì)算機(jī)會(huì)議上發(fā)布,那時(shí)候的鼠標(biāo)只能移動(dòng) XY 軸。

而真正形成現(xiàn)代的鼠標(biāo)交互模型,是由施樂公司在 1981 年發(fā)布的 Xerox Star 模型,它具備了目前大家都熟悉的操作:左擊-選擇、雙擊-打開、右擊-更多。

從 1968 年到 1981 年現(xiàn)代鼠標(biāo)交互模型的形成,這期間經(jīng)歷了 13 年的時(shí)間。而正因?yàn)槭髽?biāo)交互模型形成,從 90 年代到 20 世紀(jì)初,PC 硬件生態(tài)得到了發(fā)展,使得我們產(chǎn)生了基于工作的軟件生態(tài),基于在線教育的軟件生態(tài),以及基于娛樂的游戲生態(tài)。
事實(shí)上,早在 1965 年,人機(jī)交互歷史上就已經(jīng)有了手指的位置檢測(cè)技術(shù),而將這種技術(shù)真正轉(zhuǎn)化為現(xiàn)在的點(diǎn)擊、Pinch、長(zhǎng)按的成熟交互模式是在 2007 年。

△ 手指的位置檢測(cè)技術(shù)形成于 1965 年
這種成熟的交互模型,使得眾多觸摸設(shè)備得以被規(guī)模化,尤其是智能手機(jī)。以手機(jī)為主的觸摸設(shè)備的規(guī)模化,直接促進(jìn)了各種服務(wù)生態(tài)的繁榮,比如滴滴、餐飲 O2O 等。

從上帝視角來(lái)看人機(jī)交互和產(chǎn)品,它的完整歷程是:先有一個(gè)技術(shù)起點(diǎn),包括算法、設(shè)計(jì)、人因工程、硬件,接著將這些技術(shù)起點(diǎn)打包成一個(gè)成熟的交互模型,應(yīng)用到新的計(jì)算平臺(tái)上。計(jì)算平臺(tái)的發(fā)展,進(jìn)一步促進(jìn)了衣食住行等服務(wù)生態(tài)的發(fā)展,而服務(wù)生態(tài)的發(fā)展將反過(guò)來(lái)促進(jìn)硬件規(guī)模化。

我們正處于硬件生態(tài)的末端,但 AI 可改變這一切
目前,我們本質(zhì)上正處于移動(dòng)硬件生態(tài)的末端,不只是因?yàn)槿丝诩t利的消失,更是因?yàn)橛|摸+傳感器所能激發(fā)的服務(wù)生態(tài)走到了盡頭,近幾年不再看到一個(gè)新的服務(wù)生態(tài)被大規(guī)模發(fā)展。所以說(shuō):
整個(gè)硬件的周期始于技術(shù)的升級(jí),發(fā)展于人機(jī)交互的成熟,終結(jié)于生態(tài)枯竭于規(guī)模化的終止。
而 AI 的到來(lái)將改變這一切。
AI 讓最底層的輸入輸出層擁有了聽、看和思考的能力,基于 AI 這個(gè)技術(shù)起點(diǎn),目前已經(jīng)形成了語(yǔ)音交互、手勢(shì)交互、應(yīng)用各種輸入輸出層結(jié)合形成的多模交互。

由于這種交互模型尚未成熟,智能音箱只是其中一種目前看起來(lái)比較有前景的計(jì)算平臺(tái),但還有更多平臺(tái)需要被創(chuàng)造,也更談不上新的計(jì)算平臺(tái)的規(guī)模化,服務(wù)生態(tài)沒有達(dá)到繁榮。所以我們認(rèn)為:
目前的當(dāng)務(wù)之急是要將待成熟的人機(jī)交互推向成熟。
將待成熟的人機(jī)交互推向成熟
要改變這一現(xiàn)狀,我認(rèn)為努力的方向有兩個(gè),第一個(gè)是優(yōu)化現(xiàn)有交互模型,提升產(chǎn)品體驗(yàn)。第二個(gè)是發(fā)展新的交互模型,衍生全新品類。
1. 優(yōu)化現(xiàn)有交互模型,提升產(chǎn)品體驗(yàn)。
在這方面,百度 AI 人機(jī)交互設(shè)計(jì)院主要把精力花在語(yǔ)音交互的優(yōu)化上,具體如下:
在語(yǔ)音交互的 5 個(gè)節(jié)點(diǎn)中:?jiǎn)拘选㈨憫?yīng)、輸入、理解、反饋,將每一個(gè)維度拆分出來(lái)不同的維度,進(jìn)行深入的研究和探索。
# 1.1 語(yǔ)音交互的響應(yīng)時(shí)間是否就越快越好呢?
經(jīng)試驗(yàn)研究發(fā)現(xiàn),語(yǔ)音交互的最佳響應(yīng)時(shí)間是 650ms,底線是 2150s。與觸控交互對(duì)反饋的要求是越快越好不同,語(yǔ)音交互的響應(yīng)時(shí)間卻不是越快越好。

經(jīng)研究發(fā)現(xiàn),智能音箱對(duì)語(yǔ)音指令的響應(yīng)時(shí)間在 1250ms 以內(nèi)是一個(gè)較優(yōu)的區(qū)間,其中 650ms 為最佳體驗(yàn)值,遠(yuǎn)好于 200ms,過(guò)快的響應(yīng)時(shí)間會(huì)給用戶帶來(lái)緊迫感。
# 1.2 什么樣的喚醒詞用戶是認(rèn)為好的呢?
喚醒詞為疊字,或陰平、尾音聲母為零聲母的好。研究表明,用戶最不喜歡「品牌+名字」的命名方式,Z/C/S 的舌尖音最不被歡迎。

# 車機(jī)屏幕交互、手勢(shì)操作等人機(jī)交互的研究:
其次在車機(jī)屏幕交互、手勢(shì)操作方面,百度 AI 人機(jī)交互設(shè)計(jì)院也進(jìn)行了大量的研究和探討。比如,在車載駕駛情況下,用頭戴式設(shè)備判斷用戶開車時(shí)目光集中分布的部分,從而找到最自然手勢(shì)操作及對(duì)應(yīng)關(guān)系。再比如,從多個(gè)手勢(shì)模型測(cè)試中,找到最適合用在「暫停」、「關(guān)閉」的手勢(shì)。
2. 發(fā)展新的交互模型,衍生全新品類
#2.1 用戶情緒應(yīng)對(duì)模型
在這方面,百度 AI 人機(jī)交互設(shè)計(jì)院研究了用戶情緒應(yīng)對(duì)模型,即用戶的情感交互模型。
情感是人的剛需,但是卻人機(jī)交互缺失的一個(gè)維度。人機(jī)交互發(fā)展的幾十年來(lái),機(jī)器的 IQ 得到發(fā)生,但 EQ 沒有得到提升。而實(shí)際表明,兩個(gè) IQ 差不多的產(chǎn)品,EQ 更高的那個(gè)產(chǎn)品一定更受歡迎。由此看來(lái),情感交互模型在人機(jī)交互中起到重要的作用。
情感交互模型分兩個(gè)維度,分別為情感識(shí)別以及識(shí)別情感之后的應(yīng)對(duì)。
情感識(shí)別方面,基于東方人的情緒面部數(shù)據(jù)并進(jìn)行訓(xùn)練,百度 AI 人機(jī)交互設(shè)計(jì)院打造了適合東方人的情感識(shí)別系統(tǒng)。
至于識(shí)別情感之后的應(yīng)對(duì),我們將模式場(chǎng)景分為兩種,第一種是附帶情緒的任務(wù),第二種單純負(fù)向情緒的化解。
在實(shí)驗(yàn)室中,我們用不同的應(yīng)對(duì)策略看用戶的腦電曲線。比如,在附帶情緒的任務(wù)中,當(dāng)用戶用悲傷的情緒說(shuō)一個(gè)任務(wù),最好的策略是先用幾句話回應(yīng)情緒再說(shuō)解決方案,當(dāng)用戶憤怒的時(shí)候,則要直接提供解決的方案。

語(yǔ)音交互還有一些特殊的情況,比如在用戶指責(zé)產(chǎn)品的時(shí)候,語(yǔ)音應(yīng)給予禮貌的回應(yīng),表明自己的立場(chǎng),而不是謙卑的「跪舔」。

人類有 27 種情感,通過(guò)情感識(shí)交互模型,我們能夠?qū)⑦@ 27 種豐富的情感一一賦予機(jī)器。
#2.2 更自然語(yǔ)音交互模型
在新的人機(jī)交互模型方面,我們研究的第二個(gè)維度是更自然的自然語(yǔ)音交互模型。
根據(jù)用戶的專注度和與設(shè)備的距離,可以將人機(jī)交互分四個(gè)象限:低專注距離遠(yuǎn)和距離近、高專注距離遠(yuǎn)和距離近。

在我們?nèi)撕椭悄芤粝浣换サ倪^(guò)程中,讓音箱播放歌曲是屬于第三、第四象限的交互范疇(遠(yuǎn)距離、低專注度),在這個(gè)范疇內(nèi),也會(huì)經(jīng)常出現(xiàn)為了完成一個(gè)連續(xù)任務(wù)而多次呼喚音箱名字的情況。
其中,第一象限的近場(chǎng)高專注度交互,是目前帶屏音箱可以提供的。但針對(duì)這一產(chǎn)品品類,目前還缺乏真正有效的交互模型來(lái)解決一些交互上的問題。對(duì)此,百度 AI 人機(jī)交互研究院在過(guò)去一年里,研究了名為 Easytalk 的交互模型。
在 Easytalk 的模型中,依托復(fù)雜的算法,能在不用麥克風(fēng)陣列、不用喚醒詞的情況下,支持不斷打斷的語(yǔ)音交互,并且不受其他環(huán)境因素影響(比如噪音、其他用戶)。基于這個(gè)交互模型,每 4 輪對(duì)話效率能提升 5%,非 ONE SHOT 主觀感受體驗(yàn)提升了 56.2%,ONE SHOT 主觀感受體驗(yàn)提升了 31.2%。
我們認(rèn)為,近場(chǎng)高專注度交互才是未來(lái)真正能夠帶來(lái)內(nèi)容和生態(tài)爆發(fā)的場(chǎng)景,從人機(jī)交互的角度看,帶屏智能音箱具備了語(yǔ)音、手勢(shì)、視覺等更豐富的輸入輸出能力,既可以滿足遠(yuǎn)場(chǎng)非專注的場(chǎng)景,更可以滿足近場(chǎng)、專注的場(chǎng)景,未來(lái)有可能真正激發(fā)一個(gè)繁榮的服務(wù)生態(tài)。
在未來(lái),這套 Easytalk 模型將被應(yīng)用在手機(jī)、智能音箱、智能機(jī)器人上。
尾聲
百度 AI 交互設(shè)計(jì)院人因工程方向和人機(jī)探索實(shí)驗(yàn)室一面腳踏實(shí)地,一面仰望星空。并且,我們有著最專業(yè)的設(shè)備,專業(yè)的 AI 人機(jī)交互實(shí)驗(yàn)室。
對(duì)人類來(lái)說(shuō),目前的 AI 依然處于非常早期的階段,唯有行業(yè)的共同進(jìn)步才是整個(gè)人類歷史的共同進(jìn)步。因此,我們的研究?jī)?nèi)容和結(jié)論,都會(huì)通過(guò)公眾號(hào)(公眾號(hào) ID:BaiduAIID)開放給整個(gè)行業(yè)共享。