2019-04-24

AI 推動(dòng)硬件變革，第一步是建立成熟的交互模型 | WARE 2019

具體的做法是：優(yōu)化現(xiàn)有交互模型+建立新的交互模型

互聯(lián)網(wǎng)與 AI 的到來(lái)，往往伴隨著新的技術(shù)以及新的產(chǎn)品。但讓新產(chǎn)品滲透到人們的生活中并不是件簡(jiǎn)單的事情，其中，新產(chǎn)品所承載的人機(jī)交互體驗(yàn)是否足夠好，起到至關(guān)重要的作用。

對(duì)于產(chǎn)品廠商來(lái)說(shuō)，將一個(gè)新興的人機(jī)交互模式從頭進(jìn)行研究和打磨，意味著高成本、長(zhǎng)周期的投入，但以他們有限的精力來(lái)看，卻是力不從心。

但好在有這么一些研究機(jī)構(gòu)愿意全身心投入其中，并積極將研究結(jié)果共享出來(lái)，推動(dòng)行業(yè)的共同進(jìn)步。

百度人工智能交互設(shè)計(jì)院就是這么一個(gè)專注研究和探索人機(jī)交互應(yīng)用的機(jī)構(gòu)，于 2017 年 11 月成立，使命是引領(lǐng)與定義最好的人機(jī)交互。

在最近由深圳灣主辦的「ON THE GO：隨行 AI 場(chǎng)景的產(chǎn)品創(chuàng)新」峰會(huì)上，百度人工智能交互設(shè)計(jì)院人機(jī)探索實(shí)驗(yàn)室負(fù)責(zé)人李士巖發(fā)表主題為《人機(jī)交互如何推動(dòng)硬件周期性變革》的演講。

以下為演講實(shí)錄，內(nèi)容經(jīng)深圳灣整理和編輯。

新交互、新產(chǎn)品、新應(yīng)用存在相輔相成的關(guān)系

百度人工智能交互設(shè)計(jì)院研究方向有三個(gè)層次，最底層是「輸入」與「輸出」，即聽覺、視覺、觸覺、嗅覺、情感。中層是交互模型，語(yǔ)音、手勢(shì)、多模態(tài)交互。上層則是基于這些交互模型產(chǎn)生的硬件生態(tài)和服務(wù)生態(tài)。

我今天演講的幾個(gè)關(guān)鍵詞是新交互、新產(chǎn)品、新應(yīng)用，這三者存在著內(nèi)在推動(dòng)關(guān)系與周期性規(guī)律，人機(jī)交互的本質(zhì)是：基于軟硬一體化和傳感器的輸入反饋循環(huán)，人機(jī)交互的進(jìn)化是計(jì)算平臺(tái)迭代的基礎(chǔ)，新計(jì)算平臺(tái)的規(guī)模化會(huì)促進(jìn)應(yīng)用生態(tài)的繁榮。

從 PC 到智能手機(jī)，回顧人機(jī)交互的發(fā)展歷程

在介紹百度人工智能交互設(shè)計(jì)院的一些研究進(jìn)展之前，我們先用「從 PC 到智能手機(jī)」這樣一個(gè)典型的發(fā)展案例來(lái)講解新交互、新產(chǎn)品、新應(yīng)用這三者的關(guān)系，幫助大家更好的理解。

最早的鼠標(biāo)于 1968 年秋季聯(lián)合計(jì)算機(jī)會(huì)議上發(fā)布，那時(shí)候的鼠標(biāo)只能移動(dòng) XY 軸。

而真正形成現(xiàn)代的鼠標(biāo)交互模型，是由施樂公司在 1981 年發(fā)布的 Xerox Star 模型，它具備了目前大家都熟悉的操作：左擊-選擇、雙擊-打開、右擊-更多。

從 1968 年到 1981 年現(xiàn)代鼠標(biāo)交互模型的形成，這期間經(jīng)歷了 13 年的時(shí)間。而正因?yàn)槭髽?biāo)交互模型形成，從 90 年代到 20 世紀(jì)初，PC 硬件生態(tài)得到了發(fā)展，使得我們產(chǎn)生了基于工作的軟件生態(tài)，基于在線教育的軟件生態(tài)，以及基于娛樂的游戲生態(tài)。

事實(shí)上，早在 1965 年，人機(jī)交互歷史上就已經(jīng)有了手指的位置檢測(cè)技術(shù)，而將這種技術(shù)真正轉(zhuǎn)化為現(xiàn)在的點(diǎn)擊、Pinch、長(zhǎng)按的成熟交互模式是在 2007 年。

這種成熟的交互模型，使得眾多觸摸設(shè)備得以被規(guī)模化，尤其是智能手機(jī)。以手機(jī)為主的觸摸設(shè)備的規(guī)模化，直接促進(jìn)了各種服務(wù)生態(tài)的繁榮，比如滴滴、餐飲 O2O 等。

從上帝視角來(lái)看人機(jī)交互和產(chǎn)品，它的完整歷程是：先有一個(gè)技術(shù)起點(diǎn)，包括算法、設(shè)計(jì)、人因工程、硬件，接著將這些技術(shù)起點(diǎn)打包成一個(gè)成熟的交互模型，應(yīng)用到新的計(jì)算平臺(tái)上。計(jì)算平臺(tái)的發(fā)展，進(jìn)一步促進(jìn)了衣食住行等服務(wù)生態(tài)的發(fā)展，而服務(wù)生態(tài)的發(fā)展將反過(guò)來(lái)促進(jìn)硬件規(guī)模化。

我們正處于硬件生態(tài)的末端，但 AI 可改變這一切

目前，我們本質(zhì)上正處于移動(dòng)硬件生態(tài)的末端，不只是因?yàn)槿丝诩t利的消失，更是因?yàn)橛|摸+傳感器所能激發(fā)的服務(wù)生態(tài)走到了盡頭，近幾年不再看到一個(gè)新的服務(wù)生態(tài)被大規(guī)模發(fā)展。所以說(shuō)：

整個(gè)硬件的周期始于技術(shù)的升級(jí)，發(fā)展于人機(jī)交互的成熟，終結(jié)于生態(tài)枯竭于規(guī)模化的終止。

而 AI 的到來(lái)將改變這一切。

AI 讓最底層的輸入輸出層擁有了聽、看和思考的能力，基于 AI 這個(gè)技術(shù)起點(diǎn)，目前已經(jīng)形成了語(yǔ)音交互、手勢(shì)交互、應(yīng)用各種輸入輸出層結(jié)合形成的多模交互。

由于這種交互模型尚未成熟，智能音箱只是其中一種目前看起來(lái)比較有前景的計(jì)算平臺(tái)，但還有更多平臺(tái)需要被創(chuàng)造，也更談不上新的計(jì)算平臺(tái)的規(guī)模化，服務(wù)生態(tài)沒有達(dá)到繁榮。所以我們認(rèn)為：

目前的當(dāng)務(wù)之急是要將待成熟的人機(jī)交互推向成熟。

將待成熟的人機(jī)交互推向成熟

要改變這一現(xiàn)狀，我認(rèn)為努力的方向有兩個(gè)，第一個(gè)是優(yōu)化現(xiàn)有交互模型，提升產(chǎn)品體驗(yàn)。第二個(gè)是發(fā)展新的交互模型，衍生全新品類。

1. 優(yōu)化現(xiàn)有交互模型，提升產(chǎn)品體驗(yàn)。

在這方面，百度 AI 人機(jī)交互設(shè)計(jì)院主要把精力花在語(yǔ)音交互的優(yōu)化上，具體如下：

在語(yǔ)音交互的 5 個(gè)節(jié)點(diǎn)中：?jiǎn)拘选㈨憫?yīng)、輸入、理解、反饋，將每一個(gè)維度拆分出來(lái)不同的維度，進(jìn)行深入的研究和探索。

# 1.1 語(yǔ)音交互的響應(yīng)時(shí)間是否就越快越好呢？

經(jīng)試驗(yàn)研究發(fā)現(xiàn)，語(yǔ)音交互的最佳響應(yīng)時(shí)間是 650ms，底線是 2150s。與觸控交互對(duì)反饋的要求是越快越好不同，語(yǔ)音交互的響應(yīng)時(shí)間卻不是越快越好。

經(jīng)研究發(fā)現(xiàn)，智能音箱對(duì)語(yǔ)音指令的響應(yīng)時(shí)間在 1250ms 以內(nèi)是一個(gè)較優(yōu)的區(qū)間，其中 650ms 為最佳體驗(yàn)值，遠(yuǎn)好于 200ms，過(guò)快的響應(yīng)時(shí)間會(huì)給用戶帶來(lái)緊迫感。

# 1.2 什么樣的喚醒詞用戶是認(rèn)為好的呢？

喚醒詞為疊字，或陰平、尾音聲母為零聲母的好。研究表明，用戶最不喜歡「品牌+名字」的命名方式，Z/C/S 的舌尖音最不被歡迎。

# 車機(jī)屏幕交互、手勢(shì)操作等人機(jī)交互的研究：

其次在車機(jī)屏幕交互、手勢(shì)操作方面，百度 AI 人機(jī)交互設(shè)計(jì)院也進(jìn)行了大量的研究和探討。比如，在車載駕駛情況下，用頭戴式設(shè)備判斷用戶開車時(shí)目光集中分布的部分，從而找到最自然手勢(shì)操作及對(duì)應(yīng)關(guān)系。再比如，從多個(gè)手勢(shì)模型測(cè)試中，找到最適合用在「暫停」、「關(guān)閉」的手勢(shì)。

2. 發(fā)展新的交互模型，衍生全新品類

#2.1 用戶情緒應(yīng)對(duì)模型

在這方面，百度 AI 人機(jī)交互設(shè)計(jì)院研究了用戶情緒應(yīng)對(duì)模型，即用戶的情感交互模型。

情感是人的剛需，但是卻人機(jī)交互缺失的一個(gè)維度。人機(jī)交互發(fā)展的幾十年來(lái)，機(jī)器的 IQ 得到發(fā)生，但 EQ 沒有得到提升。而實(shí)際表明，兩個(gè) IQ 差不多的產(chǎn)品，EQ 更高的那個(gè)產(chǎn)品一定更受歡迎。由此看來(lái)，情感交互模型在人機(jī)交互中起到重要的作用。

情感交互模型分兩個(gè)維度，分別為情感識(shí)別以及識(shí)別情感之后的應(yīng)對(duì)。

情感識(shí)別方面，基于東方人的情緒面部數(shù)據(jù)并進(jìn)行訓(xùn)練，百度 AI 人機(jī)交互設(shè)計(jì)院打造了適合東方人的情感識(shí)別系統(tǒng)。

至于識(shí)別情感之后的應(yīng)對(duì)，我們將模式場(chǎng)景分為兩種，第一種是附帶情緒的任務(wù)，第二種單純負(fù)向情緒的化解。

在實(shí)驗(yàn)室中，我們用不同的應(yīng)對(duì)策略看用戶的腦電曲線。比如，在附帶情緒的任務(wù)中，當(dāng)用戶用悲傷的情緒說(shuō)一個(gè)任務(wù)，最好的策略是先用幾句話回應(yīng)情緒再說(shuō)解決方案，當(dāng)用戶憤怒的時(shí)候，則要直接提供解決的方案。

語(yǔ)音交互還有一些特殊的情況，比如在用戶指責(zé)產(chǎn)品的時(shí)候，語(yǔ)音應(yīng)給予禮貌的回應(yīng)，表明自己的立場(chǎng)，而不是謙卑的「跪舔」。

人類有 27 種情感，通過(guò)情感識(shí)交互模型，我們能夠?qū)⑦@ 27 種豐富的情感一一賦予機(jī)器。

#2.2 更自然語(yǔ)音交互模型

在新的人機(jī)交互模型方面，我們研究的第二個(gè)維度是更自然的自然語(yǔ)音交互模型。

根據(jù)用戶的專注度和與設(shè)備的距離，可以將人機(jī)交互分四個(gè)象限：低專注距離遠(yuǎn)和距離近、高專注距離遠(yuǎn)和距離近。

在我們?nèi)撕椭悄芤粝浣换サ倪^(guò)程中，讓音箱播放歌曲是屬于第三、第四象限的交互范疇（遠(yuǎn)距離、低專注度），在這個(gè)范疇內(nèi)，也會(huì)經(jīng)常出現(xiàn)為了完成一個(gè)連續(xù)任務(wù)而多次呼喚音箱名字的情況。

其中，第一象限的近場(chǎng)高專注度交互，是目前帶屏音箱可以提供的。但針對(duì)這一產(chǎn)品品類，目前還缺乏真正有效的交互模型來(lái)解決一些交互上的問題。對(duì)此，百度 AI 人機(jī)交互研究院在過(guò)去一年里，研究了名為 Easytalk 的交互模型。

在 Easytalk 的模型中，依托復(fù)雜的算法，能在不用麥克風(fēng)陣列、不用喚醒詞的情況下，支持不斷打斷的語(yǔ)音交互，并且不受其他環(huán)境因素影響（比如噪音、其他用戶）。基于這個(gè)交互模型，每 4 輪對(duì)話效率能提升 5%，非 ONE SHOT 主觀感受體驗(yàn)提升了 56.2%，ONE SHOT 主觀感受體驗(yàn)提升了 31.2%。

我們認(rèn)為，近場(chǎng)高專注度交互才是未來(lái)真正能夠帶來(lái)內(nèi)容和生態(tài)爆發(fā)的場(chǎng)景，從人機(jī)交互的角度看，帶屏智能音箱具備了語(yǔ)音、手勢(shì)、視覺等更豐富的輸入輸出能力，既可以滿足遠(yuǎn)場(chǎng)非專注的場(chǎng)景，更可以滿足近場(chǎng)、專注的場(chǎng)景，未來(lái)有可能真正激發(fā)一個(gè)繁榮的服務(wù)生態(tài)。

在未來(lái)，這套 Easytalk 模型將被應(yīng)用在手機(jī)、智能音箱、智能機(jī)器人上。

尾聲

百度 AI 交互設(shè)計(jì)院人因工程方向和人機(jī)探索實(shí)驗(yàn)室一面腳踏實(shí)地，一面仰望星空。并且，我們有著最專業(yè)的設(shè)備，專業(yè)的 AI 人機(jī)交互實(shí)驗(yàn)室。

對(duì)人類來(lái)說(shuō)，目前的 AI 依然處于非常早期的階段，唯有行業(yè)的共同進(jìn)步才是整個(gè)人類歷史的共同進(jìn)步。因此，我們的研究?jī)?nèi)容和結(jié)論，都會(huì)通過(guò)公眾號(hào)（公眾號(hào) ID：BaiduAIID）開放給整個(gè)行業(yè)共享。

百度

人機(jī)交互

深圳灣（微信公眾號(hào) ID：shenzhenware）是最早也是最活躍的硬件創(chuàng)新社區(qū)和媒體，關(guān)注「軟件+硬件」帶來(lái)的場(chǎng)景和交互創(chuàng)新，以及與平臺(tái)和應(yīng)用相連的產(chǎn)業(yè)鏈升級(jí)。

上一篇：站在全新硬件生態(tài)周期的起點(diǎn)，腳踏實(shí)地，仰望星空 | WARE 2019 精華

下一篇：阿里 AI 眼鏡高調(diào)入場(chǎng)，百鏡大戰(zhàn) T0 隊(duì)伍將迎來(lái)新成員