用藍(lán)牙造「智能」音箱,日本電信巨頭 DOCOMO 這款產(chǎn)品給了一個(gè)新思路

Synaptics Saleel:現(xiàn)有人機(jī)交互界面技術(shù)的創(chuàng)新應(yīng)用,將為用戶帶來(lái)語(yǔ)音 AI 的沉浸式體驗(yàn) | WARE 2018
借助下一代環(huán)境感知語(yǔ)音 AI,智能設(shè)備將得到革命性發(fā)展,它可智能識(shí)別用戶、位置以及對(duì)話場(chǎng)景。
關(guān)于語(yǔ)音智能硬件,大部分人都或多或少了解一些名聲響亮的產(chǎn)品商和技術(shù)提供商。殊不知,為了實(shí)現(xiàn)技術(shù)落地、并與產(chǎn)品服務(wù)實(shí)現(xiàn)無(wú)縫的結(jié)合,背后還有不少默默為之操心的技術(shù)開(kāi)發(fā)提供商。而 Synaptics 就是這樣一家「產(chǎn)品背后的公司」,致力為智能設(shè)備提供創(chuàng)新性和直觀式用戶體驗(yàn),擁有包括語(yǔ)音、生物識(shí)別、觸控、顯示、處理和成像的技術(shù)。
在此次峰會(huì),Synaptics 全球副總裁兼語(yǔ)音和圖像部門總經(jīng)理 Saleel Awsare 就「下一代環(huán)境感知語(yǔ)音 AI」進(jìn)行了主題分享。

隨著語(yǔ)音、視覺(jué)等 AI 技術(shù)的發(fā)展,智能設(shè)備也將得到變革,從過(guò)去人們需要主動(dòng)學(xué)習(xí)怎么使用設(shè)備,到現(xiàn)在人們?cè)诒姸嘣O(shè)備(手機(jī)、平板等)之間自如控制。Saleel 認(rèn)為,在未來(lái),智能設(shè)備將在環(huán)境感知 AI 的驅(qū)動(dòng)下適應(yīng)用戶,在這過(guò)程中,語(yǔ)音交互將從事務(wù)性處理向環(huán)境感知處理轉(zhuǎn)變,它會(huì)自動(dòng)識(shí)別用戶以及用戶環(huán)境,并根據(jù)對(duì)話內(nèi)容提供相應(yīng)的場(chǎng)景服務(wù)。
另外 Saleel 還進(jìn)一步表示,僅僅需要?jiǎng)?chuàng)新性的想法和應(yīng)用,利用 Synaptics 現(xiàn)有的語(yǔ)音、圖像、生物識(shí)別、擴(kuò)展顯示等人機(jī)交互技術(shù),我們將能創(chuàng)造出一個(gè)真正的沉浸式智能人機(jī)交互體驗(yàn)。
————————嘉賓演講實(shí)錄————————

演講嘉賓:Saleel Awsare / Synaptics 全球副總裁兼語(yǔ)音和圖像部門總經(jīng)理
演講主題:語(yǔ)音、圖像、生物識(shí)別,人機(jī)交互領(lǐng)域的技術(shù)趨勢(shì)和最新應(yīng)用
作為一家致力于人機(jī)交互界面廠商,Synaptics 致力于交互技術(shù)的革新和應(yīng)用
Synaptics 是一家致力于人機(jī)交互界面廠商,致力為智能設(shè)備提供創(chuàng)新性和直觀式用戶體驗(yàn),擁有包括語(yǔ)音、生物識(shí)別、觸控、顯示、處理和成像的技術(shù),已經(jīng)在 PC、移動(dòng)端手機(jī)、車載、IoT 等領(lǐng)域有豐厚的技術(shù)積累。
早在 2007 年,我們組建了語(yǔ)音技術(shù)團(tuán)隊(duì),專注于 Audiosmart;2012 年,全球首款支持語(yǔ)音功能的電視機(jī)發(fā)布,搭載了 Synaptics AudioSmart 技術(shù);2015 年,Synaptics 為主要 PC OEM 廠商提供語(yǔ)音技術(shù)合作體驗(yàn);
到了 2017 年,Synaptics 已與亞馬遜、微軟、百度、騰訊、SK Telecom、Korea Telecom、Naver、Kakao、NTT Docomo 等知名廠商合作發(fā)布 AudioSmart 開(kāi)發(fā)套件。
在過(guò)去一年,Synaptics 一共支持了 70 多個(gè)遠(yuǎn)場(chǎng)語(yǔ)音產(chǎn)品的實(shí)現(xiàn)。囊括的產(chǎn)品包含智能音箱、機(jī)器人、智能冰箱、智能燈、智能車載配件等等。
作為一家人機(jī)交互界面技術(shù)開(kāi)發(fā)提供商,Synaptics 致力于 Voice Product 多年,已經(jīng)見(jiàn)證了語(yǔ)音人機(jī)交互技術(shù)在不同時(shí)代、在各類產(chǎn)品中的應(yīng)用。
借助下一代環(huán)境感知語(yǔ)音 AI,智能設(shè)備將得到革命性發(fā)展
從 PC 到移動(dòng)互聯(lián)網(wǎng),再到如今的物聯(lián)網(wǎng)時(shí)代,我們明顯感覺(jué)到人機(jī)界面技術(shù)正在發(fā)生變化。從穿孔卡、鍵盤(pán)、鼠標(biāo)、觸控,大家即將迎來(lái)語(yǔ)音交互的時(shí)代。
我們也了解到,在過(guò)去 4-5 年間,Siri 等語(yǔ)音助手主要被應(yīng)用在手機(jī)移動(dòng)端。而在這兩年里,語(yǔ)音交互技術(shù)得到快速發(fā)展,并且正在滲透到我們生活的方方面面,達(dá)到「無(wú)處不在」的地步。
隨著語(yǔ)音、視覺(jué)等 AI 技術(shù)的發(fā)展,人機(jī)交互方式正在發(fā)生改變,而重要的是,我們使用的智能設(shè)備也在發(fā)生變革。從過(guò)去人們需要主動(dòng)學(xué)習(xí)怎么使用設(shè)備,到現(xiàn)在人們?cè)诒姸嘣O(shè)備(手機(jī)、平板等)之間自如控制。
我們認(rèn)為,能夠自動(dòng)感知、適應(yīng)用戶的 AI 設(shè)備是下一代設(shè)備的趨勢(shì),人們不需要學(xué)習(xí)或接觸設(shè)備,而是設(shè)備反過(guò)來(lái)主動(dòng)感知環(huán)境和用戶。其中,擁有自主學(xué)習(xí)能力的「環(huán)境感知語(yǔ)音 AI」在起到關(guān)鍵作用。
在這過(guò)程中,語(yǔ)音交互將從事務(wù)性處理向環(huán)境感知處理轉(zhuǎn)變,它會(huì)自動(dòng)識(shí)別用戶以及用戶環(huán)境,并根據(jù)對(duì)話內(nèi)容提供相應(yīng)的場(chǎng)景服務(wù)。
環(huán)境感知語(yǔ)音 AI 在家庭、辦公、車載、動(dòng)態(tài)(On The GO)等場(chǎng)景下的應(yīng)用
在環(huán)境感知計(jì)算的作用下,環(huán)境感知語(yǔ)音 AI 能實(shí)現(xiàn)從各個(gè)感觀上「洞察」用戶狀態(tài)和需求,包括:
- 可以探測(cè)到用戶的注視,實(shí)現(xiàn)無(wú)縫交互。`
- 解讀用戶情緒,作出積極回應(yīng)。
- 從人群中識(shí)別特定用戶的聲音和指令。
- 預(yù)估用戶的距離、語(yǔ)氣和情境。

另外,目前語(yǔ)音指令大多在云端處理,未來(lái),在智能云端的幫助下,語(yǔ)音指令將實(shí)現(xiàn)在本地處理,以保障用戶隱私安全、提升語(yǔ)音 AI 的響應(yīng)速度以及產(chǎn)品體驗(yàn)。這也是語(yǔ)音 AI 交互模式的一大趨勢(shì)。
「無(wú)處不在」的語(yǔ)音 AI 被廣泛應(yīng)用到家庭、工作、車載、On The Go 等場(chǎng)景,而相應(yīng)的環(huán)境感知語(yǔ)音 AI 也必須具備識(shí)別用戶(包括多個(gè)不同用戶)、位置、對(duì)話情景的能力。
例如,在家庭場(chǎng)景下,用戶說(shuō)「外面太冷了,我會(huì)留下看場(chǎng)電影」。試想一下,AI 會(huì)根據(jù)對(duì)話語(yǔ)境理解用戶需求并提供這樣的服務(wù):溫控器會(huì)自動(dòng)調(diào)高室內(nèi)溫度,電視機(jī)會(huì)根據(jù)用戶喜好搜尋好一堆影片,烤箱會(huì)主動(dòng)你是否需要準(zhǔn)備一些爆米花……
同樣的,在工作(辦公)場(chǎng)景下:

在車載場(chǎng)景下:

在動(dòng)態(tài)(On-The-Go)場(chǎng)景下:

在 Synaptics 現(xiàn)有的語(yǔ)音、圖像、生物識(shí)別等人機(jī)交互技術(shù)基礎(chǔ)上,打造出真正的沉浸式語(yǔ)音界面
針對(duì)下一代環(huán)境感知語(yǔ)音 AI,基于 Synaptics 現(xiàn)有的人機(jī)交互界面技術(shù),我相信,創(chuàng)新的想法將使得這些技術(shù)得到巧妙的應(yīng)用,并打造出一個(gè)真正的沉浸式語(yǔ)音界面,它擁有更智能的邊緣計(jì)算能力。
對(duì)此,Synaptics 具備多年以來(lái)積累的觸控、圖像、視頻、生物識(shí)別、語(yǔ)音/音頻、顯示等人機(jī)交互界面技術(shù),擁有著強(qiáng)大的基礎(chǔ)優(yōu)勢(shì)。作為人機(jī)交互領(lǐng)域的探索者,Synaptics 將不斷挖掘技術(shù)趨勢(shì)和最新應(yīng)用。
Q&A
Q1: 如何讓設(shè)備識(shí)別你的指令是對(duì)它還是針對(duì)朋友講話?
Saleel Awsare:我們的技術(shù)對(duì)環(huán)境的噪音做了很多過(guò)濾和篩選、區(qū)別,可以幫助機(jī)器識(shí)別到你的語(yǔ)音。在未來(lái),我們會(huì)用一些 AI 技術(shù),更好的判斷你是在對(duì)朋友講話還是對(duì)設(shè)備講話。我們這個(gè)技術(shù)現(xiàn)在叫 DSS。
Q2:設(shè)備怎么識(shí)別聲音來(lái)自機(jī)器還是人?如果我把另外一個(gè)音箱放到音箱旁邊的時(shí)候,另外一個(gè)音箱會(huì)觸發(fā)這個(gè)音箱,怎么辦?
Saleel Awsare:我們做的分離技術(shù)就旨在區(qū)分這兩者,人和機(jī)器識(shí)別的頻率和聲道都不一樣,這是其中的原理。目前,我們跟亞馬遜正在合作一個(gè)項(xiàng)目,就是確保設(shè)備在廣告播放的時(shí)候不被誤喚醒。在未來(lái),我們會(huì)利用 AI 技術(shù)將聲音做出更好的區(qū)分。
Q:許多語(yǔ)音交互服務(wù)是在云端運(yùn)行,后續(xù)會(huì)把大部分應(yīng)用都放到本地,這樣一來(lái),不需要云端也不需要 WiFi 和網(wǎng)絡(luò),這是通過(guò)什么樣的技術(shù)來(lái)實(shí)現(xiàn)的呢?
Saleel Awsare:目前大部分語(yǔ)音交互都還是在云端進(jìn)行,下一步,通過(guò)機(jī)器學(xué)習(xí),終端本地化的能力會(huì)得到提升,未來(lái)將實(shí)現(xiàn)一部分的本地處理。
整理、編輯:Jes / 深圳灣