av电影在线看,王中王王中王免费资料大全一,2012国语高清完整版在线观看

Uploads%2farticles%2f11691%2fware 22.001

2017-07-19

哈曼宋柏勛：人機(jī)交互和人際溝通畢竟不同，語音到底怎樣做才算自然？| WARE 2017

盡管語音智能在追求像人一樣的自然交互，但人際溝通和人機(jī)交互畢竟還有許多差異的。

「我們談?wù)Z音交互的時(shí)候，說的當(dāng)然是人用語音跟機(jī)器交互。但現(xiàn)在我們思考的是，如何讓人與機(jī)器的交互方式回歸到像人與人交談一樣自然，這才是我們發(fā)展技術(shù)想要追求的目的。」

在深圳灣「WARE 2017 語音智能平臺(tái)與應(yīng)用峰會(huì) 第 II 季」上，哈曼（Harman）麥克風(fēng)系統(tǒng)負(fù)責(zé)人宋柏勛比較了人際語言溝通和人機(jī)語音交互之間的異同，從語音交互的需求、人機(jī)聽覺的差異、以及聲音信號(hào)的處理等方面，淺析了如何讓人機(jī)語音交互更接近人與人自然對(duì)話的問題。

自然的交互≠完全相同

「現(xiàn)在語音技術(shù)的努力方向，主要還是在聽懂人在說什么，層面停留在人對(duì)機(jī)器的控制。」宋柏勛說，「而未來的需求則是要讓機(jī)器更了解你，帶有人與人交談的情緒性，知道你是誰，知道與你互動(dòng)與其他人互動(dòng)是不同的。」

盡管語音智能在追求像人一樣的自然交互，但人際溝通和人機(jī)交互畢竟還有許多差異的。

人機(jī)交互需要高的識(shí)別率，需要語音方面的強(qiáng)化，能夠通過聲紋識(shí)別分辨不同的對(duì)象，同時(shí)，還要求機(jī)器的可控。

「比如你讓它關(guān)電視它就要關(guān)電視，說了三遍它還沒反應(yīng)你就覺得產(chǎn)品有問題了。」宋柏勛說，但人與人交談的重點(diǎn)則并不是追求這種絕對(duì)的控制。

人與人的交談，除了需要清晰的語音，還帶有情緒性，這種情緒語氣本身也在傳遞信息。此外，在聆聽的專注性上，人可以有意識(shí)地進(jìn)行選擇。

二者的這些方面的差異，有的需要彌合從而增強(qiáng)人機(jī)語音交互的自然程度，而有的則是基于交互對(duì)象的固有差異，如何區(qū)分和兼顧這兩種差異，是實(shí)現(xiàn)自然語言交互的關(guān)鍵。

大腦并不是這樣「聽」的

現(xiàn)在的語音識(shí)別技術(shù)，多數(shù)是通過分析下圖這樣的聲音頻譜特征來識(shí)別語言內(nèi)容。

「但人的聽覺感知可不是這樣基于聲音頻譜做傅里葉分析。」宋柏勛說，「人的聽覺是聲音引起耳蝸內(nèi)基底膜振動(dòng)，產(chǎn)生神經(jīng)細(xì)胞興奮將振動(dòng)轉(zhuǎn)化為脈沖電信號(hào)，傳遞到大腦的聽覺皮質(zhì)來解析。」這與現(xiàn)在語音識(shí)別技術(shù)中使用的方式是十分不同的。

「我們嘗試用信號(hào)處理、機(jī)器學(xué)習(xí)等技術(shù)解決聲音上的問題，需要花費(fèi)大量的資源，是因?yàn)槲覀冊诩夹g(shù)上認(rèn)知的聲音特征和大腦所認(rèn)知的是十分不同的，大腦感知聲音的方式在另一維度上。」

「這也是為什么人只要用兩只耳朵，就能在復(fù)雜的空間識(shí)別不同的聲音，在多個(gè)人講話的時(shí)候，專注聆聽其中一個(gè)人。這與人耳的構(gòu)造、聲音信號(hào)傳遞過程中的控制和處理都密切相關(guān)。」

「這個(gè)過程中的聲音信號(hào)處理十分復(fù)雜，但神經(jīng)心理等學(xué)科的研究已經(jīng)發(fā)現(xiàn)這個(gè)過程中的許多機(jī)制，并試圖通過算法把這個(gè)復(fù)雜的機(jī)制轉(zhuǎn)化為可實(shí)現(xiàn)的信號(hào)處理方式，這是為復(fù)雜的聲音環(huán)境創(chuàng)造出更好信息處理方式的重要方向。」

哈曼想做的是人工智能的耳朵

作為一家一直深度鉆研聲音的傳統(tǒng)音頻廠商，哈曼試圖做的，就是在語音智能體系中為人工智能提供足夠好的「耳朵」和「嘴巴」，這也是哈曼公布 SONIQUE 語音識(shí)別方案的初衷。

「盡管語音智能在市場上已經(jīng)開始興起，但在制造上，在如何控制好音質(zhì)，如何自定義規(guī)格，以及好與不好的標(biāo)準(zhǔn)制定等方面都還面臨著挑戰(zhàn)。」

針對(duì)不同應(yīng)用場景，哈曼開發(fā)了一系列麥克風(fēng)元件和專門為語音識(shí)別設(shè)計(jì)的低失真喇叭，通過硬件和算法的搭配在不同場景下實(shí)現(xiàn)性能優(yōu)秀的聲學(xué)解決方案。

針對(duì)不同應(yīng)用場景，哈曼 SONIQUE 提供了多種解決方案

而在未來應(yīng)用方向上，語音除了作為人工智能的交互接口，進(jìn)行語音控制、語音通話等功能外，宋柏勛還特別提到了基于聲紋識(shí)別的個(gè)人化的重要性。最后，宋柏勛總結(jié)說，未來智能語音產(chǎn)業(yè)的發(fā)展重點(diǎn)，將落在訊號(hào)處理與機(jī)器學(xué)習(xí)的融合、市場專業(yè)分工化、產(chǎn)品落地與產(chǎn)業(yè)供應(yīng)鏈完善、人機(jī)交互體驗(yàn)的提升以及人才的培養(yǎng)等多個(gè)方面。

WARE2017

哈曼

Harman

UNIQUE

語音識(shí)別

語音交互

麥克風(fēng)

版權(quán)聲明：本文系深圳灣原創(chuàng)，轉(zhuǎn)載或摘錄請(qǐng)先獲得授權(quán)。
深圳灣微信公眾號(hào)：shenzhenware。深圳灣同時(shí)在頭條號(hào)、企鵝號(hào)、知乎等主流媒體站開設(shè)專欄板塊，歡迎關(guān)注。轉(zhuǎn)載、約稿、投稿、團(tuán)隊(duì)報(bào)道請(qǐng)?jiān)诠娞?hào)對(duì)話框回復(fù)關(guān)鍵字并留下聯(lián)系方式。

上一篇：Gowild 邱楠：知識(shí)圖譜是聊天機(jī)器人走向強(qiáng)人工智能的關(guān)鍵 | WARE 2017

下一篇：阿里 AI 眼鏡高調(diào)入場，百鏡大戰(zhàn) T0 隊(duì)伍將迎來新成員