叮咚魏強(qiáng):解構(gòu)國(guó)產(chǎn) AI 音箱的軟硬件設(shè)計(jì)、困境與出路 | 超級(jí)硬課堂

不少智能音箱都在走 Echo 的路,小廠商如何依靠設(shè)計(jì)的力量從中脫穎而出丨超級(jí)硬課堂
曾負(fù)責(zé)多款智能音箱等 AI 硬件產(chǎn)品設(shè)計(jì)的行業(yè)人士,為我們亮出了他多年的研究成果。
2017 年,智能音箱火遍全球,國(guó)外亞馬遜、蘋(píng)果、Google、微軟都在搞智能音箱;國(guó)內(nèi),互聯(lián)網(wǎng)公司、硬件產(chǎn)品公司、芯片公司、方案公司、制造公司,一窩蜂的都在投入人力設(shè)計(jì)、研發(fā)、生產(chǎn)智能音箱。
從近幾個(gè)月發(fā)布的智能音箱產(chǎn)品來(lái)看,我們也發(fā)現(xiàn),受亞馬遜 Echo 系列產(chǎn)品等的影響,國(guó)內(nèi)智能音箱在交互、設(shè)計(jì)等方面存在與 Echo 相似的地方,同時(shí)也不乏大膽、突破常規(guī)思維的設(shè)計(jì)。

眾所周知,外觀是一個(gè)產(chǎn)品首先給人的第一印象,因此對(duì)用戶(hù)決定是否進(jìn)一步接觸起到關(guān)鍵作用。事實(shí)上,每款產(chǎn)品的外觀、交互設(shè)計(jì)都涉及到各種錯(cuò)綜復(fù)雜的因素,而除了設(shè)計(jì)相關(guān)學(xué)科之外,產(chǎn)品創(chuàng)新設(shè)計(jì)還牽扯到心理學(xué)、社會(huì)學(xué)及市場(chǎng)營(yíng)銷(xiāo)等各個(gè)學(xué)科。
在「深圳灣·超級(jí)硬課堂」第 II 期中,我們邀請(qǐng)到了飛魚(yú)設(shè)計(jì)深圳聯(lián)合創(chuàng)始人吳冬,他曾先后參與了第一代叮咚智能音箱、貓王收音機(jī)、機(jī)器人和多款 AI 硬件產(chǎn)品的設(shè)計(jì)工作。同時(shí),他還是百度度秘等多家互聯(lián)網(wǎng)公司的硬件設(shè)計(jì)合作伙伴,擁有從產(chǎn)品定義、開(kāi)發(fā)、落地的完整的設(shè)計(jì)經(jīng)歷。
在本次課堂中,吳冬就智能音箱設(shè)計(jì)相關(guān)的議題與行業(yè)用戶(hù)進(jìn)行了探討。
從 SET 理論的角度解釋?zhuān)鼉赡曛悄芤粝湓谑袌?chǎng)中得到迅速普及的原因
近年來(lái),以智能音箱為硬件載體的人工智能語(yǔ)音服務(wù)已逐漸在國(guó)內(nèi)市場(chǎng)普及,上到價(jià)格過(guò)千的 Rokid Pebble、出門(mén)問(wèn)問(wèn) TicHome、渡鴉 Raven H,下到千元以?xún)?nèi)的叮咚,小米 AI 音箱、天貓精靈 X1……產(chǎn)品的不斷出新也逐漸強(qiáng)化了大眾對(duì)智能音箱的認(rèn)識(shí)。
在解釋語(yǔ)音智能音箱迅速普及的原因之前,我們需要了解一個(gè)與之相關(guān)的理論——SET 理論。其中,S、E、T 分別代表社會(huì)、市場(chǎng)經(jīng)濟(jì)、技術(shù),技術(shù)在能滿(mǎn)足人的需求的情況下轉(zhuǎn)化成產(chǎn)品并形成市場(chǎng),產(chǎn)生的市場(chǎng)效益也會(huì)反過(guò)來(lái)推動(dòng)技術(shù)的發(fā)展,三者之間相互作用相互影響,共同推動(dòng)社會(huì)的發(fā)展。
依據(jù) SET 理論,語(yǔ)音智能音箱迅速普及的原因有以下幾點(diǎn):
1. 在眾多工作、生活場(chǎng)景中,人們普遍追求便利、解放的操作方式,繼手機(jī)按鍵操控、觸控之后,對(duì)人機(jī)交互方式有了更高的要求。
2. 硬件技術(shù)、軟件技術(shù)的發(fā)展,讓語(yǔ)音識(shí)別的準(zhǔn)確度不斷提升。語(yǔ)音交互的方式正在被越來(lái)越多的人接受,即將成為人機(jī)交互的重要方式之一。
3. 語(yǔ)音交互方式的變革,孕育了語(yǔ)音設(shè)備以及語(yǔ)音應(yīng)用的巨大市場(chǎng),其中,音箱天然語(yǔ)音屬性、以及使用廣泛,率先成為智能語(yǔ)音設(shè)備的突破口。
為什么智能音箱普遍都是柱狀的?
在解釋這個(gè)問(wèn)題之前,我們得先了解「為什么智能語(yǔ)音產(chǎn)品大部分是音箱」的問(wèn)題。這一切還得從智能音箱的先行者——亞馬遜 Echo 說(shuō)起。
首先,包括蘋(píng)果 Siri、亞馬遜 Alexa、微軟 Cortana 等在內(nèi)的智能語(yǔ)音技術(shù)尚未完善,選擇音箱作為技術(shù)轉(zhuǎn)化的載體,是親近用戶(hù)的一個(gè)可靠方式。換句話(huà)說(shuō),之所以選擇音箱作為載體,是因?yàn)榧夹g(shù)所限,是目前缺乏其他選擇的一個(gè)妥協(xié)。
其次,音箱在歐美是存量市場(chǎng),音樂(lè)付費(fèi)的習(xí)慣、開(kāi)放的音樂(lè)文化,讓當(dāng)?shù)匾粝溆写罅康氖褂脠?chǎng)景,這也是亞馬遜 Echo 起初以 WiFi 音箱而非智能音箱的名義出現(xiàn)的原因。而 Echo 最終在 2016 年出貨量超過(guò) SONOS 的事實(shí)證明,這是一個(gè)最大限度降低用戶(hù)適應(yīng)成本的方法。
反觀國(guó)內(nèi),由于性格內(nèi)斂、房屋居住面積小等主、客觀因素,用戶(hù)普遍形成了使用耳機(jī)、手機(jī)聽(tīng)音樂(lè)的習(xí)慣。音箱類(lèi)產(chǎn)品缺乏用戶(hù)基礎(chǔ)、沒(méi)有成功先例,是大部分中國(guó)智能音箱照搬 Echo 的主要原因。
此外,Echo 的硬件先決條件,即麥克陣列,相應(yīng)設(shè)計(jì)的的燈光定向交互體驗(yàn),直至目前仍無(wú)人超越。在沒(méi)有更好的替代方案之前,照搬 Echo 模式也就成為自然而然的事情。

智能音箱行業(yè)研究:聚焦在家庭場(chǎng)景下的用戶(hù)研究
吳冬強(qiáng)調(diào),這并不意味著所有的智能音箱非得采用圓柱狀的設(shè)計(jì)。智能音箱只是智能語(yǔ)音的一個(gè)過(guò)渡性的產(chǎn)品,目前的大廠專(zhuān)注底層架構(gòu),任重道遠(yuǎn)。而小廠在應(yīng)用層面做好定位,在國(guó)內(nèi)人口基數(shù)大、需求復(fù)雜的市場(chǎng)中,找準(zhǔn)其中一個(gè)切入點(diǎn)并解決好,也能有機(jī)會(huì)取得階段性勝利。
為更好尋找準(zhǔn)確的切入點(diǎn),深入的需求分析是重要的基礎(chǔ)。為此,吳冬從基于家庭的場(chǎng)景研究和用戶(hù)研究?jī)蓚€(gè)層面多對(duì)國(guó)內(nèi)需求進(jìn)行了分析。
家庭場(chǎng)景的特點(diǎn):
根據(jù) KPCB 2016 互聯(lián)網(wǎng)報(bào)告,美國(guó)用戶(hù)使用語(yǔ)音助手的場(chǎng)景,家庭占據(jù)了 43%,是使用比例最高的一個(gè)場(chǎng)景。
根據(jù)各因素的劃分,家庭場(chǎng)景具備以下特點(diǎn):
空間分區(qū)復(fù)雜:依據(jù)功能劃分,家庭空間包括客廳、廚房、臥室、衛(wèi)生間、陽(yáng)臺(tái)等區(qū)域,功能分區(qū)復(fù)雜。
人員構(gòu)成復(fù)雜:男女老少均有,甚至包含幾代同堂的情況。
設(shè)備類(lèi)型復(fù)雜:產(chǎn)品、品牌類(lèi)型的豐富多元導(dǎo)致的家庭電器設(shè)備構(gòu)成復(fù)雜。
面對(duì)這一「眾口難調(diào)」的家庭場(chǎng)景,如果智能音箱沒(méi)能形成一定的行業(yè)規(guī)范,則會(huì)進(jìn)一步嚴(yán)重影響用戶(hù)體驗(yàn)從而導(dǎo)致產(chǎn)品失去市場(chǎng)。
智能音箱的用戶(hù)消費(fèi)者/使用者研究:
鑒于與叮咚、百度合作過(guò)的經(jīng)驗(yàn)基礎(chǔ),吳冬也將相關(guān)的用戶(hù)類(lèi)型研究成果分享給了大家:
在智能音箱用戶(hù)類(lèi)型研究中,用戶(hù)主要?jiǎng)澐譃椤?+1」種類(lèi),其中「1」代表行業(yè)用戶(hù),包括而媒體、廠商等抱著學(xué)習(xí)、傳播目的用戶(hù),他們并非行業(yè)的終極用戶(hù)。

剩下的 6 大類(lèi)型:科技愛(ài)好者、音樂(lè)愛(ài)好者、商務(wù)人士、家庭、兒童、殘障人士,對(duì)行業(yè)的影響力、相應(yīng)的人群數(shù)量呈依次遞減的趨勢(shì)。
其中,不同類(lèi)型的用戶(hù)對(duì)智能音箱的需求也不同,科技愛(ài)好者是抱著好奇、嘗鮮心態(tài),音樂(lè)愛(ài)好者則是為了潮、時(shí)尚的全新體驗(yàn),商務(wù)人士則是在解放雙手的基礎(chǔ)上為緊張的生活節(jié)奏帶來(lái)放松和愉悅的需求,家庭則追求「化繁為簡(jiǎn)」,在下廚等騰不出手的空隙得到協(xié)助。
另外,兒童、殘障人士這兩類(lèi)人群隱含著許多我們尚未挖掘的機(jī)會(huì)。主要原因是,與成年人不同,生性好奇的兒童對(duì)新事物的接受沒(méi)有天然障礙。而對(duì)于行動(dòng)不便、沒(méi)有視聽(tīng)障礙的殘障人士而言,這類(lèi)產(chǎn)品會(huì)是一個(gè)提供便利的工具。合適的切入點(diǎn)將會(huì)為這兩類(lèi)人群產(chǎn)生有價(jià)值的產(chǎn)品。
智能音箱 AI 硬件產(chǎn)品的交互研究
基于社會(huì)因素,也就是對(duì)用戶(hù)需求層面進(jìn)行研究,交互方法論——UACP 理論模型之間的用戶(hù)(User)、行為(Action)、環(huán)境(Condition)、產(chǎn)品(Product)各個(gè)因素相互作用、相互影響,是輸出交互定義的一個(gè)過(guò)程。
在這套理論的基礎(chǔ)上,形成了一套基于時(shí)間線(xiàn),對(duì)用戶(hù)與產(chǎn)品之間產(chǎn)生的行為和場(chǎng)景進(jìn)行采集的分析報(bào)告,以此來(lái)明確用戶(hù)需求。

簡(jiǎn)單來(lái)說(shuō),這個(gè)研究包含用戶(hù)從早上起床與產(chǎn)品開(kāi)始互動(dòng),到離開(kāi)屋子等在不同時(shí)間、環(huán)境產(chǎn)生的數(shù)據(jù)。更具體的甚至還包括用戶(hù)在購(gòu)買(mǎi)之前與產(chǎn)品的接觸到購(gòu)買(mǎi)、拆包裝等容易被忽視的細(xì)節(jié)。
基于時(shí)間線(xiàn)對(duì)用戶(hù)使用產(chǎn)品的流程、內(nèi)容的進(jìn)行梳理后,我們則進(jìn)一步為重要的節(jié)點(diǎn)定義語(yǔ)音交互的內(nèi)容。

智能音箱的產(chǎn)品設(shè)計(jì)研究(CMF)
通過(guò)以上的 SET、UACP 模型將產(chǎn)品交互(語(yǔ)音、燈光交互)明確下來(lái)后,我們則可以進(jìn)一步定義產(chǎn)品屬性。其中,產(chǎn)品的屬性類(lèi)別包括科技、娛樂(lè)、文化、技術(shù)等。
圍繞產(chǎn)品屬性,我們可對(duì)產(chǎn)品風(fēng)格進(jìn)行定義。將與該風(fēng)格類(lèi)似的產(chǎn)品與典型用戶(hù)進(jìn)行討論,最終找到適合產(chǎn)品風(fēng)格的 C(色彩)、M(材質(zhì))F(工藝),在一般情況下還需要同時(shí)綜合考慮成本。
至此,也就意味著產(chǎn)品該有的交互、造型等定義性工作已經(jīng)完成。設(shè)計(jì)師也就得到了一份產(chǎn)品建議書(shū),開(kāi)始進(jìn)行實(shí)物圖的設(shè)計(jì)工作。
智能音箱的產(chǎn)品線(xiàn)規(guī)劃
除了產(chǎn)品設(shè)計(jì)之外,產(chǎn)品線(xiàn)的規(guī)劃也是產(chǎn)品公司戰(zhàn)略規(guī)劃中一個(gè)重點(diǎn)。產(chǎn)品線(xiàn)規(guī)劃包兩種策略:一是產(chǎn)品戰(zhàn)略,重在用戶(hù)體驗(yàn);二是市場(chǎng)策略,進(jìn)行價(jià)格區(qū)間的全覆蓋。
以 Echo 這一針對(duì)家庭場(chǎng)景的系列產(chǎn)品為例,因單一產(chǎn)品難以滿(mǎn)足家庭場(chǎng)景多用戶(hù)、多空間、多設(shè)備聯(lián)動(dòng)的需求,Echo 系列涵蓋了 Echo Show、Echo Dot、Echo Look 等形態(tài)各異的產(chǎn)品,結(jié)合其旗下的 Fire TV、Fire Tablet 以及 Alexa 平臺(tái)接入的各設(shè)備,構(gòu)成了全產(chǎn)品聯(lián)動(dòng)的生態(tài)系統(tǒng)。對(duì)用戶(hù)端覆蓋整個(gè)家庭場(chǎng)景,另外以?xún)r(jià)格覆蓋的策略對(duì)競(jìng)爭(zhēng)對(duì)手形成打壓。

對(duì)于產(chǎn)品設(shè)計(jì)公司而言,產(chǎn)品線(xiàn)規(guī)劃的工作重點(diǎn)在于「通過(guò)產(chǎn)品傳遞品牌」。
具體來(lái)說(shuō),一方面是產(chǎn)品形象(PI),即品牌的產(chǎn)品基因,蘋(píng)果則是一個(gè)典型的代表;另一方面則是整個(gè)產(chǎn)品系統(tǒng)的交互邏輯,包括產(chǎn)品之間、產(chǎn)品與家電之間的互聯(lián)以及交互邏輯。
用形象的比喻,就是這些產(chǎn)品在外形(材質(zhì)、外觀等)、行動(dòng)(交互形式)上像「一家人」,從而傳遞出某一品牌信息。
案例分析
上面提到,除了照搬 Echo 這類(lèi)圓柱形態(tài)的音箱之外,部分廠商也能有另辟蹊徑并取得階段性勝利的機(jī)會(huì),以下進(jìn)行一些案例分析。
采用顛覆性外觀設(shè)計(jì)的渡鴉 raven H 智能音箱:

raven H 最大的亮點(diǎn)是,完全跳出了 Echo 等音箱固有的柱狀設(shè)計(jì)思維。
在時(shí)下「我要買(mǎi)個(gè)音箱,而這個(gè)音箱恰巧是智能的」購(gòu)買(mǎi)邏輯中,raven H 傳達(dá)了它是一個(gè)「新產(chǎn)品」并且是個(gè)智能音箱的信息,是一款相對(duì)讓人眼前一亮的產(chǎn)品。
另一款以市場(chǎng)先導(dǎo)的 Line Clova Friends 智能音箱:

已在日韓風(fēng)靡的 Line 即時(shí)聊天軟件,將旗下的 IP 打造成一款帶有智能語(yǔ)音、陪伴功能的智能音箱。以市場(chǎng)為先導(dǎo),給既有用戶(hù)一個(gè)觸碰科技的機(jī)會(huì)。
因用戶(hù)群的特殊性,Line Clova Friends 產(chǎn)品的著重點(diǎn)不在于配置、科技、功能等方面的硬實(shí)力,而更多的在于外觀和趣味。
如何避免設(shè)計(jì)中的「開(kāi)發(fā)者思維」,在產(chǎn)品走向商品的過(guò)程中尋找平衡點(diǎn)
在人工智能技術(shù)的發(fā)展、語(yǔ)音技術(shù)向產(chǎn)品轉(zhuǎn)化的節(jié)點(diǎn)里,「是否要做一個(gè)功能強(qiáng)大的智能音箱」是一個(gè)值得思考的問(wèn)題。特別是在強(qiáng)調(diào)「極客」的開(kāi)發(fā)者思維中,追求「極致」將主導(dǎo)著產(chǎn)品的定位。
對(duì)此,吳冬認(rèn)為可在這個(gè)過(guò)程走兩個(gè)極端的策略:對(duì)于開(kāi)發(fā)者而言,要在技術(shù)上做到極致,在技術(shù)占領(lǐng)制高點(diǎn)的基礎(chǔ)上快速做出產(chǎn)品,并進(jìn)一步快速獲取用戶(hù)、占領(lǐng)市場(chǎng)份額。而在將產(chǎn)品推向市場(chǎng)時(shí),則需要經(jīng)歷一個(gè)不斷向市場(chǎng)妥協(xié)的過(guò)程。
其中,在將純技術(shù)產(chǎn)品轉(zhuǎn)化成商品的過(guò)程總中,設(shè)計(jì)能起到重要的調(diào)和作用,包括賦予產(chǎn)品以文化內(nèi)涵、科技感等。
Q&A | 知友提問(wèn)
Q1:語(yǔ)音智能音箱的設(shè)計(jì)趨勢(shì)是什么?
A:我認(rèn)為「沒(méi)有設(shè)計(jì)就是最好的設(shè)計(jì)」,語(yǔ)音智能產(chǎn)品的趨勢(shì)會(huì)像電影『Her』里的女主角一樣,雖然男主通過(guò)耳機(jī)與她對(duì)話(huà),但在需要的時(shí)候,她就會(huì)出現(xiàn),不被需要的時(shí)候則會(huì)保持安靜。在這樣的境界下,不管智能語(yǔ)音以怎樣形態(tài)作為載體,我們并不在意。這也是為什么我說(shuō)智能音箱只是的一個(gè)過(guò)渡產(chǎn)品的原因。
Q2:據(jù)了解,揚(yáng)聲器、麥克風(fēng)陣列挨得太緊會(huì)影響語(yǔ)音識(shí)別,除此之外,小型音箱還存在哪些設(shè)計(jì)上的挑戰(zhàn)?
A:智能音箱對(duì)揚(yáng)聲器、麥克風(fēng)陣列的距離有一定要求,距離越小,對(duì)聲音拾取的分辨率越差。我們?cè)谧龆_说谝淮悄芤粝涞臅r(shí)候,將兩者的距離設(shè)定在 135 mm 以上才確保了良好的拾音效果。目前還沒(méi)有特別好的硬件解決方案,將距離做小勢(shì)必會(huì)犧牲拾取的精度。
Q3:便攜智能音箱的設(shè)計(jì)存在哪些難點(diǎn)?(電池大小?喇叭?麥克風(fēng)?)
A:客觀上看,的確是這些問(wèn)題(電池、喇叭、麥克風(fēng)),但還是需要對(duì)具體的應(yīng)用場(chǎng)景進(jìn)行定義,譬如在安靜空間使用便攜智能音箱,遠(yuǎn)場(chǎng)語(yǔ)音識(shí)別則成為次要的功能,也就不怎么需要考慮喇叭與麥克風(fēng)陣列的距離問(wèn)題。
Q4:除了語(yǔ)音交互之外,音箱物理按鈕、屏幕等其他模態(tài)交互形式的設(shè)計(jì)有哪些需要注意的地方?有哪些創(chuàng)新性的交互設(shè)計(jì)值得學(xué)習(xí)?
A:這是一個(gè)不斷研究并不斷取舍的過(guò)程,智能音箱是智能語(yǔ)音產(chǎn)品的一個(gè)過(guò)渡形態(tài),就意味著按鍵、屏幕等設(shè)計(jì)都是過(guò)渡形態(tài)。這其中沒(méi)有學(xué)習(xí)成分,我們只有通過(guò)不斷的實(shí)驗(yàn)和試錯(cuò),最終決定一個(gè)產(chǎn)品該怎樣的設(shè)計(jì)。
Q5:能講講兒童類(lèi)音箱的設(shè)計(jì)可以重點(diǎn)思考的點(diǎn)嗎?
A:值得注意的是,我們很容易站在成人的角度去設(shè)計(jì)兒童產(chǎn)品,我們?cè)谘芯恐邪l(fā)現(xiàn),「媽媽選的和小孩選的不是同一個(gè)東西」。這里給出的一點(diǎn)啟發(fā)是,在做用戶(hù)研究時(shí),要注意區(qū)分購(gòu)買(mǎi)者、管理者、使用者等各種類(lèi)型的用戶(hù),并且一個(gè)個(gè)擊破,才能獲取更大的勝算。
在深圳灣知乎 Live 線(xiàn)上課程「又現(xiàn)音箱——對(duì)話(huà)智能音箱先行者,了解如何設(shè)計(jì)一款消費(fèi)級(jí)的智能音箱」中,吳冬與我們分享了許多智能音箱設(shè)計(jì)干貨,本文只節(jié)選了課程中的部分內(nèi)容。全部課程內(nèi)容,歡迎各位朋友點(diǎn)擊文末「閱讀原文」,查看圖文+音頻全程回顧!