自定義喚醒+聲紋識別+屏幕語音雙交互,叮咚第七款智能音箱正式上市

叮咚魏強:解構國產 AI 音箱的軟硬件設計、困境與出路 | 超級硬課堂
聽中國最懂智能音箱的人侃智能音箱。
前言:
今年 4 月 、7 月,深圳灣先后兩次啟動了「語音智能·平臺與應用峰會」,并陸續推出超過 100 篇深度報道,并通過深圳灣社區、微信公眾號、及知乎等平臺得到廣泛傳播,在國內首次引發了全行業對于語音智能熱潮的系統和全面的思考,收獲了業界無數的贊譽。
在廣大行業用戶的簇擁下,我們開始了新的嘗試:聯合知乎 Live,陸續推出「深圳灣·超級硬課堂」系列課程線上版,邀請軟硬件領域的先行者和實踐者,圍繞行業熱點,一一解讀。10 月 16 日,我們邀請了深圳灣的老朋友——北京靈隆科技 CEO 魏強博士做客「深圳灣·超級硬課堂」,從多個角度解讀語音交互產品的軟硬件設計。
魏強博士 2004 年獲得日本京都大學工學博士學位。現任京東和科大訊飛合資公司北京靈隆科技有限公司總經理,負責公司運營、智能硬件相關多條產品線的設計、研發和生產。曾任松下電器音視頻產品總監、京東智能集團產品總監、期間主持了智能家居、智能家庭私有云等多款產品的研發工作,具有豐富的人工智能、圖像語音技術及相關產品研發經驗。魏強博士是叮咚系列智能音箱的總設計師,是國內最早做智能音箱、并實現智能音箱量產的第一人。
什么是智能音箱,智能音箱有哪些基本功能,一臺最簡單的智能音箱也要整合哪些上下游產業鏈資源,軟件尤其是硬件技術有什么要求,聲學結構的設計有哪些要點,國內和國外智能音箱系統模式有何異同,以及未來會怎樣…… 這個課程詳細覆蓋和講解了這些問題。
背景 | 亞馬遜 Echo 引領的智能音箱浪潮
2014 年 8 月,智能音箱鼻祖 Echo 問世。可能連亞馬遜自己也沒想到,這款小小的語音設備日后會掀起一股巨大的 AI 音箱浪潮。
Echo 經歷了一段時間的潛伏期,于 2015 年 9 月突破 100 萬銷量;到了 2016 年 4 月,高性價比 Dot 的推出促使 Echo 系列產品銷量呈幾何倍數增長;截止今年 9 月已突破 1000 萬臺銷量,為亞馬遜貢獻了近 10 億美元的收入。
Echo 的成功刺激頂級科技公司紛紛布局搶奪智能語音交互入口權,其中最具代表性的便是同來自硅谷的 Google Home、微軟 Invoke 及蘋果 Home Pod。

不久后,這股硅谷音箱熱就蔓延到了國內:
除了最早于 2015 年推出的叮咚 A1,聯想、喜馬拉雅、阿里巴巴、小米等廠商均于 2017 年推出了智能音箱產品。
魏強博士認為之所以各大廠商都如此重視智能音箱這個單品,主要有兩個原因:
一是搶奪智能家居等場景化應用的語音交互入口;
二是隨著 AI 技術的興起,智能音箱背后的語音及大數據技術,成為各大頂級 AI 公司訓練人工智能很好的硬件平臺。
定義 | 智能音箱的四要素及基本功能
在經歷了 PC、移動兩次信息化變革浪潮之后,人類如今已經跨入了人工智能時代,使得具備語音、圖像等智能交互能力的智能助理逐漸成為主流。
電子芯片、麥克風器件 、WIFI 模塊等硬件成本的降低,以及語音技術的逐漸成熟,為智能音箱的誕生奠定了底層基礎;而伴隨著物聯網智能家居漸趨平臺化,以及各類音頻資源豐富,更便捷的交互方式亟待出現。

目前業內對于智能音箱尚沒有一個統一的定義,但魏強博士認為只要符合具備語音交互能力、可提供內容服務、可提供互聯網服務以及可場景化智能家居的控制能力等四個要素的設備,就能稱之為智能音箱。

智能音箱的功能設定體現在四個方面:
- 有聲資源:主要為音樂、有聲新聞及有聲讀物,如百度音樂、喜馬拉雅 FM、今日頭條等;
- 智能家居:一是與大的智能家居平臺進行合作,如京東微聯、美的家居、海爾 U+ 等;二是接入有自動化控制需求的單點設備,如飛利浦智能燈泡;
- O2O 服務:通過語音化的方式提供互聯網服務,如京東購物、快遞查詢 、KFC 訂餐等;
- 生活助手:提供日常便捷的基本生活服務,如設置鬧鐘、日歷、備忘等。
總的來看智能音箱是一個定位于家居場景的服務端口,除了傳統手機具備的部分服務,還能提供一些以語音交互方式為主的新型服務。
由于語音智能尚處于剛剛起步階段,語音技能服務并不全面,對此叮咚也推出了開發平臺,并提供完善的開發文檔,及明確語音交互設計核心原則,幫助第三方(包括企業與個人開發者)開發更好的語音交互服務。
技術 | 智能音箱不僅是單獨的個體,更是技術+產品+服務的資源整合
一臺看似小小的智能音箱,卻需要應用到超過 600 個電子器件,近 100 家上下游供應鏈合作廠商,從研發到批量生產,周期耗時數月甚至長達一年。
這其中不單單是語音核心技術的研發工作,還包括產品結構的設計及服務資源的整合。
核心技術以麥克風陣列為例。目前市場上的麥克風陣列技術主要分兩大類:
一是波束成形技術,即通過麥克風陣列劃分空間波束區域,選擇能量最大的波束進行喚醒識別;另一種則是 TDOA 技術,即通過計算聲音傳播到麥克風的時間差,來計算出說話人的物理位置及角度。
在智能音箱的產品結構設計上,則需要考慮到麥克風陣列(拾音設備)與揚聲器(發音設備)間的位置關系、麥克風陣列板本身的柔性抗震設計及揚聲器的聲波平衡設計三個要素,以防止喇叭發聲帶動麥克風震動,影響麥克風的拾音效果。
而在服務層面,則是對基于語音交互能容的資源整合。例如音樂內容,首先要對每首歌結構化處理,打上如歌手、年代、情感類型、適用場合一類的標簽,然后根據拾取的用戶語音指令判斷其意向內容,進行個性化推薦。
除了音箱本身,音箱與其他設備的聯動也是一個重要因素,例如與智能電視的視頻 APP 聯動后,可通過語音點播電視節目,減少用戶通過遙控器繁瑣的操作。
市場 | 國內依然處于起步階段 ,WIFI 品類音箱增長最快
盡管已是群雄并起,但國內的智能音箱依然處在逐漸從傳統的多媒體音箱向藍牙音箱和 Wi-Fi 音箱過渡的起步階段。
藍牙音箱占整體音箱市場 39% 市場份額,得益于客單價逐步降低及產品線不斷豐富等因素,目前正以 33% 的速度迅速增長。
相較而言 WIFI 音箱品類盡管占比較小,但增長速度最快: 2016 年銷量同比 2015 年增長 335%,其中占據先發優勢的叮咚音箱系列占比 WIFI 音箱品類 79% 的市場份額,位列 WIFI 類音箱細分市場第一。

根據叮咚音箱在京東商城的銷售數據,主要的用戶層畫像體現出四個特點:
- 男性占四分之三;
- 25- 45 歲為主力購買人群;
- 北上廣深為主;
- 白領及金領人士為主要消費人群。
這些特點體現出智能音箱消費者的兩個關鍵特質:購買力與興趣度。另一個數據很有意思,用戶群體的 47. 2% 集中在東部沿海省份,并且促銷敏感度高達 91%。
此前叮咚音箱供應鏈負責人毛占偉也曾在深圳灣采訪中提到,在 618 及 雙 11 等促銷大節音箱的銷量會高很多。高度的價格敏感性也使得各音箱品牌商正在大力備戰即將到來的「雙 11」購物節。
問題與展望 | 國內外差異大,各平臺間需聯通合作
整體來看,各大品牌廠商基本都是采用依托本身優勢,找到合適切入點進軍智能音箱市場的策略。
例如亞馬遜整合了十分全面的音樂內容及電商能力,谷歌的強項在于搜索與數據,蘋果關注優質的音樂服務,微軟積累多年的聊天數據則能提供更好的對話體驗……
國內玩家同樣如此:

與硅谷玩家相比,國內的智能音箱行業還存在很多問題,例如用戶對智能音箱產品的認知薄弱、有聲內容良莠不齊、語音技術識別率及響應速度均需進一步優化完善……
但其中最不可忽視的一點是:
亞馬遜、谷歌、微軟、蘋果等硅谷巨頭,均具備獨自完成音箱產業鏈資源整合的能力;國內盡管也有大牌互聯網公司,但絕大部分商家產業鏈單一,只是占據技術、內容等某一單項優勢,無法形成全產業鏈布局。

總的來說,智能音箱目前國內主要公司都在做,依托各自在資源、技術、供應鏈、內容各方面的優勢,打造出各有特點的智能音箱產品,為智能音箱發展做出各自的貢獻。但想要進一步打造好的智能音箱產品,還需要需要各個平臺的聯合打通,提供更好的互聯網服務。
Q&A | 知友提問
在魏強博士的課程結束后,我們接受到大量知友的踴躍提問,下面摘取了其中部分問題及回答:
1、 魏總您好,請問 WIFI 與藍牙音箱比優勢在哪里?
答:藍牙音箱是一種音樂播放設備,通過音樂源傳輸有聲內容,然后通過揚聲器播放出來;相較而言 ,Wifi 傳輸帶寬更高,能更高品質傳輸音樂,能通過手機或其他音樂源設備傳輸,也可以直接連接音樂后臺,因此可以用于戶外場景。
2、 哪些智能音箱應用或第三方智能硬件屬于高頻應用產品?
答:語音應用中新聞類、音樂、天氣預報類比較常用,早晨使用頻率較高。第三方智能硬件中智能燈、智能插座、智能空調等用的比較多,智能家電設備由于普及率低,使用活躍度普遍不是非常高。
3、 麥克風矩陣 6/8 麥與 2/4 麥比,哪個會是未來趨勢?
答:麥克風陣列遠場會優先選用 6、8 麥克風陣列,雙麥或四麥主要針對距離要求不高,追求性價比的產品。
4、 智能音箱會不會考慮添加數據卡,如 4G 流量卡或物聯網卡?
答:未來會考慮加上數據卡。一是解決聯網需求,特別是小白用戶,聯網操作多會讓他們覺得麻煩。加上 4G 卡后會使得應用更簡單,也能滿足戶外的應用需求。
5、 怎么看語音技能市場?
答:國內剛剛起步,大多技能是平臺廠商自己開發提供,希望更多開發者能夠一起參與開發過程,能針對不同的用戶需求,開發出用戶真正需要的語音應用。
深圳灣聯合知乎 Live 線上課程:又現音箱——對話智能音箱先行者,解讀語音交互產品的設計。歡迎各位朋友點閱查看圖文+音頻全程回顧!