喜馬拉雅組局攢音箱,獵戶星空蓄勢搶入口,語音智能風口從何而來?

從幕后走向臺前,這里是一些關于阿里 AI 音箱的靠譜猜想
看不懂的馬云,看得懂的阿里 AI 帝國。
今天一早,整個媒體圈就被阿里巴巴要推出智能音箱的消息炸開了鍋。
先是根據外媒科技網站 The Information 的爆料,阿里巴巴將在下周推出一款語音智能產品,這一產品很可能就是一款智能音箱。
之后各大媒體紛紛曬出發布會邀請函,明顯與語音相關的主題詞,以及那個按下去會說出「我在,你說」的人聲按鈕設計,就更加明顯的暗示了這一款新品的身份。

不過,邀請函抬頭上的「阿里人工智能實驗室」引起了我們的注意,此前并未有阿里官方介紹過這一實驗室的信息。隨后,新浪微博上一個名為「阿里巴巴人工智能實驗室」的賬號今天上午 10 點發布了第一條微博。

微博配了一條有趣的小視頻,暗示阿里即將發布的新品,動動嘴就可以詢問它天氣、鬧鐘、星座等信息,還可以用來點播語音節目。
至此已經基本可以敲定,這就是一款智能音箱。
就月初,蘋果在開發者大會上推出了 智能音箱產品 HomePod?,標志著國外智能音箱正式進入大國紛爭的時代。而在不久前深圳灣(公眾號 ID:shenzhenware)分享的 國內第一篇針對語音技能商店的深度報道 后面,很多眼尖的觀眾發現并沒有 BAT 的身影。
事實上直到我們發稿一周后,騰訊才正式推出騰訊云小微語音智能平臺。而此次阿里巴巴的新品若不出所料真是一款智能音箱,就意味著中國以 BAT 為代表的互聯網公司也正式拉開在智能音箱領域的競爭帷幕。
而面對這樣一款幾乎可以確定了是智能音箱的產品,深圳灣也做出的一些大膽猜想:
猜想一:這款產品從技術布局上會對標亞馬遜 Echo?
作為目前中國最大的電子商務和云計算公司,不管是商業地位,還是業務架構,阿里巴巴在中國的地位與亞馬遜在美國的地位十分相仿。而最近這兩家公司也正在近乎神同步的開始大規模并購線下商超,開始一種新的零售模式的探索,在某種程度上來說,他們之間是一種既存在競爭,又在相互借鑒與學習的關系。

不同的是,亞馬遜除了電商業務,在硬件方面也有著卓越的表現。內置 Alexa 智能語音助手的亞馬遜 Echo ,目前銷量逼近千萬,獨占美國 70% 的智能音箱市場。而 Echo 的背后,更是整個以 Alexa 為中心締造的智能家居生態。
在互聯網之后,人們普遍認為下一幕發展紅利會是以語音交互為典型交互入口的物聯網時代。對于諸如百度、搜狗等有搜索引擎基因的公司,以及以阿里與京東為代表的電商公司,這個入口顯得極為重要。
好在,亞馬遜 Echo 目前并不支持中文語音交互,暫時看起來也并無進軍中國市場的跡象。這就給了阿里巴巴很好的發展機會。鑒于兩家公司類似的地位與業務需求,我們認為阿里對這款產品的戰略定位會是中國的 Echo。
猜想二:國內的競爭將瞄準京東旗下的叮咚音箱?
在世界級的巨頭公司中,只有蘋果 HomePod 附帶的 Siri 支持中文交互。不過作為蘋果首款音箱設備 ,HomePod 已經巧妙地避開了亞馬遜與谷歌在智能家居領域的鋒芒,主打音樂體驗,再加上高昂的售價,即使這款產品進入中國,也一時不會成為主流的智能音箱消費產品。

這樣一來,阿里在國內最大的競爭對手就是目前國內市場占比最大的叮咚音箱了。叮咚音箱的背后是京東與科大訊飛,最近新發布了叮咚二代與叮咚 Top 兩款低價音箱,在性能上也較之前的音箱產品有了很大的改善。
京東是國內電商體系最像亞馬遜的公司,從自建物流體系,到布局智能家居,再到聯合科大訊飛成立合資公司開發智能音箱,其發展的軌跡背后都能看到亞馬遜的影子。而近幾年京東發展迅猛,今年 618 銷售戰績直逼去年天貓雙 11 的 1200億,市值也直逼百度,大有改變 BAT 格局之勢。
這些跡象也讓阿里巴巴不得不重視這個對手,開始從各個業務線對京東進行狙擊。而此次的阿里語音產品新品的發布,與其說是與叮咚音箱的直面競爭,倒不如說是一場在智能語音領域,與京東進行的一場長線賽跑。
猜想三:這款產品可能出自阿里的哪個部門?
我們都知道阿里巴巴有個神秘的 iDST (數據科學技術研究院)部門,成立之初的使命就是致力研發國際領先的大規模機器學習和語音、自然語言、圖像及視頻處理技術,目前這個部門已經挖來了很多在國際上頗有聲望的技術專家,其中包括原亞馬遜資深主任科學家任小楓。

如果將阿里巴巴比作一個巨大的數據倉庫,那么 iDST 就是負責梳理、篩選、開發與應用這些數據的角色。而 iDST 旗下的智能語音交互團隊,也聚集了一批語音領域的大牛。
根據 iDST 智能語音交互團隊總監鄢志杰在一次采訪中的介紹,目前阿里巴巴已經開發了一套智能語音交互平臺,能作為交互鏈接入口為家用電器、機器人等智能設備提供天氣信息、音頻內容及外賣叫車等一類服務。而語音能力都會通過阿里云輸出。
雖然目前「阿里人工智能實驗室」與 iDST 之間的包容關系尚不明朗,但可以肯定的是這款產品與鄢志杰主管的語音技術有所關聯,并且這些語音技術是由阿里巴巴自家開發的。
阿里巴巴是一家業務十分龐雜的公司,可能大部分人都是跟隨著馬云天馬行空的演講來了解阿里巴巴的進展情況。但到目前為止,馬云卻很少在演講中提到自家的語音技術的發展情況。
那么,阿里的語音技術實力究竟怎么樣?我們還得從 iDST 的語音技術講起。
神秘的 iDST 智能語音團隊
iDST 智能語音交互團隊成立于 2014 年底,成立之后就一直緊鑼旗鼓的秘密招募人才,表面行事卻十分低調。
根據阿里 iDST 技術社區官方的介紹,目前這支團隊已經在語音識別 、語音合成、聲紋驗證 、自然語言理解及人機對話等核心技術方面完成了系統化的基礎建設與積累,并且已經搭建起一套世界一流水平的智能語音交互系統。

對于阿里巴巴內部的同學來說 ,iDST 智能語音交互團隊最閃亮的一次登場應該是在 2016 年 3 月的阿里云年會上,阿里云 iDST 團隊的實時語音識別系統在現場演講分享環節,實時挑戰世界速記比賽亞軍、金牌速錄師姜毅。而那時的阿里語音識別系統,就已經具有了如下的技術優勢:
- 領先的聲學模型建模技術 BLSTM :具有聲學模型建模的最佳準確性,及更高的語音識別的準確率,是世界上第一個在工業實時系統中部署 BLSTM 技術的團隊。
- 領先的超大規模的語言模型建模技術:借助阿里云的計算優勢,使用了全網語料作為訓練數據,自主開發了基于 Max-Compute 的并行語言模型訓練工具 , 訓練產生了規模高達百億 ngram 條目的超大語言模型(模型文件大小高達數百 G 字節)。
- 業內領先的語音識別解碼技術:語音識別解碼器是語音識別在工業界部署的核心問題 ,iDST 的同學對語言模型的存貯表示以及和解碼器的核心算法以及跟語言模型的交互方式進行了深度的定制,以達到在解碼過程中使用超大語言模型的目的。
- 模型的快速迭代和訓練:基于阿里云的基礎架構,構建了 GPU 集群的多機并行深度學習系統用來完成聲學模型的訓練。
- 高性能計算支持:在年會當天,使用的 HPC 是阿里云帶 GPU 加速的新一代高性能計算平臺,單節點計算性能高達 16 TFLOPS,加上算法優化,保證了語音識別的實時響應速度。
如今,一年過去了,積淀的技術終于落地要變成產品。而作為阿里首款消費級 AI 產品,自然是引得萬眾矚目。不過在硬件之路上才開始剛剛開始布局的阿里,還有很長的路要走。
阿里的野心,遠不止智能語音
正如此前此前深圳灣解讀亞馬遜 Echo 背后的深意所提到的,對于亞馬遜、阿里巴巴這樣體量的公司,靠賣硬件能賺取的利益,無異于九牛一毛。他們在乎的,是以硬件作為載體,其背后以語音交互為中心的整個下一代智能生態。

目前巨頭的紛紛入場,表面上看來智能音箱市場已經形成了群雄逐鹿之勢,其實才剛剛開始。如果語音交互真的會是下一場革命性的交互方式,那么在此時迅速的補充人才架構,搭建好基礎技術架構,為下一波技術革命做準備才是明智之舉。
今年 3 月,馬云在阿里巴巴技術峰會上首次重磅推出「NASA」計劃,聯合馬云提名的機器學習、芯片、IoT、操作系統和生物識別五大核心技術,建立面向未來 20 年的強大獨立的研發部門。這一立意宏大頗具太空感的署名計劃,在馬云心中,就是阿里巴巴要「構建世界第五大經濟體」的基石。
而在即將擔任人工智能核心團隊 iDST 副院長及首席科學家的任小楓看來 ,iDST 正是「阿里巴巴實現 NASA 計劃的先鋒」。智能語音交互僅僅只是 iDST 旗下的一個分支方向,而此時肩負著阿里巴巴首款消費級人工智能落地的重任,其重要性可見一斑。
關于這次阿里的新品,深圳灣也會在即將舉辦的 WARE 2017語音智能平臺與應用峰會上進行進一步解讀。歡迎大家關注深圳灣的后續報道。