亞馬遜 Alexa 技能數(shù)突破 5 萬大關(guān)!這篇解讀幫你了解這個(gè)數(shù)字的意義

如何開發(fā)語音 AI 技能,小雅和小豹的產(chǎn)品經(jīng)理做了一篇詳細(xì)的總結(jié)
一文了解語音技能開發(fā)的前世今生,并學(xué)會(huì)語音技能開發(fā)
在今年 9 月,亞馬遜宣布 Alexa 平臺(tái)上的技能已經(jīng)超過 5 萬個(gè)。這是一件令語音 AI 從業(yè)者歡欣鼓舞的事。越來越多的人注意到語音交互的潛力,開始制作語音交互技能。在國(guó)內(nèi),在百度 DuerOS 等語音平臺(tái)的教育和推動(dòng)下,有超過 2 萬名開發(fā)者參與了技能開發(fā)的開發(fā)實(shí)踐。
本文的作者是一名產(chǎn)品經(jīng)理,曾經(jīng)參與了小雅 AI 音箱、小豹 AI 音箱的技能打造,以個(gè)人開發(fā)者的身份為 DuerOS 平臺(tái)開發(fā)過一些技能。借著參與小度技能開發(fā)大賽的機(jī)會(huì),他對(duì)技能開發(fā)的經(jīng)驗(yàn)做了總結(jié),分享給大家。全文授權(quán)深圳灣編輯整理并發(fā)布。

前世
語音交互技能,也叫「技能」,這是個(gè)新鮮事物。在兩年前,它還只有英文名 skill,而定義語音 skill 的,就是亞馬遜的現(xiàn)象級(jí)語音交互產(chǎn)品 Echo 智能音箱。
時(shí)間回到 2015 年,當(dāng)時(shí)雖然已有不少廠商發(fā)布了智能音箱,但是大家還只是用來聽聽歌,查查天氣,雖然這兩個(gè)最常用的技能,在當(dāng)時(shí)也沒有很完善。
2015 年 7 月,亞馬遜宣布向第三方開放部分語音交互能力,正是這個(gè)嘗試,讓 Alexa 平臺(tái)誕生了最早的一批第三方技能,如:Crystal Ball(水晶球),Math Puzzles(猜數(shù)字),StubHub(今晚干啥)。

現(xiàn)在看來,這三個(gè)技能都很基礎(chǔ),甚至有點(diǎn)簡(jiǎn)陋。比如,Crystal Ball 水晶球這個(gè)技能,簡(jiǎn)單到任何問題,Alexa 的回答都是 Yes 或 No,而且還是隨機(jī)的,作用就是協(xié)助用戶在面對(duì)糾結(jié)的問題時(shí)做出選擇。你問設(shè)備:Alexa,我該減肥嗎?設(shè)備回答:Yes。第二次你問設(shè)備:Alexa,我該減肥嗎?設(shè)備回答的可能就是 No。你問什么問題設(shè)備不管,設(shè)備只管回答 Yes 和 No。我猜這個(gè)技能也許實(shí)現(xiàn)起來只用了 3~4 行代碼吧。
Math Puzzles,猜數(shù)字,這個(gè)技能實(shí)現(xiàn)起來也不難。設(shè)備會(huì)播報(bào)一串?dāng)?shù)字,這串?dāng)?shù)字有一定邏輯,你說出下一個(gè)數(shù)字就可以了。比如,設(shè)備會(huì)問 2,4,6,8 的下個(gè)數(shù)字是多少?你對(duì) Alexa 說 10,就算答對(duì)了。
StubHub,今晚干啥,稍微復(fù)雜些。Alexa 會(huì)把設(shè)備的地理位置給到開發(fā)者,所以當(dāng)你問 Alexa 今晚干啥的時(shí)候,Alexa 可以根據(jù)地理位置,向你推薦附近的電影、沙龍、活動(dòng)和派對(duì)。對(duì)話示例如下:
用戶提問:Alexa,今晚干點(diǎn)啥?
設(shè)備回答:附近的科技館,有一場(chǎng)最新上映的球幕電影,時(shí)間是晚上 8 點(diǎn)。
但是,如果用戶追問:Alexa,演講人是誰?設(shè)備就回答不上了。是的,Alexa 開放出來的技能,最早并沒有多輪對(duì)話。

進(jìn)化
2016 年 1 月,Alexa 的 skill 數(shù)量達(dá)到了 130 個(gè)。Alexa 團(tuán)隊(duì)興高采烈的發(fā)布了一個(gè) infographic(信息圖)來向公眾介紹成果。
這一行為,把亞馬遜的老大貝索斯搞炸了,趁著開會(huì),把 Alexa 團(tuán)隊(duì)教育一番:130?Wtf,怎么這么少...(據(jù)美國(guó)媒體 The information 報(bào)道,但亞馬遜官方不予置評(píng)。)貝索斯要求技能開發(fā)的速度要加快、加快、再加快。
2016 年 11 月,也就是 10 個(gè)月之后,Alexa 的 skill 數(shù)量達(dá)到了驚人的 5000 個(gè)!這個(gè)時(shí)候,美國(guó)人民已經(jīng)可以用 Alexa 叫 Uber、聽 Twitter 的內(nèi)容了,智能音箱終于擺脫了只能聽歌、查天氣的窘境。回過頭來看,這是不是還要部分感謝貝索斯開會(huì)時(shí)拍桌子啊。
等冬天過完,到了 2017 年上半年,對(duì)硅谷隨時(shí)保持敏感的國(guó)內(nèi)互聯(lián)網(wǎng)大佬們,順利把國(guó)內(nèi)智能音箱的大戰(zhàn)點(diǎn)燃,做智能音箱設(shè)備的廠商多到上百家,BATJM 等一線互聯(lián)網(wǎng)公司和語音 AI 公司,紛紛上線語音智能開放平臺(tái)。在深圳,三個(gè)月內(nèi),更是連續(xù)上演了兩場(chǎng)影響深遠(yuǎn)的語音智能峰會(huì)。

定義
伴隨著行業(yè)熱潮,平臺(tái)推動(dòng),開發(fā) skill 的人逐漸多了起來。也正是在這個(gè)時(shí)候,skill 開始有了中文名,而翻譯為「技能」是再合適不過了。
根據(jù)《辭海》的詞條說明,技能是運(yùn)用知識(shí)和經(jīng)驗(yàn)執(zhí)行一定活動(dòng)的能力。放到語音 AI 的場(chǎng)景里,語音交互技能就是運(yùn)用自然語言對(duì)話的交互方式,實(shí)現(xiàn)影音娛樂、信息查詢、生活服務(wù)等的功能,簡(jiǎn)稱「技能」。
關(guān)于技能的前世今生,還可以參考深圳灣在 2017 年的兩篇關(guān)于語音技能的特稿(1、2)

技能有哪些分類?
有了名稱,就要把技能再做一下歸類。
目前,不管是亞馬遜 Alexa 平臺(tái),還是國(guó)內(nèi)的各家語音 AI 平臺(tái)。技能的分類標(biāo)準(zhǔn)都很像,基本是把技能分成三大類:自定義技能、智能家居技能、內(nèi)容播報(bào)技能。
自定義技能主要有兩類,生活服務(wù)類、娛樂游戲類。比如上文介紹的幾個(gè)技能,都屬于自定義技能。

智能家居技能主要是用來對(duì)其他智能設(shè)備進(jìn)行語音控制,接口的完善性和語音交互已經(jīng)趨于成熟,我聽說有的團(tuán)隊(duì)把硬件接入 Alexa 可能一天時(shí)間都用不到(審核時(shí)間不算)。這方面,對(duì) Alexa 智能設(shè)備做過大量報(bào)道的深圳灣,給到我的解釋是,Echo 的熱銷帶動(dòng)了大批的智能設(shè)備廠商涌入,這背后少不了 IoT 方案商的推動(dòng),他們提供的 Alexa 接入方案,可以大大提高設(shè)備智能化的速度。

而內(nèi)容播報(bào)技能則是對(duì)新聞和信息所做的語音傳遞。Alexa 平臺(tái)在很早的時(shí)候,就集合了幾乎所有美國(guó)的主流媒體:NYT、WSJ、NPR、CNN 等等,而當(dāng)時(shí),媒體機(jī)構(gòu)對(duì)于語音這個(gè)新興的平臺(tái),還是處于卡位階段。
有媒體稱,在和 CNN 的受眾發(fā)展部副總裁艾倫·西格爾交流時(shí),就發(fā)現(xiàn)他們暫時(shí)還是把 Alexa 這個(gè)媒體投放渠道放在了戰(zhàn)略圈的最外層,和 Apple Watch 等渠道平級(jí)。但他依然看好這種形式的潛力,畢竟,美國(guó)已經(jīng)有五分之一的家庭擁有了智能音箱。

而在國(guó)內(nèi),騰訊新聞和新華社等媒體機(jī)構(gòu),都已經(jīng)開始嘗試把新聞 feed 流接入到語音智能平臺(tái),并且在小雅 AI 音箱、小豹 AI 音箱、小度音箱等設(shè)備上落地。

技能開發(fā)的核心:VUI
以上這三種技能分類,在開發(fā)上側(cè)重點(diǎn)也會(huì)不同。比如,自定義技能,它的核心就是是語音交互(voice interactive)。
語音交互就是將人的語言轉(zhuǎn)換成應(yīng)用的 request(面向系統(tǒng)的請(qǐng)求)的模式,也就是 VUI(Voice UI),而我們之前談?wù)摰?UI 更多意義上是 GUI(Graphic UI)。要做好 VUI 的交互和 GUI 一樣,都需要對(duì)細(xì)節(jié)提出更多更高的要求。
亞馬遜的 VUI 設(shè)計(jì)師 Amdrew Ku 就曾經(jīng)說過:「人類對(duì)于聲音的敏感是超出很多人的想象的。」
過去很長(zhǎng)一段時(shí)間,VUI 方面積累的理論遠(yuǎn)遠(yuǎn)少于 GUI。市面上相對(duì)經(jīng)典的一本書是今年剛剛出版的《語音用戶界面設(shè)計(jì)》。

當(dāng)然,對(duì)于 VUI 這樣的新鮮事物,雖然著作出版物并不多,網(wǎng)絡(luò)信息還是比較的豐富,亞馬遜 Alexa 平臺(tái)和國(guó)內(nèi)各家語音 AI 平臺(tái)也積累了不少經(jīng)驗(yàn),大家感興趣的話,平時(shí)可以多多關(guān)注。
技能開發(fā)有哪些 Know How?
1、起個(gè)好名字
技能開發(fā)和 App 開發(fā)有很多相同點(diǎn),首先一點(diǎn),名字非常重要。
在語音交互中,技能名字不僅影響到用戶的打開意愿,更會(huì)影響到識(shí)別率。如果技能的名字太長(zhǎng),或者不好識(shí)別,用戶是根本無法進(jìn)入技能的,如果這樣的情況發(fā)生,即便體驗(yàn)再優(yōu)良的技能也無法被用戶使用。

另外,技能最好不要用生僻字。因?yàn)閾?jù)我觀察,目前 DuerOS 和其他語音 AI 平臺(tái)有很多的用戶可能是小朋友~
總結(jié)起來,一個(gè)好的名字應(yīng)該考慮到以下幾點(diǎn):
清晰易讀。發(fā)布技能前,可以自己一口氣讀三遍技能的名字,看看是否能順利的讀出來。另外一定要用真機(jī)測(cè)試功能,確保可以識(shí)別,不然等上線再去改,可是會(huì)影響到線上用戶的體驗(yàn)。
體現(xiàn)技能功能。讓用戶知道這個(gè)技能是做什么的。如果能做的事情比較多,就要拆分成幾個(gè)技能。基本原則是 Do one thing and do it well。
技能名稱不會(huì)產(chǎn)生混淆,能讓用戶記住。技能商店的技能會(huì)越來越多,很多相似名稱的技能也會(huì)出現(xiàn)。這時(shí),可以借鑒 App 起名字的方法,采用一些關(guān)聯(lián)實(shí)體物品的起名方法。比如,笑話類的技能,就可以叫香蕉笑話、大象笑話。
2、看數(shù)據(jù)
同樣可以借鑒 App 的做法,在設(shè)計(jì)技能的初期,可以采用 MVP(Minimum Viable Product 最簡(jiǎn)化可實(shí)行產(chǎn)品)的原則,先發(fā)布一個(gè)簡(jiǎn)化的技能,技能上線后再分析語音交互數(shù)據(jù),根據(jù)潛在需求對(duì)技能進(jìn)行迭代和完善,逐步增加功能和優(yōu)化體驗(yàn)。
數(shù)據(jù)能完整的呈現(xiàn)用戶使用路徑。通過分析語音交互數(shù)據(jù),你可以很容易的發(fā)現(xiàn)用戶卡在什么地方,或者語音識(shí)別哪里出錯(cuò)。
舉例來說,朋友開發(fā)了「周公解夢(mèng)」這個(gè)技能,在查看設(shè)備交互數(shù)據(jù)時(shí),他發(fā)現(xiàn)用戶會(huì)說到一些設(shè)備無法識(shí)別的語句,比如「我們的懸崖」。很明顯,用戶想表達(dá)的意思是「我夢(mèng)到懸崖」,所以需要在常用語句識(shí)別模型中提供「我們到XX」的語句。這樣,以后再識(shí)別成「我們到XX」,設(shè)備就可以成功解析了。
3、關(guān)注外表
技能的外表很重要。技能開發(fā)者應(yīng)該多花時(shí)間做個(gè)漂亮的 logo,這個(gè)點(diǎn)容易被忽視,畢竟,打開技能是通過語音識(shí)別,而不是視覺發(fā)現(xiàn)。但這不能想當(dāng)然,要知道,用戶發(fā)現(xiàn)和安裝技能,主要還是通過 App 端的操作。
除了 logo,技能的文字介紹也要好好優(yōu)化。還要選擇一個(gè)技能分類,這樣用戶可以更方快捷的找到技能。

4、聽取用戶反饋
還可以做的是,通過各種渠道接觸用戶,聽取反饋。比如,把聯(lián)系方式放到技能簡(jiǎn)介中,發(fā)動(dòng)親朋好友幫你測(cè)試技能,追著他們多提意見反饋。這樣,技能的迭代和優(yōu)化才有了方向。我會(huì)在技能介紹里留下我的 QQ 郵箱,當(dāng)技能的策劃開發(fā)遇到迷茫時(shí),用戶的反饋往往能起到撥云見日的效果。
結(jié)語
小結(jié)一下,這篇文章主要分享了我作為一名 AI 音箱產(chǎn)品經(jīng)理、開發(fā) AI 語音技能的經(jīng)驗(yàn)。介紹了語音技能(skill)的前世和進(jìn)化,技能的定義,技能的分類,語音界面交互(VUI),以及開發(fā)技能的經(jīng)驗(yàn)總結(jié)。全文授權(quán)深圳灣編輯整理并發(fā)布。
是的,人類對(duì)于聲音的敏感是超出很多人的想象的。亞馬遜的 VUI 設(shè)計(jì)師 Amdrew Ku 列舉了一個(gè)技能開發(fā)的案例:
在過去,當(dāng)你與 Alexa 設(shè)備對(duì)話喊出「turn on my lights」的時(shí)候,它的回復(fù)是「OK」。當(dāng)我們把「OK」改成一個(gè)「叮」的聲音后,收到上萬名用戶抱怨,反饋說我們把設(shè)備變成了一個(gè)機(jī)器人。我們就又把它改回「OK」。產(chǎn)品經(jīng)理要設(shè)計(jì)和開發(fā)一個(gè)優(yōu)秀的語音技能,要對(duì)體驗(yàn)中的每一個(gè)細(xì)節(jié)都做持續(xù)優(yōu)化。
百度 DuerOS 聯(lián)合深圳灣共同舉辦的「喚醒之旅 Workshop」系列活動(dòng)即將開啟!11 月 18 日,優(yōu)質(zhì)對(duì)話式 AI 技能的交互設(shè)計(jì)與開發(fā)演練,喚醒之旅 Workshop 北京站 ,歡迎報(bào)名參與!
本文作者:毛川,語音 AI 產(chǎn)品經(jīng)理,原小雅 AI 音箱、小豹 AI 音箱技能及軟件產(chǎn)品經(jīng)理,在嘗試了一段時(shí)間的獨(dú)立開發(fā)者之后,現(xiàn)任喜馬拉雅小雅智能產(chǎn)品總監(jiān)和高級(jí)產(chǎn)品經(jīng)理。
本文編輯、審校:陳壹零 / 深圳灣