第七代微軟小冰:聊天不冷場,阿凡達框架助你從里到外自制 3D AI

AI 如何像人一樣聊天、唱歌不走調?微軟小冰首席科學家揭秘背后的技術
小冰表面古靈精怪,背后蘊藏大力量
化名參加央美的研究生畢業展、舉辦個人畫展、以人工智能歌手身份簽約 AVEX,成為濱崎步、安室奈美惠的同門師妹,在網易云上發布單曲……微軟小冰今年出鏡率高了不少,它在用實際行動展示人工智能創造(AI Creation)的可能性,以及微軟研究落地的可行性和價值。
本周四,微軟小冰在北京微軟(亞洲)互聯網工程院舉辦 Research Workshop,系統分享了微軟小冰在 AI 人機對話、人工智能創造(唱歌)、跨模態理解這幾方面技術的最新進展,為我們一一揭露小冰才藝爆棚背后的復雜技術。
從學習人說話,到自主學習,微軟小冰走向「自我完備」
作為一個主打 EQ、由閑聊機器人起家的人工智能,微軟小冰在對話式 AI 技術方面有著許多領先業界的創舉:最早提出全雙工語音對話技術,發展至今,平均對話輪數(CPS)達到世界領先的 23 輪;第六代小冰升級共感模型,融合全雙工和實時視覺,讓 AI 也能「察言觀色」;第七代小冰實現了從「平等對話」向「主導對話」方向的跨越。簡單來說,小冰在培養越來越接近人類的交流能力。
微軟小冰首席 NLP 科學家武威用「Self-Complete」(自我完備)這一個詞語概括微軟小冰近幾年來的研發成果。具體來講,Self-Complete 需要 AI 自主學習、自主管理、自主關聯這三種能力。
自主學習
對話機器人學習分為兩個層次,第一個層次是從人類的對話中學習說話,這是目前對話式 AI 正在主攻的方向。這次,武威重點談到第二個層次,機器之間的互相學習,也是微軟小冰的一個新探索方向。

△ 微軟小冰首席 NLP 科學家武威
機器之間的的互相學習,道理其實就類似人類的「你有一個思想,我有一個思想,我們交換一下,一人就有兩個思想甚至更多」。
「術業有專攻」,跟人類一樣,每個機器人也都可能有自己的領域知識。微軟小冰團隊研發出了 Co-teaching 算法,讓 AI 的兩個不同檢索模型在訓練過程中互為師生、相互學習。結果表明,兩個模型對比以往的學習路徑都有了顯著提升。

△ 第三個是應用了 Co-teaching 算法的學習效果
自主管理
自主管理即 AI 能管理說話的內容、走向,典型的應用就是微軟小冰第六代公布的共感模型。
在共感模型中,包含兩個模型,一個回復生成模型,即決定說什么。第二個為策略決定模型,即怎么說。兩個模型相結合,將微軟小冰從原來基于上下文直接產生回復的模式,轉變成了基于上下文產生策略,從而產生相應的對話,譬如主動引導一個話題、提問、確認、或者是無意識、簡單的回復。

在日本、美國,微軟小冰基于知識庫,通過對上下文對話理解,做到了幫助用戶挑選所購買商品,達到了 68% 的轉化率。這是微軟小冰共感模型在商業落地上的其中一個應用。
自主聯結
自主聯結,指的是機器人能夠將包括搜索引擎、文檔、圖片、視頻、知識圖譜等分散在各地的多模態知識,聯結起來,進行消化、吸收,形成自己的輸出內容,內容也不限于文本、圖片等任一形式。
今年 2 月,微軟小冰面向未來的多模態交互感官已在日本完成公開測試:通過手機 APP 應用和手機攝像頭,小冰可綜合文本、聲音和圖像等信息與人類交流。比如在日本的一項測試中,用手機攝像頭充當眼睛,小冰可以在陪用戶一同逛水族館,對所見所聞(魚)挑起對話、評論。
模型+數據,讓 AI 學唱歌比學說話要難得多
在本次 Workshop 上,微軟首席語音科學家欒劍,首次系統披露微軟小冰歌唱能力背后的技術。

△ 微軟首席語音科學家欒劍
欒劍提到,相比說話,唱歌具有門檻高、情感表達更豐富的特點。此外,唱歌具備發音、節拍、旋律三大基本要素。因此,AI 唱歌技術可以沿襲過去的語音合成技術,同時也存在額外的技術難點。
傳統的 AI 唱歌模型主要包含單元拼接、參數合成(隱馬爾可夫模型)這兩種主流的方式,但也都各有短板:單元拼接易導致唱腔過渡不自然、生硬,參數合成因聲碼器的關系會損失音質。
微軟小冰采取參數合成的方式,加以模型改良,避免出現上述情況。在模式上分別對聲譜參數、節奏序列、音高軌跡(即唱歌的三大要素)進行建模,為協調三個參數的耦合性,微軟用一個預測參數模型同時預測三個參數,但按照目前技術水平處理上有不小的難度。欒劍表示,卷積神經網絡近幾年的快速發展,讓三個參數同時建模成為可能。

眾所周知,深度學習需要大數據的訓練來支持。欒劍坦言,AI 唱歌技能養成的一個大難題是嚴重缺乏清唱的數據。對此,小冰與唱片公司合作,在混雜各種音軌、伴奏的歌曲中,將人聲部分的時間戳進行標注、發音的起始結束時間、音高軌跡進行提取,給小冰訓練出更豐富的演唱風格。

談談比喻句創作、繪畫生成:AI 要有理解能力,也要懂常識
文本創作、繪畫作為微軟小冰人工智能創作的重點技能,也在鞏固的基礎上持續突破新的技術難點。微軟小冰首席科學家宋睿華為大家講解了其最新的進展:學會造比喻句,跨模態理解。
不同于人類常用的「像……一樣」的手法,微軟小冰通過輸出「解釋」的方式創造比喻句,重點關注本體和喻體之間的聯系。
對此,微軟小冰團隊從詩歌中抽取了 120 個主題,挑選了 6 大類,96 個常用比喻的概念,隨后從 1000 個常用詞中選取 3000 個最常用的形容詞擴充小冰的比喻能力。例如將愛情、心、世界、夢想、生活、快樂等抽象概念,提取出相關信息,相互之間關聯產生合理的比喻。

△ 微軟小冰首席科學家宋睿華
小冰已有的合格比喻句作品有:
愛情跟脂肪聯系造成的比喻句:「愛情就像脂肪,是點點滴滴的積累。」
靈魂與球迷聯系造成的比喻句:「靈魂就像球迷一樣,在無聲的吶喊。」
跨模態理解
用跨模態的方式去理解文本,是微軟小冰訓練理解能力的一個課題。
目前,業界已經有類似 Text-to-Image、Text-to-Video、Story-to-Image 這樣一些旨在挖掘 AI 理解能力的課題。以 Story-to-Image 為例,微軟小冰希望能模仿人類,理解一句話背后暗含的意思,以及常識。
不同于單一檢索,Story-to-Image 以故事為基礎輸出圖像,關系到上下文的連貫性,圖畫細節是否與故事匹配(match),此外,鑒于以往 one to one 訓練數據,一句話只能輸出一張圖像,往往無法展現語句的所有信息量。
對此,微軟小冰創新性地提出 one to more 的訓練算法,讓 AI 針對一句話、一個故事線輸出數張圖片。
比如「有一個老太婆養著一只母雞,它每天下一個黃燦燦的金蛋」。one to one 的模型只輸出一張老奶奶的圖片,而 one to more 的模型,能在這基礎上再輸出一張雞蛋圖片。
另外,人類普遍具備的「常識」也是人工智能需要提升的一個能力。例如,人類都知道「北極熊是白色」的事實,因此不會在寫作中特意加上「白色的」這樣一個前綴來描述北極熊。
相應的,在「畫餅充饑」Story-to-Image 的訓練中,小冰在創作的繪畫中表現出了父母找到丟失小孩是「激動」的心情,是一種理解人類情緒的常識的表現。

做一個通用型的 AI Being:技術要有挑戰,成果要能被接受
談到人工智能,我們目前大多接觸到的是實用性的語音助手,鮮少有人體會和理解像小冰這樣情感、才藝型的 AI,它們會朝著什么樣的路徑發展。
在接受采訪過程中,欒劍、宋睿華均表達了的微軟小冰在 AI 技術研究上的立場。
就技術而言,微軟小冰首先瞄準具有挑戰性的研究方向,但也必須以目前技術能夠達到的程度為前提。其次,要做出大家能夠廣泛接受的產品和成果,反之群眾接受度不高,不利于收集反饋數據,以及推進研發的進展。
對于技術能夠產生怎樣的商業價值,不僅僅是市場團隊,研發團隊本身也在挖掘。以基于跨模態理解的繪畫生成技能為例,未來將有可能應用在兒童繪本創作中。以唱歌為例,目前原創詞曲是稀缺資源,日后微軟小冰如果能在這方面有建樹,也將會有巨大的想象空間。
微軟小冰團隊進一步表示,只有技術成果達到理想狀態,才會推向市場。回到今年第七代微軟小冰發布 AI beings 完整框架 Avatar Framework 時所傳達的宗旨,讓微軟小冰的能力形成一個通用型的平臺,幫助廠商打造各種各樣的 AI,「孕育出一片 AI 森林」。
PS.福利大放送
整場 Workshop 干貨滿滿,一篇文章無法精細覆蓋到每一個技術點。本文提到的所有技術點,微軟(亞洲)互聯網工程院均已經發布了相應技術成果的論文。
感興趣的技術小伙伴,可在深圳灣(ID:shenzhenware)公眾號留言「微軟小冰」四個字,獲取微軟小冰技術相關學術論文