科大訊飛最新發布!打造下一代智能交互新范式

用耳機就能做面部識別,看看康奈爾大學的新研究 | 元宇宙前沿
說話、微笑、眨眼、嘟嘴,都可以實時識別生成虛擬面部表情。
前不久,一段國外女生模仿 NPC(游戲中非玩家角色)的視頻走紅,畫面中女生無論面部表情、肢體動作都與 NPC 非常相像,一度讓人分不清到底是現實還是游戲。
相比于真人實力模擬虛擬形象,隨著元宇宙的興起,如今數字人則做到了對真人的虛擬復刻。
另外,在線上會議、視頻直播、運動健身場景,已經出現了不少數字人身影。而用攝像頭,通過面部拍攝和 AI 算法,識別面部表情,進而映射至相對應的使用場景中,是目前行業比較主流的方案。
此外,在 XR 領域,此前曝光的一份 Magic Leap 專利文件,還探索了一把僅通過攝像頭拍攝眼部(如眉毛、眼睛形態變化)的方式,來識別面部表情。
最近,康奈爾大學公布的一項名為 EarIO 的技術研究中,使用「耳機」就做到了面部識別的功能。
在演示過程中,工作人員佩戴了一款類似開放式耳機的設備,內置有電池、麥克風、發聲單元、藍牙模組等硬件裝置。

實現原理為,將設備與手機藍牙連接,并完成程序的部署設定。在預先完成人臉轉化為虛擬形象后,通過裝置兩側的發聲單元朝面部發射音頻(人耳不可聽的頻率)信息,麥克風捕捉回聲。

隨著真人說話、微笑、眨眼、嘟嘴所產生的面部肌肉變化,所接收到的回聲(獨特的回聲輪廓)也隨之變化,通過深度學習算法,將收集到的聲音數據與數據庫中由 TruthDepth 相機拍攝的 52 個面部表情參數完成匹配,最終轉化為實時的面部表情。


不同于攝像頭的大體積、高功耗,作為耳機形態的 EarIO 在這方面也有著天然的優越性。EarIO 可以以 86Hz 的頻率進行采樣,功耗僅為 154mW。
當然,EarIO 目前也存在著不少問題,比如設備并不能做到即戴即用,而是需要至少花上半個小時進行數據訓練。同時,在數據的判別上略顯不足,有一定的出錯率。該研究團隊表示,后續將會繼續優化,攻克這些問題。
據悉,EarIO 已經做到了與市售的無線視頻會議耳機兼容,支持視頻會議下虛擬頭像的使用。
灣里點評:在今年 GTC 大會上,英偉達也亮相了一款名為 Audio2Face 的應用,應用了大量的深度學習和語音技術,僅使用說話者語音即可模擬人物 3D 表情。
而無論是通過攝像頭、麥克風硬件的方式,還是以音頻 AI 純軟件算法合成,殊途同歸,或許未來都將成為構建元宇宙世界「虛擬表情」重要的應用技術。
主筆:達達 / 深圳灣
編輯:陳述 / 深圳灣