DeepMind 的 AI 機(jī)器人正在自學(xué)障礙跑,既奇怪又有趣

機(jī)器人也能讀懂人類的情緒?看 OpenPose 是如何通過 500 個攝像頭做到的
給機(jī)器人一個眼神,它就能幫你捶腿了。
試想一個情景:當(dāng)你的一位朋友說她感覺很放松,但是你明明看到她的拳頭是緊握的,你可能會懷疑她在騙你。面對同樣的情景,一臺不那么智能的機(jī)器人卻可能會相信她的話。
人類有時候不一定會說真話,但他們的肢體語言卻常常表達(dá)出他們最真實的情感。如今我們在計算機(jī)視覺及面部識別技術(shù)方面已經(jīng)進(jìn)步了很多,但對于機(jī)器人來說,要識別到人類微妙的身體運動依然很難,這會導(dǎo)致其在判別人類真實意圖時,可能會漏掉很多重要線索。
針對這個技術(shù)盲點,卡內(nèi)基梅隆大學(xué)(Carnegie Mellon University)的研究人員開發(fā)了一個身體跟蹤系統(tǒng),并命名為 OpenPose。該系統(tǒng)能實時跟蹤人的肢體運動,包括手和臉部。它使用計算機(jī)視覺和機(jī)器學(xué)習(xí)技術(shù)來處理視頻幀,甚至可以同時跟蹤多個人的運動。
OpenPose 不僅可以跟蹤人的面部表情、軀干和四肢,還可以跟蹤單個手指。為了做到這一點,研究人員使用了卡內(nèi)基梅隆大學(xué) Panoptic Studio 實驗室的相機(jī)系統(tǒng)技術(shù),在一個兩層式園頂結(jié)構(gòu)上布有 500 個攝像頭,它們會從各種角度拍攝身體姿勢,然后使用這些圖像數(shù)據(jù)來重建數(shù)據(jù)集,描摹特定點的 3D 運動軌跡。




從圓頂上的相機(jī)捕獲到的圖像是 2D 的,采集完圖像后,系統(tǒng)會通過關(guān)鍵點檢測器傳遞這些圖像,以識別和標(biāo)記特定的身體部位,以幫助身體跟蹤算法了解每個姿勢如何從不同的角度出現(xiàn),并最終以 3D 效果呈現(xiàn)。
卡內(nèi)基梅隆大學(xué)機(jī)器人學(xué)副教授 Yaser Sheikh 表示,跟蹤二維人體形態(tài)和運動的這些方法,為人類和機(jī)器之間的互動開辟了新的途徑,并能幫助人類以及機(jī)器人更加準(zhǔn)確的了解周圍環(huán)境。舉個例子,識別手姿勢的能力將使人們能夠以新的、更自然的方式與計算機(jī)進(jìn)行交互,僅僅通過用手指向桌上的杯子,無需說話就能讓計算機(jī)知道人想要傳達(dá)的信息。
加載了這種讀取人類情緒技術(shù)的機(jī)器人能應(yīng)用到社交空間,并能夠察覺到周圍的人在做什么。例如,能識別即將闖紅燈過馬路的人并發(fā)出警報,也可為自閉癥、閱讀障礙和抑郁癥等疾病患者提供行為診斷和康復(fù)方案。

為了鼓勵更多的研究與應(yīng)用,研究人員已經(jīng)分別發(fā)布了用于多人運動和手姿態(tài)分析的計算機(jī)代碼,根據(jù) Sheikh 的介紹,目前已有包括汽車公司在內(nèi)的 20 多個商業(yè)集團(tuán)對該技術(shù)產(chǎn)生了興趣。
「現(xiàn)在,我們能夠突破許多技術(shù)障礙,主要是因為 10 年前的 NSF 授權(quán),」Sheikh 說:「除了共享代碼之外,我們還分享了實驗中捕獲的所有數(shù)據(jù)。」
除了Sheikh,博士生 Simon 和碩士生 Zhe Cao 與 Shih-En Wei 等也參與了多人姿勢識別的研究。手部檢測研究則包括 Sheikh,Joo,Simon 和 機(jī)器人學(xué)院的輔助教授 Iain Matthew。碩士研究生Gines Hidalgo Martinez 也參與了這項工作,負(fù)責(zé)管理源代碼。
OpenPose 項目歸屬于卡內(nèi)基梅隆大學(xué)計算機(jī)科學(xué)學(xué)院的 CMU AI 計劃,該計劃旨在通過利用學(xué)校在計算機(jī)視覺,機(jī)器學(xué)習(xí),機(jī)器人,自然語言處理和人機(jī)交互方面的優(yōu)勢,推進(jìn)人工智能研究和教育。