「鋼鐵俠」馬斯克又要改變世界了,這回他的目標(biāo)是腦機(jī)接口技術(shù)

OpenAI 公布突破性新算法:可通過 VR 培養(yǎng)機(jī)器人模擬學(xué)習(xí)
只用一次演示就可以教會機(jī)器人工作。
OpenAI 是由特斯拉 CEO Elon Musk 聯(lián)合 LinkedIn 創(chuàng)始人 Reid Hoffman 及 PayPal 創(chuàng)始人 Peter Thiel 等人共同創(chuàng)立的一家非盈利的研究實(shí)驗(yàn)室,其在昨天宣布了其機(jī)器人研究工作的一座新里程碑—— 一款被命名為單次模擬學(xué)習(xí)(One-Shot Imitation Learning)的開源 AI 學(xué)習(xí)框架。在它的幫助下,只需要人類在 VR 中演示一次任務(wù),讓機(jī)器人學(xué)習(xí)它,機(jī)器人就可以在真實(shí)環(huán)境里完成任務(wù)。
在上個(gè)月 ,OpenAI 就展示了這個(gè)機(jī)器人的早期版本,他們使用域隨機(jī)化算法(domain randomization)對其視覺系統(tǒng)進(jìn)行了訓(xùn)練。而本次發(fā)布的模擬學(xué)習(xí)系統(tǒng)則包含兩個(gè)單獨(dú)的神經(jīng)網(wǎng)絡(luò)算法系統(tǒng):

- 第一個(gè)是視覺網(wǎng)絡(luò),通過分析機(jī)器人相機(jī)中的圖像,以確定物體在現(xiàn)實(shí)中的位置。盡管機(jī)器人從未接觸過真實(shí)的桌子或木塊,但研究人員會使用數(shù)十萬個(gè)模擬圖像來訓(xùn)練它們產(chǎn)生認(rèn)知,每個(gè)模擬圖像都會根據(jù)顏色、紋理、背景等各項(xiàng)特征進(jìn)行排列。
- 第二個(gè)是仿真網(wǎng)絡(luò),機(jī)器人通過觀察人類如何演示任務(wù)來理解任務(wù)意圖,然后在現(xiàn)實(shí)世界中模仿完成任務(wù)。需要說明的是,機(jī)器人會在模仿網(wǎng)絡(luò)中進(jìn)行上千次的虛擬演示的培訓(xùn),而不需人要在現(xiàn)實(shí)環(huán)境中操作它。
觀看一遍演示之后,機(jī)器人就可以在現(xiàn)實(shí)環(huán)境中進(jìn)行任務(wù)模擬了。下面是原理演示視頻:
正如上面視頻中所看到的 ,OpenAI 正在嘗試教一個(gè)機(jī)器手臂如何堆疊一系列彩色立方體塊。戴著 VR 眼鏡的人首先在虛擬環(huán)境中手動執(zhí)行任務(wù),然后 ,OpenAI 的視覺網(wǎng)絡(luò)開始觀察并分析動作,在數(shù)十萬個(gè)模擬圖像上對機(jī)器人進(jìn)行訓(xùn)練。這部分過程的重點(diǎn)是使用模擬數(shù)據(jù)與不斷變化的變量來訓(xùn)練AI。因?yàn)槭占鎸?shí)世界的圖像十分密集且耗費(fèi)時(shí)間,因此采用與現(xiàn)實(shí)相似的虛擬數(shù)據(jù)來訓(xùn)練機(jī)器人效果反而會更好。
OpenAI 的算法接著將從視覺網(wǎng)絡(luò)中收集的信息傳送到仿真網(wǎng)絡(luò),來指導(dǎo)機(jī)器人手臂進(jìn)行動作。仿真網(wǎng)絡(luò)可以推理任務(wù)的意圖,并通過預(yù)測人類演員在類似情況下的反應(yīng)來進(jìn)行模擬。棘手的部分是,每個(gè)立體塊的彩色和排列順序都是不同的,而且塊的初始放置位置坐標(biāo)不固定。而一次學(xué)習(xí)系統(tǒng)的優(yōu)勢在于,不管立體塊的初始位置如何不同,只要能確定最終的堆疊順序,機(jī)器人就能成功完成任務(wù)。

所有這一切只使用模擬數(shù)據(jù),而不是通過顯示機(jī)器人視頻或真實(shí)世界的例子的照片 。OpenAI 技術(shù)人員的成員 Josh Tobin 對此解釋說:「我們的機(jī)器人現(xiàn)在已經(jīng)學(xué)會了執(zhí)行任務(wù),通過一個(gè)單一的任務(wù)演示,我們可以在許多不同的初始條件下實(shí)現(xiàn)任務(wù)。教授機(jī)器人如何構(gòu)建不同的塊安排,只需要一次額外的演示?!?/p>
這里的長期目標(biāo)是讓 AI 有能力快速學(xué)習(xí)新行為,并使用這些知識來適應(yīng)環(huán)境中不可預(yù)測的變化。 Tobin 說:「 模仿讓人類快速學(xué)習(xí)新的行為,我們希望機(jī)器人能像嬰兒一樣有能力模仿別人做的事情?!?/p>
OpenAI 是地球上最強(qiáng)的人工智能研究團(tuán)隊(duì)之一,致力于進(jìn)行非監(jiān)督式學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的研究 。OpenAI 的使命和長期目標(biāo)是以將最大限度地造福全人類的方式發(fā)展人工智能。
「機(jī)器人 + VR」還能誕生哪些創(chuàng)意
虛擬現(xiàn)實(shí)和機(jī)器人都是時(shí)下科技界非常流行的詞匯。OpenAI 用 AR 來訓(xùn)練機(jī)器人進(jìn)行工作,那么兩者結(jié)合一起還會產(chǎn)生哪些創(chuàng)意呢?近日,美國的一家創(chuàng)業(yè)公司 Double Robotics 就在研究VR+機(jī)器人的策略,將其公司的遠(yuǎn)程視頻機(jī)器人可控制攝像機(jī)拍攝 VR 視頻。

美國極客圈最近也很流行把非常有趣的 VR 體驗(yàn)與真實(shí)世界的 3D 打印、開源電子元器件設(shè)計(jì)、軟件開發(fā)以及機(jī)器人自動控制嫁接在一起。比如硅谷一家創(chuàng)意公司 219 Design的研究人員使用 HTC Vive 頭顯控制一臺機(jī)器人手臂。他們使用一個(gè) VR App 進(jìn)行實(shí)時(shí)控制機(jī)器人手臂的精細(xì)動作,也可以讓機(jī)器人手柄重復(fù)事先錄制好的運(yùn)動軌跡。


該團(tuán)隊(duì)的 Dave Bim-Merle 表示,這個(gè)項(xiàng)目目前只是證明了一個(gè)產(chǎn)品設(shè)計(jì)概念,把 VR 與機(jī)器人控制相結(jié)合。你可以想象一下,這種產(chǎn)品設(shè)計(jì)理念可以用在水下機(jī)器人控制、災(zāi)后救援機(jī)器人和戰(zhàn)場拆彈機(jī)器人等應(yīng)用場景。
除了一些創(chuàng)業(yè)公司,工業(yè)機(jī)器人巨頭 ABB 也曾在去年上海工博會上展出過一套 VR 教學(xué)系統(tǒng)。學(xué)員通過戴上 VR 眼鏡,就可以進(jìn)入一套虛擬的工廠 VR 情景,并可觀看機(jī)器人在流水線上的工作細(xì)節(jié),幫助學(xué)員了解實(shí)際的工業(yè)場景。
