OpenAI 公布突破性新算法:可通過 VR 培養機器人模擬學習

DeepMind 的 AI 機器人正在自學障礙跑,既奇怪又有趣
就像一個蹣跚學步的寶寶,跌倒了自己就能爬起來。
谷歌的人工智能子公司 DeepMind 最近連續發布了三篇論文,探討了如何使用「強化學習」的方法來教導 AI,使它能在不熟悉或復雜的環境里自主導航運動路線。
這是一項在虛擬世界中對人工智能進行的測試,運動智能(motor intelligence)學習如何控制和協調柔韌的身體在各種復雜環境中解決任務,涵括了計算機動畫(Computer animation)和生物力學(Biomechanics)等多個領域的知識。
有一天將這個這項程序加載到實體機器人身上,同樣可以驅動機器人做出相同的反應。下面是完整的演示視頻:
從視頻中可以看到看到,棒狀機器人會根據特殊地形做出不同的行為,包括跳躍、轉向、蹲伏等智能肢體動作。而這些動作并不需要為其編寫特定的計算機程序,在棒狀機器人的身體與環境交互的過程中,逐漸建立最佳的行為模式。最終機器人會在在沒有特殊指示的情況下發展出了復雜技能,這一方法可被應用于訓練系統中多個不同的仿真身體。
而 DeepMind 的三篇論文,也分別從三個角度探尋了 AI 如何產生靈活和自然行為的方法,它們將來有望于應用在實體機器人身上進行訓練。
強化學習:如何在豐富的自然環境中產生運動行為?
此前 DeepMind 的研究,可能會更多集中在算法層面的問題,例如如何模擬人類大腦的思考活動,如何進行決策與選擇,最具代表性的研究成果就是 AlphaGo。


但是如何教會一個 AI 運動行為呢?例如一次跳躍、翻轉與奔跑。首先,我們要解決的是該如何精準的描述一個運動行為,在第一篇論文『Emergence of Locomotion Behaviours in Rich Environments』中,探討了如何通過一個策略梯度清華學習的全新可拓展變體,訓練各種不同的模擬人體在不同的地形中的運動,例如跳躍、轉向與蹲伏。
對抗模仿學習:如何從動作捕捉中學習人類行為?
當智能體學會了基礎性的運動,就要開始學習一些特性復雜的技能。例如:行走的步態、從地上起身、跑步與轉彎繞過障礙物等。在第二篇論文『Learning human behaviors from motion capture by adversarial imitation』中 ,DeepMind 則展示了一套可通過運動數據捕捉建立多個子技能策略網絡的方法,并使用生成對抗模仿學習訓練通用神經網絡,從而根據有限的示例生成與人類相似的動作模式。


多行為的魯棒性模仿:如何在多種行為模式中進行切換?
當智能體習得各種運動方案后,那么該如何處理兩種不同行為模式之間的切換過程,例如從步行變為跑步,使得其過渡自然呢?在第三篇論文『Robust Imitation of Diverse Behaviors』中,則展示了一種當前最優生成的神經網絡架構,使得智能體能夠學習不同行為之間的關系,并模擬它們產生具體的動作。


DeepMind 研究團隊指出,其未來的工作將主要集中在指導以上方案「在更為復雜的情況下協調做出更為廣泛的動作范圍」。事實上,單純的模擬人類行為并不是 DeepMind 團隊的最終目的,它們只是想用創造性的解決方案來克服現有的 AI 機器人運動障礙,他們認為機器人甚至可以擺脫人類的運動模式,創造出新的運動行為。只是大多數時候,研究團隊認為能提供的最有效的辦法,依然不是最自然的。