何止 Meta x Oakley,小米等十家 AI 拍攝眼鏡上新!下半年好看!

自學(xué)抓取物體的機(jī)械臂,Google機(jī)器學(xué)習(xí)再次震驚世界
或許與圍棋連勝兩局地球上最聰明的人之一相比,抓取物體聽(tīng)起來(lái)并沒(méi)有那么酷炫——畢竟我們大多數(shù)人不會(huì)手滑拿不住一個(gè)杯子,就連一個(gè)2歲小孩也能夠?qū)W會(huì)把地上的玩具撿起來(lái)。不過(guò)倘若說(shuō)這背后所涉及到的方式方法與AlphaGo戰(zhàn)勝李世石所用的是一個(gè)模子里面刻出來(lái)的,你是否就會(huì)有些興趣了呢?
這兩者的背后都使用了強(qiáng)化學(xué)習(xí) (reinforcement learning) 的算法。什么叫做強(qiáng)化學(xué)習(xí)呢?我們打個(gè)比方:當(dāng)你在訓(xùn)練狗狗坐下的時(shí)候,如果它做出對(duì)的動(dòng)作,你會(huì)給它一塊小餅干,跟它說(shuō)“乖寶寶”;如果它做錯(cuò)了,它將沒(méi)有餅干,或者輕輕的被你拍一下頭;經(jīng)過(guò)長(zhǎng)時(shí)間的訓(xùn)練之后,它就知道坐下,就能夠得到獎(jiǎng)勵(lì)。這對(duì)于機(jī)器來(lái)講也是一樣的,只不過(guò)對(duì)它而言小餅干,就是一個(gè)對(duì)未來(lái)收益的預(yù)期,而它的目標(biāo)就是如何做出對(duì)的選擇,來(lái)最大化這個(gè)收益。
有了基本的概念之后,我們?cè)賮?lái)看一下維基百科嚴(yán)格的定義:強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)中的一個(gè)領(lǐng)域,強(qiáng)調(diào)如何基于環(huán)境而行動(dòng),以取得最大化的預(yù)期利益。其靈感來(lái)源于心理學(xué)中的行為主義理論,即有機(jī)體如何在環(huán)境給予的獎(jiǎng)勵(lì)或懲罰的刺激下,逐步形成對(duì)刺激的預(yù)期,產(chǎn)生能獲得最大利益的習(xí)慣性行為。換言之,只要我們能夠有效的區(qū)分“好”和“壞”,那么我們就可以用增強(qiáng)學(xué)習(xí)的方法,讓機(jī)器在不斷的實(shí)驗(yàn)中,逐漸學(xué)會(huì)做出“好”的行為。
這種方法與傳統(tǒng)程序編寫的最大區(qū)別就在于,傳統(tǒng)意義上的程序是通過(guò)分析以及一系列的if-else來(lái)表達(dá)我們對(duì)于事情的理解,換言之,這種方法最大的弊端就是,倘若我們不能夠清晰的梳理出一件事情為什么這樣做的時(shí)候,我們便無(wú)從成功的讓機(jī)器模仿做出類似的行為,更無(wú)法處理形形色色的突發(fā)意外情況。然而強(qiáng)化學(xué)習(xí)的方法則我們只需要提供一個(gè)“足夠好”的初始條件,接下來(lái),讓機(jī)器自己在無(wú)數(shù)次的失敗中調(diào)整、學(xué)習(xí)就好。就拿圍棋來(lái)說(shuō),研究人員無(wú)需先成為圍棋的個(gè)中高手,AlphaGo在與李世石對(duì)決以前,它已經(jīng)和自己下了以百萬(wàn)為單位局的圍棋,并從自己身上學(xué)到了無(wú)數(shù)的教訓(xùn)了。同樣,我們無(wú)須理解我們是如何能夠抓起形形色色的物體的,研究人員觀察到800,000的練習(xí)之后,機(jī)器開(kāi)始學(xué)會(huì)硬的物體要抓邊緣,柔軟的物體則可以捏著中間,甚至一些形狀不規(guī)則或者被擋住的物體,它們還會(huì)先把障礙清開(kāi),是不是很聰明呢?有興趣的朋友可以看看論文的原文。
當(dāng)然除了研究上的意義,我更關(guān)心的是,這將給工業(yè)界帶來(lái)怎樣的震動(dòng)。畢竟,我們很多決策問(wèn)題都有類似明確的“好”與“壞”的標(biāo)準(zhǔn),而倘若我們能夠恰當(dāng)?shù)陌言鰪?qiáng)學(xué)習(xí)的方法帶入到應(yīng)用當(dāng)中,或許人和機(jī)器的分工又將再一次被深刻的改變。