【CNMO新聞】谷歌機器人研究部門在一篇博客文章中表示,他們正在研究如何讓機器人自己進行長距離移動。高級研究科學(xué)家Aleksandra Faust和高級機器人軟件工程師Anthony Francis表示:“僅在美國,就有300萬人患有行動障礙,無法出門,機器可以幫助行動不便的人做一些簡單的事情,比如拿食品、藥品或包裹等。”
在某種程度上,通過使用強化學(xué)習(xí)(RL)可以做到這一點,這是一種人工智能訓(xùn)練技術(shù),它利用獎勵來驅(qū)動個體朝著目標(biāo)前進。福斯特、弗朗西斯和他的同事們將強化學(xué)習(xí)與長距離規(guī)劃路線結(jié)合起來,編出能夠安全穿越短距離(約15米)且不會撞上移動障礙物的程序。他們利用AutoRL,一個自動搜索強化學(xué)習(xí)獎勵和神經(jīng)網(wǎng)絡(luò)架構(gòu)的工具,在模擬環(huán)境中進行訓(xùn)練,再使用經(jīng)過訓(xùn)練的程序構(gòu)建路線圖,或由節(jié)點(位置)和邊組成圖。
機器人
使用傳統(tǒng)RL方法的訓(xùn)練,仍存在許多問題,比如它需要花費時間迭代和手工調(diào)整獎勵,并在人工智能架構(gòu)方面不夠明智,更不用說減輕遺忘,這種現(xiàn)象是指人工智能系統(tǒng)在學(xué)習(xí)新信息時,突然忘記了以前學(xué)過的信息。
AutoRL試圖通過兩個階段來解決這個問題,獎勵搜索和神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索。在第一階段, 每個獎勵功能略有不同,在這個階段的最后,通常會選擇將帶到其目的地的獎勵。神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索階段本質(zhì)上是第一階段的重復(fù),但使用選定的獎勵來優(yōu)化網(wǎng)絡(luò),并對累積獎勵進行優(yōu)化。
這個自動化的訓(xùn)練過程,可以減輕模型的遺忘情況,并且與現(xiàn)有技術(shù)相比,由此產(chǎn)生的策略的質(zhì)量更高(導(dǎo)航任務(wù)的質(zhì)量提高了26%),它們甚至足夠強大,可以在非結(jié)構(gòu)化環(huán)境中引導(dǎo)機器人。
AutoRL制定的策略,對本地導(dǎo)航很有幫助,但遠程導(dǎo)航就需要用到概率路線圖了,它們是基于采樣的規(guī)劃器的一個子類,對機器人的姿態(tài)進行采樣,創(chuàng)建符合機器人特性的路線圖。
福斯特和弗朗西斯解釋說:“首先,我們在一個通用的模擬訓(xùn)練環(huán)境中對機器人進行訓(xùn)練,訓(xùn)練一個本地規(guī)劃策略。再根據(jù)該策略構(gòu)建一個PRM,稱為PRM-rl,它位于部署環(huán)境的平鋪圖之上,相同的平面圖可以用于任何機器人。”
為了評估PRM-RL,谷歌的研究人員使用比培訓(xùn)環(huán)境大200倍的辦公室樓層地圖構(gòu)建了一個路線圖,在20次試驗中,成功率達90%以上。
2025-03-07 14:59
2025-03-05 15:37
2025-03-03 09:55
2025-03-03 09:51
2025-03-03 09:51
2025-03-03 09:49
2025-02-26 08:53
2025-02-25 10:56
2025-02-25 10:46
2025-02-25 10:29