人工智能系統,使機器人具備了像人類一樣靈巧地掌握和操縱物體的能力,現在,研究人員表示,他們已經開發出一種算法,通過這種算法,機器可能學會獨立行走。來自加州大學伯克利分校和其中之一的谷歌人工智能研究部門的科學家們,在Arxiv.org上發表《通過深度強化學習,來學習走路》,它描述一個人工智能系統,教一個長了四只腳的機器人穿越熟悉和不熟悉地形。
該論文作者解釋說,深度強化學習可以用于自動獲取一系列機器人任務數據,從而實現將感知輸入映射到低級動作的策略的端到端學習。如果我們能在現實世界中,直接從零開始學習移動步態,原則上,我們就能獲得最適合于每個機器人的步態, 從而有可能獲得更好的靈活性、能源效率和穩健性。
設計挑戰有兩方面。強化學習人工智能訓練技術使用獎勵或懲罰來驅動個體朝著目標前進,需要大量的數據,在某些情況下需要數萬個樣本,才能取得良好的結果。即:在美國,決定其結構的參數通常需要進行多次訓練,這可能會隨著時間的推移損害機器人。
人工智能
作者指出,深度強化學習在仿真中廣泛應用于學習運動策略,甚至將其應用到現實機器人中,但由于仿真中存在的差異,不可避免地會導致一些性能損失,需要大量的手工建模。事實證明,在現實世界中使用這種算法是具有挑戰性的。
為了尋求一種方法,用研究人員的話說,可以讓一個系統在沒有模擬訓練的情況下學習運動技能,他們開發了一個名為 maximum entropy RL的強化學習框架。它優化了學習策略,即被處理數據的隨機性最大化。在RL中,AI agent通過對策略中的行為進行采樣并獲得獎勵,不斷尋找行為的最優路徑,即狀態和行為的軌跡。
他們開發了一個由計算機工作站組成的流水線,該工作站更新神經網絡,從Minitaur下載數據,并上傳最新的策略,機器人上搭載的Nvidia Jetson TX2執行上述策略,收集數據,并通過以太網將數據上傳到工作站。兩小時內,他們用一種獎勵前進速度、懲罰大角度加速度和俯仰角的算法,走了16萬步,成功地訓練了這架小型 機器人在平坦的地形上行走,越過木塊等障礙物,爬上斜坡和臺階。
研究人員寫道,據我們所知,這個實驗是一個深層強化學習算法的第一個例子,該算法直接在現實世界中學習不受驅動的四足動物運動,不需要任何模擬或預先訓練。
2024-08-29 14:47
2024-02-05 22:01
2024-01-17 07:00
2023-12-25 05:49
2023-12-25 05:12
2023-12-21 09:21
2023-09-10 07:56
2023-08-21 09:49
2021-12-31 16:10
2021-02-08 08:26