機器人自主學習新進展，百度飛槳發(fā)布四足機器人控制強化學習新算法

2021-09-30 11:55 性質：編譯作者：百度飛槳來源：百度飛槳

免責聲明：AGV網(wǎng)（www.xmydyc.com)尊重合法版權，反對侵權盜版。（凡是我網(wǎng)所轉載之文章，文中所有文字內(nèi)容和圖片視頻之知識產(chǎn)權均系原作者和機構所有。文章內(nèi)容觀點，與本網(wǎng)無關。如有需要刪除，敬請來電商榷！）

我們可以看到，圖中四足機器人無論是走獨木橋，還是上下樓梯，都走的十分穩(wěn)健。特別是在獨木板場景，機器人學會了先把雙腿步距縮小，以小碎步的方式平穩(wěn)地穿過了獨木板。這些步態(tài)都是基于強化學習自主學習得到，并沒有通過任何的領域內(nèi)專家知識進行引導。那么這些行走步態(tài)是如何訓練出來的呢？

在解讀之前，我們先回顧下當下三種主流的四足控制算法。

第一個方向是開環(huán)的步態(tài)生成器，即提前規(guī)劃好每條腿的行走軌跡，然后周期性地輸出控制信號以驅動機器人行走起來。這種方式可以讓專家根據(jù)經(jīng)驗以及實際環(huán)境去設計四足機器人的行走方式，但是缺點是往往需要大量的調(diào)試時間以及領域內(nèi)的專家知識。

第二個方向是基于模型預測的控制算法（MPC），這類方法也是MIT之前開源的主要算法。算法對環(huán)境進行建模后，在每個時間步求解優(yōu)化問題以找到最優(yōu)的控制信號。這類方法的問題是其效果依賴于環(huán)境模型的建模準確度，并且在實際部署過程中需要耗費比較大的算力去求解最優(yōu)的控制信號。

第三個方向是基于學習的控制算法。前面提到的方法都是提前設計好控制器直接部署到機器人上的，并沒有體現(xiàn)出機器人自主學習的過程。這個方向的大部分工作是基于機器自主學習，通過收集機器人在環(huán)境中的表現(xiàn)數(shù)據(jù)，調(diào)整機器學習模型中的參數(shù)，以更好地控制四足機器人完成任務。

百度這次發(fā)布的工作是基于強化學習的控制算法。強化學習應用在四足機器人領域并不是新的技術，但是之前發(fā)表的強化學習工作大部分都只能穿越一些比較簡單的場景，在高難度的場景，比如通過獨木板、跳隔板中，表現(xiàn)并不好。主要的原因是四足機器人中復雜的非線性控制系統(tǒng)使得強化學習探索起來十分困難，機器人經(jīng)常還沒走幾步就摔倒了，很難從零開始學習到有效的步態(tài)。為了解決強化學習在四足控制上遇到的問題，百度團隊首次提出基于自進化步態(tài)生成器的強化學習框架。

圖二、ETG-RL架構

該框架的概覽圖如上圖，算法的控制信號由兩部分組成：一個開環(huán)的步態(tài)生成器以及基于強化學習的神經(jīng)網(wǎng)絡。步態(tài)生成器可以提供步態(tài)先驗來引導強化學習進行訓練。以往的工作一般采用一個固定的步態(tài)生成器，這種方式只能生成一種固定的步態(tài)，沒法針對環(huán)境進行特定的適配。特別是當預置的生成器并不適合環(huán)境的情況下，反而會影響強化學習部分的學習效果。

針對這些問題，百度首次提出在軌跡空間直接進行搜索的自進化步態(tài)生成器優(yōu)化方式。

相比在參數(shù)空間進行搜索的方式，它可以更高效地搜索到合理的軌跡，因為在參數(shù)層面進行擾動很可能生成完全不合理的軌跡，并且搜索的參數(shù)量也大很多。強化學習部分的訓練通過目前主流的SAC連續(xù)控制算法進行參數(shù)更新，在優(yōu)化過程中，強化學習的策略網(wǎng)絡需要輸出合理的控制信號去結合開環(huán)的控制信號，以獲得更高的獎勵。需要注意的是，該框架在更新過程中，是采用交替訓練的方式，即獨立更新步態(tài)生成器以及神經(jīng)網(wǎng)絡。這主要的原因是其中一個模塊的更新會導致機器人的行為發(fā)布發(fā)生變化，不利于訓練的穩(wěn)定性。最后，為了提升樣本的有效利用率，該框架還復用了進化算法在優(yōu)化步態(tài)生成器的數(shù)據(jù)，將其添加到強化學習的訓練數(shù)據(jù)中。

圖三、實驗場景（仿真+真機）

接下來看文章中的實驗部分。如上圖所示，百度基于開源的pybullet構建了9個實驗場景，包括了上下樓梯、斜坡、穿越不規(guī)整地形、獨木板、洞穴、跳躍隔板等場景。其算法效果與經(jīng)典的開環(huán)控制器、強化學習算法相比，提升相當大。可以看到百度提出的框架（綠色曲線）遙遙領先于別的算法，并且是唯一一個能完成所有任務的算法。完整的仿真效果以及真機視頻可以參考文章開頭。

圖四、實驗結果

百度的工作展現(xiàn)出，基于自主學習的方法在四足機器人控制上具有完全替代甚至超越經(jīng)典算法的潛力，有可能成為強化學習和進化學習在復雜非線性系統(tǒng)中開始大規(guī)模落地和實用化的契機。

這不是百度在機器人方向上做的第一個強化學習工作，早在18年，他們就嘗試將人工干預引入到強化學習中，以推進強化學習應用在在四軸飛行器控制等高風險的硬件場景。未來，相信強化學習會是四足機器人控制領域重要的技術突破口，有效推動足形態(tài)機器人走進我們的日常生活中。

該模型和訓練方法同步開源于飛槳機器人算法庫PaddleRobotics和強化學習框架PARL；其中四足機器人和復雜地形仿真也開放于飛槳強化學習環(huán)境集RLSchool, 以便于更多該領域的專家和工程師對比研究。

0贊 0踩

下一篇 Berkshire Grey公司推出“Robotic Shuttle Put Wall”

上一篇中國農(nóng)科院唐華俊院長一行來我司視察工作

網(wǎng)友評論
文明上網(wǎng)，理性發(fā)言，拒絕廣告
0條評論

相關資訊
更多>>

合肥搬易通MiMA全向叉車AGV本體MQV15，長物料搬運智能化的高效之選

隨著智能制造和現(xiàn)代物流的快速發(fā)展，傳統(tǒng)人工搬運正逐漸被自動化、智能化的解決方案替代。作為物流自動化和柔性制造的重要設備，AGV叉車（無人叉車）在特殊作業(yè)場景中表現(xiàn)尤為突出。合肥搬易通（Mi...

2025-04-24 08:29
是時候“凍”點真格了!

2025-04-24 08:26
±2毫米！“工友”大顯手身??

走進某德資汽車零部件生產(chǎn)企業(yè)車間忙碌而有序的景象映入眼簾一輛輛智能移動機器人來回穿梭，配合生產(chǎn)線節(jié)奏，精準快速地將物料從原料倉搬運到線邊架；同時在成品區(qū)域，一件件剛走下生產(chǎn)線的嶄新產(chǎn)...

2025-04-24 08:25
展會邀請！鐳神智能邀您共赴第85屆中國教育裝備展示會

深圳市鐳神智能系統(tǒng)有限公司24小時全國服務熱線：4008306266激光雷達中文官網(wǎng)：www.leishen-lidar.com激光雷達英文官網(wǎng)：www.lslidar.com無人叉車中文官網(wǎng)：www.leishenrobot.cn總部地址：深圳市寶...

2025-04-24 08:24
菜鳥與兩大知名跨國集團達成數(shù)億美元的全球科技合作

近日，菜鳥物流科技已與全球兩大知名跨國集團達成合作，合作規(guī)模有望達到數(shù)億美元。一期項目涉及日本、韓國、法國、加拿大和捷克等全球關鍵市場的智能倉儲和快遞分撥升級。與越來越多的跨國企業(yè)從...

2025-04-24 08:24
當西部風情遇上中國智造，倉儲革命如何重塑零售供應鏈？

作為深耕美式西部牛仔服飾領域近半世紀的經(jīng)典品牌，Boot Barn以其豐富的產(chǎn)品線、強大的供應鏈能力成為全球規(guī)模最大的美西風格服飾零售品牌。然而，隨著業(yè)務的迅速擴張和門店數(shù)量的激增，如何高效...

2025-04-24 08:23
立鏢機器人@KOREAMAT 2025｜用硬核技術解鎖全球物流新模式

首爾物流風暴立鏢技術強勢登陸KOREAMAT20252025年KOREA MAT（韓國首爾國際物流產(chǎn)業(yè)展）作為亞洲物流領域的頂級盛會，本次展會匯聚250+全球頂尖企業(yè)，覆蓋物流設備、自動化系統(tǒng)、冷鏈技術等全產(chǎn)業(yè)...

2025-04-24 08:22
銳曼MINI無人堆高叉車：1.1米窄道暢行無阻，智能賦能高效倉儲物流

智能制造與智慧物流快速發(fā)展，倉儲空間的利用率與作業(yè)效率，成為工廠企業(yè)降本增效的關鍵。針對這一需求，銳曼機器人重磅推出MINI無人堆高叉車，以1.1米超窄通道通行能力、1.5米舉升高度及500KG負載...

2025-04-24 08:21
合力智能物流行業(yè)解決方案亮相全國第四屆酒類大會！

由中國倉儲與配送協(xié)會智慧物流分會主辦，主題為“智能引領，創(chuàng)新賦能，綠色共生”的第四屆全國酒類智慧物流與供應鏈發(fā)展大會于2025年4月17日在貴陽召開。合力受邀參會并于大會重磅發(fā)布酒類行業(yè)專用...

2025-04-23 11:50
高效協(xié)同新范式：比亞迪叉車領創(chuàng)智能搬運革新

自然界的搬運智慧歷經(jīng)億萬年進化臻于至境——白蟻用顎齒構建垂直通風的巢穴，座頭鯨以氣泡網(wǎng)實施群體圍獵，切葉蟻借植物碎片培育共生菌群。這些自然現(xiàn)象蘊含著物質流轉的樸素真理：高效性源于群體...

2025-04-23 11:50