研究人員創建了一個框架,可以使機器人有效地完成對可變形物體(如面團或布)的復雜操縱任務,這些物體需要許多工具并需要很長時間才能完成。|來源:研究人員
想象一下,一個比薩餅制作者正在處理一團面團。她可能會用鏟子把面團抬到砧板上,然后用搟面杖把它壓成一個圓形。很簡單,對嗎?如果這個比薩餅制作者是一個機器人就不一樣了。
對于機器人來說,處理像面團這樣的可變形物體是很棘手的,因為面團的形狀可以以多種方式改變,這很難用方程式來表示。此外,從面團中創造一個新的形狀需要多個步驟和使用不同的工具。對于一個機器人來說,學習一個具有長序列步驟的操作任務是特別困難的--那里有許多可能的選擇--因為學習往往是通過試驗和錯誤進行的。
麻省理工學院、卡內基梅隆大學和加州大學圣地亞哥分校的研究人員想出了一個更好的方法。他們創建了一個機器人操縱系統的框架,該系統使用兩階段的學習過程,這可以使機器人在很長的時間范圍內執行復雜的面團操縱任務。
一個 "教師 "算法解決了機器人為完成任務必須采取的每一個步驟。然后,它訓練一個 "學生 "機器學習模型,學習關于何時和如何執行任務中所需要的每項技能的抽象概念,如使用搟面杖。有了這些知識,系統就會推理出如何執行這些技能來完成整個任務。
研究人員表明,這種被他們稱為DiffSkill的方法可以在模擬中執行復雜的操作任務,如切割和鋪開面團,或從砧板周圍收集面團碎片,同時優于其他機器學習方法。
除了制作披薩之外,這種方法還可以應用于機器人需要操縱可變形物體的其他場合,例如為老年人或有運動障礙的人喂食、洗澡或穿衣的護理機器人。
"這種方法更接近于我們人類計劃行動的方式。當人類做一個長距離的任務時,我們不是在寫下所有的細節。我們有一個更高層次的計劃器,它大致告訴我們階段是什么,以及我們沿途需要實現的一些中間目標,然后我們執行它們,"計算機科學和人工智能實驗室(CSAIL)的研究生李云珠說,她是一篇介紹DiffSkill的論文的作者。
李云珠的合著者包括主要作者卡內基梅隆大學(CMU)的研究生林星宇、加州大學圣地亞哥分校的研究生黃志豪、Paul E. Newton認知發展教授Joshua B. Tenenbaum。牛頓職業發展教授和CSAIL成員;CMU助理教授David Held;以及資深作者Chuang Gan,MIT-IB+M Watson人工智能實驗室的研究科學家。該研究將在國際學習表征會議上發表。
學生和老師
DiffSkill框架中的 "老師 "是一種軌跡優化算法,可以解決短距離的任務,即物體的初始狀態和目標位置很接近。軌跡優化器在一個模擬現實世界物理學的模擬器中工作(被稱為可微分物理學模擬器,這使 "DiffSkill "中的 "Diff "成為現實)。教師 "算法使用模擬器中的信息來學習面團在每個階段必須如何移動,一次一個,然后輸出這些軌跡。
然后 "學生 "神經網絡學習模仿老師的動作。作為輸入,它使用兩個攝像機圖像,一個顯示面團的當前狀態,另一個顯示任務結束時的面團。該神經網絡生成一個高級計劃,以確定如何將不同的技能聯系起來以達到目標。然后,它為每個技能生成具體的、短距離的軌跡,并直接向工具發送命令。
研究人員使用這種技術對三種不同的模擬面團操作任務進行了實驗。在一項任務中,機器人使用鏟子將面團舉到砧板上,然后使用搟面杖將其壓平。在另一項任務中,機器人使用抓手從柜臺的各個角落收集面團,將其放在鏟子上,然后將其轉移到砧板上。在第三項任務中,機器人用刀將一堆面團切成兩半,然后用抓手將每塊面團運送到不同的地方。
高于其余部分的削減
林說;"DiffSkill能夠勝過依靠強化學習的流行技術,即機器人通過試驗和錯誤來學習任務。事實上,DiffSkill是唯一能夠成功完成所有三項面團操作任務的方法。有趣的是,研究人員發現,"學生 "神經網絡甚至能夠勝過 "教師 "算法。"
林說:"我們的框架為機器人獲得新技能提供了一種新穎的方式。這些技能然后可以被連鎖起來,以解決更復雜的任務,這超出了以前機器人系統的能力。"
因為他們的方法專注于控制工具(鏟子、刀、搟面杖等),它可以應用于不同的機器人,但前提是它們使用研究人員定義的特定工具。在未來,他們計劃將工具的形狀整合到 "學生 "網絡的推理中,這樣它就可以應用于其他設備。
研究人員打算通過使用3D數據作為輸入來提高DiffSkill的性能,而不是使用難以從模擬轉移到現實世界的圖像。他們還希望使神經網絡規劃過程更加有效,并收集更多不同的訓練數據,以增強DiffSkill對新情況的概括能力。從長遠來看,他們希望將DiffSkill應用于更多不同的任務,包括布的操作。
編者注:本文轉自麻省理工學院新聞。
2025-04-18 08:54
2025-04-18 08:53
2025-04-17 08:16
2025-04-17 08:13
2025-04-16 10:55
2025-04-16 08:50
2025-04-14 14:57
2025-04-14 14:53
2025-04-09 12:40
2025-04-08 08:51