移動(dòng)智能機(jī)器人正在越來(lái)越多的非結(jié)構(gòu)化環(huán)境中部署,它們有望在其中執(zhí)行復(fù)雜的動(dòng)態(tài)任務(wù),例如自主移動(dòng)和移動(dòng)操縱。這種基于學(xué)習(xí)的機(jī)器人不僅需要獲取有關(guān)其環(huán)境的基本信息,而且還必須針對(duì)諸如對(duì)象檢測(cè)和語(yǔ)義分類(lèi)之類(lèi)的因素建立這種理解。
通常,在各種基于數(shù)據(jù)的預(yù)訓(xùn)練靜態(tài)模型會(huì)部署在特定的基于學(xué)習(xí)的機(jī)器人系統(tǒng)中。因此,期望了解語(yǔ)義(即場(chǎng)景中發(fā)生的事情)的機(jī)器人將在其預(yù)訓(xùn)練階段學(xué)習(xí)如何做到這一點(diǎn)。這種方法帶來(lái)了三個(gè)主要挑戰(zhàn):可能需要對(duì)模型進(jìn)行重新訓(xùn)練以合并新數(shù)據(jù);在適應(yīng)新的任務(wù)和環(huán)境的同時(shí),應(yīng)保留獲得的知識(shí);部署期間需要環(huán)境的訓(xùn)練信號(hào)。
蘇黎世聯(lián)邦理工學(xué)院的研究團(tuán)隊(duì)對(duì)建筑機(jī)器人的自我改進(jìn)語(yǔ)義感知提出了一種新方法,該方法將持續(xù)學(xué)習(xí)和自我監(jiān)督結(jié)合在一個(gè)新穎的機(jī)器人系統(tǒng)中,以實(shí)現(xiàn)對(duì)語(yǔ)義場(chǎng)景理解的在線(xiàn)終身自我監(jiān)督學(xué)習(xí)。
在先前的工作中,已經(jīng)在兩個(gè)框架(強(qiáng)化學(xué)習(xí)(RL)和用于模型預(yù)測(cè)控制的在線(xiàn)參數(shù)優(yōu)化)下探索了自我改進(jìn)學(xué)習(xí)型機(jī)器人代理的想法。在RL的情況下,機(jī)器人可以學(xué)習(xí)執(zhí)行其所需的任務(wù),例如行走、抓物體、飛行等。但一旦掌握了這些技能,學(xué)習(xí)的模型便會(huì)固定,這樣的機(jī)器人因此缺乏任何終身學(xué)習(xí)能力。用于模型預(yù)測(cè)控制框架的在線(xiàn)參數(shù)優(yōu)化使機(jī)器人可以從在職學(xué)習(xí)中受益,但不會(huì)解決另一個(gè)問(wèn)題:遺忘。
以前關(guān)于自我監(jiān)督學(xué)習(xí)的許多研究都集中在學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)中有用的圖像特征上。缺點(diǎn)是這些方法需要監(jiān)督才能將學(xué)習(xí)到的功能與任何含義相關(guān)聯(lián)。其他方法旨在產(chǎn)生用于圖像分割的偽標(biāo)簽,例如為圖像生成稀疏區(qū)域注釋的圖像分類(lèi)器的類(lèi)激活圖(CAM)。新論文通過(guò)使用環(huán)境的可觀察特征來(lái)生成用于目標(biāo)任務(wù)的學(xué)習(xí)信號(hào),同時(shí)利用相關(guān)任務(wù)中的現(xiàn)有注釋數(shù)據(jù)作為先驗(yàn)知識(shí)來(lái)完善后一種方法。在后續(xù)學(xué)習(xí)中,從各種任務(wù)和領(lǐng)域的非平穩(wěn)數(shù)據(jù)分布中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,目的是優(yōu)化每個(gè)任務(wù)的性能,以及在將知識(shí)從先前任務(wù)轉(zhuǎn)移到當(dāng)前任務(wù)時(shí)保持性能。一種方法是存儲(chǔ)來(lái)自先前任務(wù)的所有數(shù)據(jù),并為每個(gè)新任務(wù)從頭開(kāi)始重新訓(xùn)練網(wǎng)絡(luò)。但是,由于內(nèi)存有限,這個(gè)方法不切實(shí)際,因?yàn)樾枰瑫r(shí)更新和部署模型。為了解決這個(gè)問(wèn)題,研究人員提出了“重播緩沖區(qū)”,通過(guò)記憶功能來(lái)補(bǔ)充每個(gè)新環(huán)境中的訓(xùn)練數(shù)據(jù),該記憶功能可保留來(lái)自先前環(huán)境的有限數(shù)量的樣本。先前關(guān)于在語(yǔ)義分割的上下文中應(yīng)用持續(xù)學(xué)習(xí)的研究通常假定源域和目標(biāo)域在訓(xùn)練時(shí)都是已知的,并且模型并未設(shè)計(jì)為在線(xiàn)更新。相反,蘇黎世聯(lián)邦理工學(xué)院的方法假定部署域事先未知,并且代理必須連續(xù)更新當(dāng)前環(huán)境中的語(yǔ)義知識(shí),而不會(huì)忘記以前看到的環(huán)境。
將這些部分放在一起,提出的自我改進(jìn)感知系統(tǒng)將地圖內(nèi)的本地化與場(chǎng)景的語(yǔ)義分段互連起來(lái)。研究人員基于地圖本地化創(chuàng)建偽標(biāo)簽,以訓(xùn)練語(yǔ)義分割,并使用此前景和背景分割來(lái)告知本地化,從而創(chuàng)建一個(gè)反饋環(huán),從而對(duì)這兩個(gè)部分都進(jìn)行改進(jìn)。該團(tuán)隊(duì)在增加復(fù)雜性的不同步驟和三種不同環(huán)境(建筑工地,停車(chē)場(chǎng)和辦公室)中評(píng)估了所提議框架的性能。為了進(jìn)行自我改進(jìn)能力測(cè)試,將機(jī)器人部署在不同的未知環(huán)境中,并對(duì)獲得的改進(jìn)進(jìn)行了測(cè)量。為了忘記和知識(shí)轉(zhuǎn)移效果評(píng)估,在不同環(huán)境之間切換了部署。他們還進(jìn)行了一項(xiàng)實(shí)驗(yàn),以測(cè)試機(jī)器人的在線(xiàn)學(xué)習(xí)能力。
實(shí)驗(yàn)結(jié)果驗(yàn)證了該系統(tǒng)在多種環(huán)境下具有自我完善的能力,并且所提出的內(nèi)存重放技術(shù)是緩解遺忘的有效解決方案,證明了該方法可以賦予機(jī)器人系統(tǒng)自我完善,持續(xù)不斷的在線(xiàn)學(xué)習(xí)能力。
文中圖片均來(lái)源于網(wǎng)絡(luò)
2025-04-24 15:08
2025-04-21 12:14
2025-04-21 12:11
2025-04-18 08:54
2025-04-18 08:53
2025-04-17 08:16
2025-04-17 08:13
2025-04-16 10:55
2025-04-16 08:50
2025-04-14 14:57