通過對人類司機駕駛軌跡的觀察,可以推斷出司機的駕駛風格:比較激進或者比較保守,并采取正確的策略,如判斷對方是一個保守型的司機的時候,在其前面變道超車對方通常會避讓。
像這種情況的激進型司機,無人車只能放棄變道。
而在十字路口的例子中,無人車需要判斷這個司機是否注意其他車輛的動作。
在優化之外的緊急場景的系統協調策略又是怎樣的呢?
當僅和最終用戶交互的時候,無需考慮兩個效用函數,只需要和人類站一邊考慮UH最大化即可。
上述討論的很多都是機器人如何估計人類隱藏參數的研究,另一種方式則是人如何思考與機器人互動中的參數的推斷,這方面的研究一直在進行,而且需要機器人有更多的表現力。對于不同人,機器人同樣的動作也會產生不同的后果,即便人類無法正確推斷機器人行為的時候,至少要讓他們知道發生了什么事,你想做的是什么,為什么交互沒有取得更好的結果等等。機器人需要注意這個更微妙的影響,因為它決定了人們是否了解機器人正在做什么,是否有信心在執行任務等。
然而我們(設計者)在為機器人指定效用函數的時候做的不怎么樣,機器人的獎勵值通常具有不確定性,這往往會帶來出人意料的結果。
例如在OpenAI的一篇論文中,白色小船的目標是在游戲中獲得盡可能多的分,但在這里白色小船卻偏離了賽道打起圈子(因為能不斷吃到寶箱)。
另一個例子,如果設定一個吸塵機器人的獎勵函數是吸盡量多的灰塵,那么機器人會不會在吸完灰塵后把手機起來的灰塵倒出來,然后繼續吸塵以達到最大的獎勵值?
又或者,像迪士尼動畫片米奇用魔法教一把掃把幫其挑水,最后這把掃把不斷挑水(獲得最大獎勵值)把整個屋子給淹了一樣;
讓我們來分析一下這是如何產生的。例如小船游戲的例子,當設置得分為獎勵值,當機器發現有兩個策略:1)排名第一但僅獲得20分;2)排名靠后但能獲得50分,機器人選擇的是后者。
這樣,設計者需要改變獎勵值(找到真正的獎勵值)以使得機器人按預定目標進行決策,或者讓機器人能夠推測到設計者的真正意圖。但二者均有不足之處。
另一個包含草地、灰塵、熔巖和最終目標的導航場景的例子。
假設訓練時的狀態,獎勵函數是盡可能少走草地得分越高的話,結果會如上圖所示(此時沒有出現熔巖)。
策略1:設計師有基于指標的指示器,并建立從原始觀察值到指標的分類器,此時將訓練的模型放到有巖漿的例子中時,機器人往往會越過巖漿到達終點(并非想要的結果)
策略2:而如果設定反向激勵,機器人會對訓練時未出現的元素敬而遠之,機器人不知道巖漿是好雞還是懷,也可能如上圖所示錯過“金礦”。
通過以上例子,說明需要在訓練環境的背景下對特定的獎勵進行觀察找到真正的獎勵,而在執行中人類的指導則是找到真正獎勵的關鍵(如迪士尼動畫片中,米奇讓掃把停止打水)。
這樣,機器人可以從從豐富的指導模式中學習。
簡單來說,如果機器人能夠理解它可能對人類情緒造成的影響,就可以更好地進行決策,并在更廣泛的領域于人類更有效進行協作,給我們生活帶來更多便利與驚喜。
2025-04-14 14:57
2025-04-14 14:53
2025-04-09 12:40
2025-04-08 08:51
2025-04-07 12:08
2025-04-07 12:07
2025-04-07 12:06
2025-04-07 09:52
2025-04-07 09:49
2025-04-07 09:43