本文為近日召開的CoRL 2017大會上,MIT TR 35得主、UC Berkeley助理教授 Anca Dragan 所做的演講整理,雷鋒網(wǎng)作為受邀媒體參加了CoRL大會,并與Anca Dragan進行了交流。在雷鋒網(wǎng)將于1月舉辦的GAIR硅谷智能駕駛峰會上,Anca Dragan也將出席并發(fā)表演講。
Anca Dragan現(xiàn)任UC Berkeley的電子工程與計算機科學助理教授及InterACT實驗室主任。為了令機器人更好地協(xié)同人類工作,Anca Dragan帶領InterACT實驗室開始專注于人機交互算法的研究,試圖將復雜或模糊的人類行為轉(zhuǎn)化為機器人能理解的簡易數(shù)學模型,通過建立博弈理論和動力系統(tǒng)理論,聚焦于發(fā)現(xiàn)或?qū)W習人類行為模型,并計算連續(xù)狀態(tài)和行動空間。
MIT科技評論給她評的獎項為“遠見者”,稱“她致力于確保機器人與人類可以和諧地共同生活”。在獲獎報道中,Anca Dragan表示:
當人們試圖與機器人共事時,許多沖突都來自于雙方對彼此的不了解,如果機器人能夠理解它可能對人類情緒造成的影響,就有望解決這一問題。
Anca Dragan認為,機器人與人工智能的正確觀點應該是機器人試圖優(yōu)化人的目標函數(shù)。機器人不應該將任何客觀的功能視為理所當然,而應該與人類一起去發(fā)現(xiàn)他們真正想要的是什么。該研究在短期之內(nèi)最重要的應用莫過于幫助自動駕駛汽車與傳統(tǒng)汽車預判對方可能的行為,而在演講中,Anca Dragan也多次提到了這一點。以下即為雷鋒網(wǎng)整理的演講內(nèi)容摘要:
Anca Dragan的PPT題目為《人類進入機器人方程》。在傳統(tǒng)的機器人路徑規(guī)劃問題中,機器人通常將人類視為和其他不能移動的物體一樣的避障目標,而Anca希望將人類作為機器人決策的一個“變量”實現(xiàn)和人類的最優(yōu)交互。
最簡單的狀態(tài),只有機器人和交互的物體,則機器人的效用函數(shù)為UR,該效用函數(shù)包含的變量包括初始狀態(tài)x0以及運動軌跡uR。
但現(xiàn)實中,機器人需要和三類不同的人打交道:在運行環(huán)境中的其他人、其使用者,以及其設計者。
出于安全的考慮,以往通常將人視為機器人行動和路線規(guī)劃中需要避讓的“障礙物”;
但在人類交互當中往往存在某種博弈行為,如這個超車變道的例子,黑色小車意圖超車,但銀色卡車寸步不讓。如果我們與他人的交互都像這個司機一樣,則會造成許多沖突,但無人駕駛車不會像小汽車司機這樣做,他們會感知到這里可能沒有足夠的超車空間,會選擇減速在卡車后變道;
如果我們將人視為需要規(guī)避的障礙物進行建模,那意味著我們將人類視為這個例子中不會改變主意的卡車司機一樣進行建模。
另一個Google Car無法順利通過四面都有停車標志的十字路口的例子。在這個例子中,傳感器會一直探測到有人類司機并進行避讓,而人類司機可以通過一寸一寸向前挪動讓Google無法行動。
漫畫:“你先走還是我先走?”在圖中,無人車讓人類先走,但行人并不打算走而是揮舞手臂,則會讓無人車困惑。
機器人與人類的互動。此時機器人的效用函數(shù)UR包含三個變量:初始狀態(tài)x0、機器人運動軌跡uR以及人類運動軌跡uH,此時人類的效用函數(shù)UH也包含三個變量:初始狀態(tài)x0、人類運動軌跡uH以及覺察到有機器人后的隱形影響因子θH;
我們現(xiàn)在在做的研究:人并不是障礙,而是將其視為需要通過自己效用函數(shù)進行優(yōu)化的智能體,但我們并不知道其效用函數(shù),參數(shù)是隱藏的;機器通過人的動作估計隱藏狀態(tài),估計其下一步行為,如果機器人對人的下一步動作有估計,那么機器人會將其加入到自己的效用函數(shù)中:如果這件事情發(fā)生,我應該怎么做才是最好的選擇。
Anca 6年前做的研究,與人類內(nèi)部狀態(tài)的相互作用,機器預測我要做什么,并幫我更好實現(xiàn)目標。
以及最近的Paper。
當人類也考慮機器人的行為來調(diào)整自己的行為時,其效用函數(shù)UH變?yōu)樗膫€變量:初始狀態(tài)x0、人類運動軌跡uH、機器人運動軌跡UR及覺察到有機器人后的隱形影響因子θH。有不少證據(jù)表明人們實際上并不一定去在博弈中實現(xiàn)均衡,因為人類是通過計算達到平衡的。
我們?nèi)绾握f明機器人對人類行為的影響?
例如,在這個軌道車的例子中,你的效用函數(shù)和你如何動操作桿有關;
再看一個無人車與人類司機交互的例子。上圖中的橙色汽車是無人駕駛車,UR是無人駕駛車軌跡,UH是人類駕駛軌跡,如果我們考慮的是在特定的UR下,UH應該如何達到最優(yōu),這樣人類可以更好地響應機器人的行為。
在這個例子中,這是一個保證效率和安全的博弈。人類的參數(shù)是隱藏的,我們通過反向優(yōu)化控制來猜測這些數(shù)據(jù),機器人收集這些展示人們將如何與機器人互動的數(shù)據(jù),設置一個最大似然觀察,然后機器人去解決這個嵌套優(yōu)化問題,即當人不可避免地受到我所做的事情的影響時,我該怎么做才能最大限度地將我的效用最大化?最終會達到人和機器人的和諧協(xié)作。
接下來Anca展示了一些簡化后的例子。如果將人類車輛當做一個需要避障的目標并推斷其行為,無人車通常在人類車輛后變道。在少數(shù)情況下,人類車輛之前有充足的空間的時候,無人車會超車變道,因為在這個嵌套優(yōu)化中,機器人知道,如果它按這一方式超車變道,那么人的反應就是放慢速度,讓無人車進入。
在這一模式中,機器人不再處于被動狀態(tài),而是更好地和人進行互動。Anca稱她最喜歡的一個例子是,仍然是四面停止標志的十字路口,當處于僵持、沒有乘客的無人車(橙色)需要表示“你先走”的時候,無人車會稍稍后退,在這個路口中,人類司機同樣在進行效率和安全的博弈,而當無人車后退的時候,車輛相撞的幾率變小,此時人類司機就會通過路口,達到人類車輛效用函數(shù)的最大化。這是一個無人車影響人類效用函數(shù)的例子,同時也是很令人驚異的發(fā)現(xiàn),因為人類司機從不會通過后退表示讓對方先走。
同樣在這個漫畫的例子中,無人車也可以通過稍稍后退讓行人先走打破僵局。
三種模型下,真實用戶不同反應的影響。
這一模型仍然存在某些局限性,如效用局限于已知的Feature的線性組合,假設感知問題已經(jīng)得到解決,對車輛運行進行了簡化,等等。
2025-04-14 14:57
2025-04-14 14:53
2025-04-09 12:40
2025-04-08 08:51
2025-04-07 12:08
2025-04-07 12:07
2025-04-07 12:06
2025-04-07 09:52
2025-04-07 09:49
2025-04-07 09:43