小受被各种姿势打桩gv视频,大胸美女被吃奶爽死视频,精品深夜AV无码一区二区,亚洲a片一区日韩精品无码

發布詢價單
您的位置:首頁 > 資訊 > 行業資訊 > 正文

Anca Dragan CoRL 演講解讀:機器人與人類如何相互影響及更好協作?

2017-11-19 07:38 性質:轉載 作者:雷鋒網 來源:雷鋒網
免責聲明:AGV網(www.xmydyc.com)尊重合法版權,反對侵權盜版。(凡是我網所轉載之文章,文中所有文字內容和圖片視頻之知識產權均系原作者和機構所有。文章內容觀點,與本網無關。如有需要刪除,敬請來電商榷!)

而且我們不能用一些線下訓練的模型來用來套到實際的駕駛中,萬一遇到之前那個不肯避讓的二愣子卡車司機就麻煩了。所以需要對每個司機的行為進行具體的估計。

通過對人類司機駕駛軌跡的觀察,可以推斷出司機的駕駛風格:比較激進或者比較保守,并采取正確的策略,如判斷對方是一個保守型的司機的時候,在其前面變道超車對方通常會避讓。

像這種情況的激進型司機,無人車只能放棄變道。

而在十字路口的例子中,無人車需要判斷這個司機是否注意其他車輛的動作。

在優化之外的緊急場景的系統協調策略又是怎樣的呢?

當僅和最終用戶交互的時候,無需考慮兩個效用函數,只需要和人類站一邊考慮UH最大化即可。

上述討論的很多都是機器人如何估計人類隱藏參數的研究,另一種方式則是人如何思考與機器人互動中的參數的推斷,這方面的研究一直在進行,而且需要機器人有更多的表現力。對于不同人,機器人同樣的動作也會產生不同的后果,即便人類無法正確推斷機器人行為的時候,至少要讓他們知道發生了什么事,你想做的是什么,為什么交互沒有取得更好的結果等等。機器人需要注意這個更微妙的影響,因為它決定了人們是否了解機器人正在做什么,是否有信心在執行任務等。

然而我們(設計者)在為機器人指定效用函數的時候做的不怎么樣,機器人的獎勵值通常具有不確定性,這往往會帶來出人意料的結果。

例如在OpenAI的一篇論文中,白色小船的目標是在游戲中獲得盡可能多的分,但在這里白色小船卻偏離了賽道打起圈子(因為能不斷吃到寶箱)。

另一個例子,如果設定一個吸塵機器人的獎勵函數是吸盡量多的灰塵,那么機器人會不會在吸完灰塵后把手機起來的灰塵倒出來,然后繼續吸塵以達到最大的獎勵值?

又或者,像迪士尼動畫片米奇用魔法教一把掃把幫其挑水,最后這把掃把不斷挑水(獲得最大獎勵值)把整個屋子給淹了一樣;

讓我們來分析一下這是如何產生的。例如小船游戲的例子,當設置得分為獎勵值,當機器發現有兩個策略:1)排名第一但僅獲得20分;2)排名靠后但能獲得50分,機器人選擇的是后者。

這樣,設計者需要改變獎勵值(找到真正的獎勵值)以使得機器人按預定目標進行決策,或者讓機器人能夠推測到設計者的真正意圖。但二者均有不足之處。

另一個包含草地、灰塵、熔巖和最終目標的導航場景的例子。

假設訓練時的狀態,獎勵函數是盡可能少走草地得分越高的話,結果會如上圖所示(此時沒有出現熔巖)。

策略1:設計師有基于指標的指示器,并建立從原始觀察值到指標的分類器,此時將訓練的模型放到有巖漿的例子中時,機器人往往會越過巖漿到達終點(并非想要的結果)

策略2:而如果設定反向激勵,機器人會對訓練時未出現的元素敬而遠之,機器人不知道巖漿是好雞還是懷,也可能如上圖所示錯過“金礦”。

通過以上例子,說明需要在訓練環境的背景下對特定的獎勵進行觀察找到真正的獎勵,而在執行中人類的指導則是找到真正獎勵的關鍵(如迪士尼動畫片中,米奇讓掃把停止打水)。

這樣,機器人可以從從豐富的指導模式中學習。

簡單來說,如果機器人能夠理解它可能對人類情緒造成的影響,就可以更好地進行決策,并在更廣泛的領域于人類更有效進行協作,給我們生活帶來更多便利與驚喜。

12下一頁

網友評論
文明上網,理性發言,拒絕廣告

相關資訊

關注官方微信

手機掃碼看新聞

主站蜘蛛池模板: 阿拉善右旗| 紫云| 张家口市| 泸定县| 咸宁市| 庆云县| 万盛区| 包头市| 广宁县| 南昌县| 怀化市| 延吉市| 句容市| 页游| 佛学| 车致| 灯塔市| 巴塘县| 改则县| 县级市| 赤壁市| 泰来县| 衡阳县| 洛扎县| 延吉市| 黄平县| 习水县| 长阳| 镇雄县| 辉县市| 高阳县| 甘肃省| 尉犁县| 房山区| 黔西| 康保县| 云霄县| 融水| 泾源县| 盐津县| 娄烦县|