Facebook最新研究：我們訓練機器人討價還價，沒想到AI還自己學會了“使詐”（附論文）

2017-06-21 08:28 性質：轉載作者：Mike Lewis 來源：物聯網智庫

免責聲明：AGV網（www.xmydyc.com)尊重合法版權，反對侵權盜版。（凡是我網所轉載之文章，文中所有文字內容和圖片視頻之知識產權均系原作者和機構所有。文章內容觀點，與本網無關。如有需要刪除，敬請來電商榷！）

你跟女票說：“今晚的球賽特別重要，但是為了陪你我勉強放棄不看！”實際上今晚比賽的球隊你根本不感興趣，這樣做只是讓女票同意你明天和哥們喝酒的談判“小伎倆”。這個“使詐...

　　你跟女票說：“今晚的球賽特別重要，但是為了陪你我勉強放棄不看！”實際上今晚比賽的球隊你根本不感興趣，這樣做只是讓女票同意你明天和哥們喝酒的談判“小伎倆”。

　　這個“使詐”的技能是不是很熟悉？而這次，學會這個技能的是Facebook的討價還價機器人，而且，這還是人家AI自己獨立學會的技能。

　　近日，Facebook發布最新研究，稱他們訓練的機器人已經get了談判技能。而且，有些情況下，機器人最初假裝對無價值項目感興趣，只有通過放棄它才能“妥協” - 這是人們經常使用的有效談判策略。這個行為并不是由研究人員編寫的，而是由機器人發現的，作為試圖實現目標的方法。

　　下面才是正文啦。

　　每天，從我們醒來的那一刻開始，我們的生活就是不斷地與人談判：從討論看什么電視頻道，到說服你的孩子吃蔬菜或試圖買菜時獲得更好的價格。所有這些都是共通的，它們需要復雜的交流和推理技能，這是計算機所沒有的屬性。

　　迄今為止，現有的chatbots（聊天機器人）上的工作已經導致系統可以進行短暫的對話，并執行簡單的任務，如預訂餐廳等。但是，與人們進行有意義的對話的機器人還是很具有挑戰性的，因為它需要機器人將其對話的理解與其對世界的知識相結合，然后產生一個新句子來幫助實現其目標。

　　Facebook人工智能研究（FAIR）的研究人員已經開放源代碼，并發表論文，介紹機器人具有的新功能 - 談判能力。

　　類似于人們有不同的需求，遇到沖突，然后談判達成一個商定的妥協，研究人員已經表明，對于具有不同目標的對話機器人（實現為端對端訓練的神經網絡）在達成共同決定或結果的同時，與其他機器人或人員可以進行從開始到結束的談判。

　　任務：多議題討價還價

　　FAIR研究人員研究了多議題談判任務。對兩個機器人都顯示了相同的項目集合（比如說兩本書，一個帽子，三個球），并且被指示他們通過談判把這些物品分配給彼此。

　　每個機器人都提供自己的價值函數，它表示對每個類型的項目關心多少（比如對于機器人1，每個球值得3分）。在生活中，兩個機器人都不知道其他機器人的價值函數，必須從對話中推斷出（如果你說你想要球，那你應該很重視球）。

　　FAIR研究人員創造了許多這樣的談判方案，始終確保兩位機器人商不可能同時獲得最佳交易。此外，如果談判進行不下去（或者不經過10次對話之后的協議），那這兩個人都只得0分。簡單地說，談判是至關重要的，良好的談判導致更好的表現。

　　對話框部署

　　談判同時是語言和推理問題，其中必須制定意圖，然后口頭實現。這樣的對話包含合作和對抗的要素，要求機器人了解和制定長期計劃并產生話語以實現其目標。

　　FAIR研究人員在構建這樣的長期規劃對話機器方面的關鍵技術創新是一種稱為對話部署的概念。

　　當聊天人可以建立對方（對話者）的心理模型，提前思考或預測未來談話的方向時，他們可以選擇避開沒意義的，混亂的或令人沮喪的交流，從而走向成功的談判。

　　具體來說，FAIR已經開發了對話部署，作為一種新技術，其中機器通過將對話模型推出到對話結束來模擬未來的對話，從而可以選擇具有最大預期未來獎勵的話語。

　　類似的想法已被用于游戲環境規劃中，但從未被應用于語言上，因為語言可能的動作數量要高得多。為了提高效率，研究人員首先產生了一組較小的候選語言來表達，然后對于每個候選語言，他們反復模擬對話的完整未來，以估計它們的成功程度。該模型的預測精度足夠高，使得該技術在以下幾個方面大大提高了談判策略：

　　談判更加努力：新的機器人與人類進行了長時間的對話，反過來也會很快接受交易，這個模型會一直談判直到交易成功。

　　智能機動：有些情況下，機器人最初假裝對無價值項目感興趣，最后只有通過放棄它才能“妥協” - 這是人們經常使用的有效談判策略。這個行為并不是由研究人員編寫的，而是由機器人發現的，作為試圖實現目標的方法。

　　創造語句：雖然神經模型很容易從訓練數據中重復句子，但這項工作表明，模型能夠在必要時進行泛化。

　　建立和評估談判數據集

　　為了訓練協商機器人和進行大規模的定量評估，FAIR團隊協作收集了一系列人與人之間的談判記錄。這些人被展示了一組物品和每個物品的價值，每兩個人要討論決定，要怎么劃分這些物品。然后研究人員訓練一個遞歸的神經網絡，通過教它模仿人們的行為來進行談判。在對話框中的任何點，模型都試圖猜測人類在這種情況下會說什么。

　　不同于先前針對目標對話框的工作，這些模型被訓練成“端到端”，完全是由人類所做的語言和決定所決定的，這意味著這種方法可以很容易地適應其他任務。

　　為了超越簡單地模仿人們，FAIR研究人員允許模型來實現談判的目標。為了訓練模型實現其目標，研究人員讓模型進行了數千次的自我談判，并使用強化學習算法，當它取得好的結果時給予獎勵。為了防止算法開發自己的語言，它也同時訓練模型產生人類語言。

　　為了評估談判機器人，FAIR團隊測試他們在網上與人交談。大多數以前的工作避免與真實的人對話或在較不具挑戰性的領域工作，因為學習模型要響應人們所說的各種語言非常困難。

　　有趣的是，在FAIR團隊的實驗中，大多數人沒有意識到他們是在與機器人交談，而不是與另一個人交談，這表明機器人已經學會在這個領域用英語進行流利的對話。FAIR團隊最好的談判機器人，使用強化學習和對話的推出，其性能已經可以和人類談判相媲美。它取得了更好的交易的頻率，等同于更糟的交易的頻率，表明FAIR的機器人不僅可以說英語，也可以聰明地決定想說什么。

　　強化學習用于對話機器人

　　監督學習的目的是模仿人類用戶的行為，但它并沒有明確地試圖實現機器人的目標。FAIR團隊采用另一種方法，嘗試預訓練再加監督學習，然后基于評估指標，利用強化學習對模型進行微調。實際上，他們使用監督學習來在語言和意義之間進行映射，但是使用強化學習來幫助決定說什么。

　　在強化學習過程中，一個機器人試圖從與另一個機器的對話中改進其參數。而另一個機器可能是一個人，FAIR團隊使用一個固定的監督模型，訓練模仿人類。第二個模型是固定的，因為研究人員發現，隨著機器開發自己的語言進行談判，更新兩個機器模型的參數導致了模型不收斂。在每一個對話結束時，根據最后達成的協議給予獎勵。然后，使用策略梯度，這個獎勵通過輸出的每一個字被回傳網絡，從而增加導致高回報的行動的概率。

　　下一步

　　這一突破對于研究社區和BOT開發商是重大的一步，可以創造聊天機器人推理，交流，洽談的能力，對于建立個性化的數字助理至關重要。與社區合作使我們有機會分享我們的工作和我們要解決的挑戰，并鼓勵有才華的人貢獻他們的想法和努力，推動這個領域向前發展。

0贊 0踩

下一篇 “人防”時代已結束？安保機器人漸成展館安防新標配！

上一篇這個機器人公司的工程師有多牛，看看他們的產品你就跪了

網友評論
文明上網，理性發言，拒絕廣告
0條評論

相關資訊
更多>>

復合型輥道 AGV | 杭叉智能物流家族再添新成員

復合型輥道AGV主體由多功能全向移動底盤+多軸聯動輥道結構組成，適用于更多工作場合，為企業提供了新型自動化物流的解決方案，產品性能達到一流水平，滿足自動化工廠、智能倉儲等不同需求。· 整...

2024-08-30 02:45
NEW！新品推薦| 窄通道搬運叉車BR-D10P 讓搬運更輕巧

隨著物流倉儲智能化的不斷發展、智能制造的快速推進，自主搬運機器人已逐漸在各個領域中得到廣泛應用。今年4月初，尋跡智行公司突破技術更新，已完工組裝完畢，推出新品【搬運叉車 BR-D10P】更適...

2024-04-15 09:16
合肥搬易通|MiMA米瑪電動托盤搬運車“經濟、高效、安全”搬運體驗——MEV20S

MiMA米瑪電動托盤搬運車經濟版-MEV20S，攜實車操作視頻重磅來襲！新一版本繼承原有搬運車的優勢功能——“核心參數不變，性能不減”，實現降本增效，智能升級，給消費者帶來全新的“經濟、高效、安...

2024-04-09 08:56
窄通道、高庫容、超續航、更安全，小精靈AGV新品詮釋高效物流！

智能化浪潮席卷全球，倉儲作為物流重要一環，如何滿足多場景下跨樓層、跨車間、點到點搬運等繁多需求？智能搬運設備，成為鏈通各區域、高效率流轉的關鍵！井松智能手握一站式智能軟硬件部署平臺，...

2024-04-07 08:07
Mujin 在 MODEX 2024展會上推出入庫和出庫自動化創新產品

Mujin 在 B6023 展臺展示包括 TruckBot 在內的多種機器人解決方案，共同為倉庫工作流程打造新一代自動化系統。美國亞特蘭大--機器人和自動化技術領域的領先企業Mujin將在下周舉行的MODEX 202...

2024-03-11 11:00
海柔創新發布含獨家勾取式貨叉技術的HaiPick System 3，存儲密度再創新高

8月16日，海柔創新發布標準化系統產品解決方案HaiPick System 3。HaiPick System 3 由勾取式ACR（Automated Case-handling Mobile Robot）、極速潛伏式頂升機器人K50、配套的工作站和貨架...

2023-08-17 09:41
小空間大儲量，井松智能新品四向車“全揭秘”！

要解決上述問題，智能四向車立庫方案堪稱首選。該方案以托盤四向穿梭車為核心，通過智能物流技術與裝備，實現車體于貨架內四向行駛和物料的高效存取，達到多場景靈活應用、高密度存儲的目的。井松...

2023-08-14 09:40
新品來襲|木牛流馬全向叉式移動機器人

i-Cow全新產品全向叉式移動機器人，正式落地交付給某軍工企業使用。該全向叉式移動機器人，將在化纖行業、電力行業、電梯行業、木業和管業、汽車制造行業等得到推廣。搬運長4.5m，寬1.8m的物料貨架...

2021-12-22 11:57
新品首發 | 勱微機器人發布平衡重式MW-E系列無人叉車

2021-07-30 08:50
佳順智能 | 2021年明星產品專渠發售系列一

智慧物流引導品牌升級巨獻品質革新匠心打造專渠發售佳順智能五款明星產品全新上市！面向渠道客戶安裝便捷、簡易調試、極致性價！提前帶您揭秘兩款明星產品全新「L5/L15-潛伏牽引式AGV」

2021-07-27 08:53