孟慶虎,香港中文大學(xué)電子工程系教授;峰會主旨報告《真的要機(jī)器換人嗎?》。
各位尊敬的院士,專家,和機(jī)器人圈的朋友。今天特別感興機(jī)器人峰會主委會讓我有機(jī)會把我工作和科研的工作跟大家稍微分享一下。
我今天講的題目是《真的要機(jī)器換人嗎?》。這里有兩想法,一個是機(jī)器人換人是20年以前的概念,那么現(xiàn)在的機(jī)器人發(fā)展到今天這一步的時候,機(jī)器人換人這個事是不是在每個場合都合適,第二現(xiàn)在真的可以機(jī)器人換人嗎?機(jī)器人能夠替代人嗎?我們從這個角度跟大家分享一下。
我們機(jī)器人歷史也不長,機(jī)器人這個詞是1920年出來的。你這個ROB這個詞在1920年是沒有的。機(jī)器人學(xué)是科幻小說1941年提出來的所以歷史很短暫,1941年查這個文獻(xiàn)是沒有的。
我們看看研究的成果,有一種比較快的方法看,就是從數(shù)據(jù)庫里面看,我們把傳統(tǒng)機(jī)器人和機(jī)器人學(xué),圖象處理、自動化、信息、能源做一個比較,1985年之前,這個數(shù)據(jù)庫搜集是這樣的,就是機(jī)器人非常的少,傳統(tǒng)的行業(yè),像能源、控制系統(tǒng)工程文章特別多。后面的十年,增長相當(dāng)?shù)目欤蠹铱吹竭@個機(jī)器人增長相對快,但是1995年到2004年是這樣的增長。如果用倍數(shù)來看,機(jī)器人增長是倍數(shù)最多。我們在機(jī)器人本身這個行業(yè)里比的話,我們協(xié)作機(jī)器人、仿真機(jī)器人,機(jī)器人感知,微小型機(jī)器人、還有工業(yè)機(jī)器人、服務(wù)機(jī)器人,19 85年之前沒有這方面的文章。從1985年到1994年大家有關(guān)注,包括人性機(jī)器人,協(xié)作機(jī)器人有了,突破了0。1995年到2004年的增長,可以看到這個仿真機(jī)器人進(jìn)展還是非常快的。但是還不行。截止到2015年人機(jī)合作文章還是比較少。只有500多篇,仿真機(jī)器人多一點。原來是0,所以是放大倍數(shù)是無窮大,所以人機(jī)合作有很大的余地。真的想要機(jī)器人融入我們的生活,我們要克服的就是讓機(jī)器人和人能夠共同的生存,共同的工作。那么,機(jī)器人換人一個先決條件就是說機(jī)器人要能夠跟人共同生存。所以說,從這樣一個角度,我們覺得應(yīng)該稍微看一下機(jī)器人的發(fā)展史。
1960年的時候,第一次用機(jī)器人上了雞尾酒,所以這兩個人結(jié)緣。還有1961年第一臺機(jī)器人賣JM。當(dāng)時是處理鍛造艦的運輸。當(dāng)時并不是做裝配的事。歷史上還有一件非常重要的事情就是1968年,在斯坦福研究了機(jī)器人控制的機(jī)械臂,這個機(jī)械臂后來變成了斯坦福R,這成為第一個真正計算機(jī)控制的機(jī)械臂,這個計算機(jī)控制的機(jī)械臂,工業(yè)機(jī)器人,那么真正到了市場,就是到1978年的事,所以這個成為了第一個利用自由度,完全計算機(jī)控制的機(jī)器人。所以這個歷史非常的短暫。但是,我們看傳統(tǒng)的工業(yè)裝配機(jī)器人有一些特點,第一個就是它運行速度非常的高,第二個就是說它的運行精度非常的高。因為他們是不具備任何的智能和傳感這樣的功能的。所以說必須要靠精確的編成完成所有的任務(wù),這個就是這樣的。也沒有協(xié)作。所以當(dāng)時的裝配線要評比起來,不能讓人進(jìn)來,因為機(jī)器人沒有智力,也不知道有沒有人這樣的事情。這樣的裝配線現(xiàn)在逐漸被人機(jī)協(xié)調(diào)的裝配線替代掉,這個是寶馬最新的生產(chǎn)線,可以看到,現(xiàn)在的概念是讓人做人最擅長的事,讓機(jī)器人做機(jī)器人最擅長的事。大家發(fā)揮優(yōu)勢,能夠讓效率提高得非常好。而且在一些非常笨重,人做起來費勁,不愿意做,非常困難的事讓機(jī)器人做,相對容易的事,而且用機(jī)器人來做相對困難的事,這個時候我們用人來做。所以說,人和機(jī)器人的協(xié)調(diào),真正的開始從工業(yè)進(jìn)入。要讓這樣機(jī)器人和人一塊合作首先有一個非常重要的條件,那就是說機(jī)器人必須知道人的存在,這樣的工作讓人知道非常簡單,靈巧,而且不用太消耗太多的體力就可以完成。但是,你要用機(jī)器人來做,這樣的事相對來說效率非常的低。這就是目前的一種趨勢。那么,這個要求就是我剛才要說的,一定要讓機(jī)器人有一定的智能,和人打交道的能力,這樣可以讓機(jī)器人進(jìn)入這個環(huán)境。
就是說我們現(xiàn)在從機(jī)械方面來說,除了裝配線上機(jī)器人,這里就是說想替代單位的工人。這個就是一個小的工房,小型的企業(yè),如果有個別崗位需要有一個比較能夠替代人的工作,希望用這樣的機(jī)器人,這樣的機(jī)器人跟的傳統(tǒng)的機(jī)器人有一個區(qū)別,就是它速度不是特別高,精度不是特別高。但是,有很高的智能,有很多傳感信息。所以說,能夠知道怎么樣,知道怎么跟人合作,不會傷到人,可以看到人做什么,學(xué)習(xí)起來非常容易,手把手教他就可以自動的編程,而且這樣的機(jī)器人成本不是特別,特別適合中小企業(yè),或者單工位替工,但是這樣的機(jī)器人是不是真的能夠換人呢?我們看一個簡單的視頻,
這個事讓人做相對容易多了,但是我們用單工位機(jī)器人做起來還是非常費勁的。如果要讓他來疊衣服的話還沒有準(zhǔn)備好。我們也是做了很多非常先進(jìn),酷的機(jī)器人,包括仿人的,說老實話,在從硬件設(shè)備商來說,已經(jīng)達(dá)到了登峰造極的水平了,就是人類對于用一個鋼鐵模仿柔體的生物獲得了一定的程度,即便這樣的技術(shù)上非常高,然后為什么我們做一些有時候看起來非常簡單的事情,反而還是不了呢?這個時候我們就是需要給他做一些改進(jìn)。比如我們看這個的話,這個是我們中國的香港大學(xué)李一兵機(jī)械狗。
從硬件上要做這樣一個狗,當(dāng)時李一兵他們團(tuán)隊沒花太多的時間和金錢做出來,而且得到了非常高的贊揚。就是說硬件上面我們要想做一件事情,實際上并不是那么難,但是為什么當(dāng)你要執(zhí)行一個任務(wù)的時候就會變成這樣難呢?我們再看看這個去年的DAPRPA。這個代表了現(xiàn)在最高的水平,當(dāng)他們完全單相指標(biāo)的時候都是非常的精彩,當(dāng)讓他們完成人類非常簡單可以做到的任務(wù)的時候反而他們做不到。從這些例子里面我們可以吸取什么經(jīng)驗教訓(xùn),可以看到什么問題,引發(fā)我們什么思考,我們做機(jī)器人研究的時候,技術(shù)研究的時候,我們應(yīng)該注重哪些方面呢?所以這些事情我們就想引出我們下面的一些話題。
首先我們來比較一下,人和機(jī)器人。我們從幾個方面比較一下的話。如果我們說它移動性能,我們說機(jī)器人的移動性能的確可以做到跟人差不多。有時候比人強(qiáng)。所以再看靈活性,人絕對沒有問題的,機(jī)器人現(xiàn)在還不是那么完美。盡管我們有柔性關(guān)節(jié)等等,但是我們機(jī)器人主要還是鋼鐵,鋼鐵機(jī)器人的時候,跟我們?nèi)嵝赃€是有嚴(yán)重的區(qū)別的,那么操作性,大家都是差不多的。有的時候機(jī)器人可以更精確,可以更快,傳感能力呢?也應(yīng)該是差不多。而且機(jī)器人有時候會比我們傳感能力更強(qiáng)。但是智能方面機(jī)器人差得比較多。這樣一比,我們發(fā)現(xiàn)兩個地方,一個是靈活性,一個是智能。這里面是分別是硬件和軟件的問題。大家都有努力。這個實驗室的教授就是在做。里面是用這種驅(qū)動,仿人的肌肉,韌帶驅(qū)動來做的,這個說老實話有很長的路要走。那么,這個我們先說和人打交道,首先要知道人智能怎么樣。我們有視覺系統(tǒng),90%的信息是視覺來的,還有嗅覺,聽覺。我們還有一個觸覺,這個不僅裝在手腕上,遍布我們所有的皮膚,這些角度來說,人類盡管裝配傳感器不是那么多,但是這些傳感器非常有效的發(fā)揮作用。我們?nèi)四X的能力超出異常,我們每秒鐘可以處理1萬億比特的信息。我們大腦每一秒鐘可以搜集4千億比特信息,大家覺得可能這個數(shù)據(jù)不靠譜,我們大腦每一秒搜集4千億比特,但是原因我們可能只對其中兩千條關(guān)注,其中七條有記憶。你搜集到的信息只有7條有記憶。最快只能對其中一條做出反映,比如我現(xiàn)在問大家,大廳里面有多少個出口,大家說不知道。但是你回頭一看,這個信息一直在那。但是我們沒有關(guān)注它,我們只關(guān)注其中有用的最多7條。這個我們是怎么關(guān)注的?我們?nèi)擞洃浻羞x擇性的。就是說因為我們有選擇性,根據(jù)我們的知識,根據(jù)我們的情節(jié),根據(jù)我們做出判斷,這個我們根據(jù)我們經(jīng)驗就會說圓或方。我們有時候給你不相干的東西,讓你看的時候你不知所措,不知道往哪看,當(dāng)我問你這個圖片里這個人腰帶的顏色是什么的時候,再打開的時候,大家第一個關(guān)注的點就是它的皮帶,這就是人的視覺,和人的大腦對于信息能夠進(jìn)行分割處理,實際上是交集的方式,不至于我們大腦累死。所以用機(jī)器人,人工智能做信息處理的時候,我們往往沒有這樣的能力,比如說,有TOP DOWN的功能,比如我兒子看到這個蒼蠅的時候,第一次,他不知道什么事。但是他見過蜜蜂,他就說這是一個蜜蜂,你告訴他這不是蜜蜂,是蒼蠅,他就更新他的記憶,他下一次看到蒼蠅的的時候就說是蒼蠅不是說蜜蜂。這是人保護(hù)自己的一個判斷。還有BOTTOM UP,這獲取高級知識的方式,我們這個可以根據(jù)經(jīng)驗說是圓還是方。然后這個圖形我們根據(jù)人經(jīng)驗是人在騎馬,這樣圖象,大家有時候也能夠判斷出來要么一個狗在走。根據(jù)我們經(jīng)驗,根據(jù)我們判斷,這樣的圖象我們都能處理,但是作為機(jī)器人就是處理不了。人和機(jī)器人有好多的互補(bǔ)性。人我們好處的就是90%的信息是眼睛獲取的,我們傳達(dá),表達(dá)出來的信息90%通過語言來表達(dá)的。所以說我們語音方面做得相當(dāng)不錯的。但是圖象識別方面還是做得很差。這是一個小女孩,看到一個照片以后可以解釋出來這里邊是什么現(xiàn)象。
這個是斯坦福大學(xué)人工智能的一個教授。
大家可以看到跟一個3歲小孩比還有很大的差距。那么就是和這樣的思路和想法,我舉個我們科研的例子。
第一個就是說大家做這個我們叫ACTIVE,這個就是我們用攝像機(jī)看的東西都是被動的,靜態(tài)的。我們捕捉的東西一個要觀測物和被觀測物他們之間的關(guān)系,我們往往建立這樣的東西,這個東西建立好以后什么東西都好做了,如果只是一個攝象頭,就能夠感知環(huán)境,感知你要操作的對象,但是放在移動平臺上就是被動的,因為你改變了攝象頭的狀態(tài)。不斷改變觀測的角度和位置,而且能夠把被觀測對象同時改變,達(dá)到更好的效果。這是第一個,我們小的例子。
第二個講的例子,我們開發(fā)的一個非常簡單OFFICE ROB,這個一起人就是成本很低,就三千塊錢,可以自平衡,可以升降,這個OFFICE ROB就是能夠自己上電梯,還能夠到達(dá)他想去的樓層,同時能夠進(jìn)出自如。所以要具備一些目標(biāo)和人辨識的功能,同時對這個按紐和樓梯的顯示這個功能。
最后一個就功能是里面有人,他按不到按紐,他需要用簡單的語音交流。就是幫我按一下三樓的電梯按鍵,如果他出不去,人多的時候,他會說去借過讓我出去。我們就是用非常簡單限定環(huán)境和限定任務(wù)的事情來驗證機(jī)器人的智能,如果我們把它限制在一個特定的范圍里以后我們可以做得非常好了。所以說這個就是來驗證這樣一個觀點。那么因為時間的關(guān)系我不再把它繼續(xù)講下去了。
這些東西我們要把它造得便宜,我們就是要把這些好多處理的能力,分類的能力,和智能決策能力反到云端,因為連接到網(wǎng)絡(luò)是非常簡單的事情,我們在網(wǎng)絡(luò)上可以把最先進(jìn)的,和最聰明的算法放在這個地方,所有的加起來就可以給我們提供完美的任務(wù),那么其中,今天我想強(qiáng)調(diào)一點就是說我們在做KN的時候,硬件的東西會逐漸變成生產(chǎn)能力特別強(qiáng)企業(yè)在做。一些小型的東西,打印機(jī)可以打的除外。基本上大家如果要是做小批量的硬件的話,以后大家不會有太多的市場。大量的市場在什么地方?就是感知、人工智能、視覺智能等等。然后大量就是軟件的事情,就是在云端的決策和專家系統(tǒng)等等,大數(shù)據(jù)。還有一個東西對我們非常有幫助的就是物聯(lián)網(wǎng)。將來物聯(lián)網(wǎng)真的是到處都是的話,機(jī)器人辨識東西的能力就會大幅度提高,我們不需要費勁去認(rèn)這是一個什么東西。這個物聯(lián)網(wǎng)會告訴我們所有的事情來簡化我們計算機(jī)操作,到了那個時候機(jī)器人變成了社會的一部分,這個時代就真正到來了。今天簡單跟大家匯報就這么多。謝謝。
2025-04-21 12:14
2025-04-21 12:11
2025-04-18 08:54
2025-04-18 08:53
2025-04-17 08:16
2025-04-17 08:13
2025-04-16 10:55
2025-04-16 08:50
2025-04-14 14:57
2025-04-14 14:53