仿生機(jī)器人大咖談現(xiàn)狀:說iPhone時(shí)刻有點(diǎn)早,諾基亞時(shí)刻剛剛好
精彩沙龍實(shí)錄來了
量子位智庫發(fā)自 凹非寺
量子位| 公眾號(hào) QbitAI
都說仿生機(jī)器人在大模型趨勢(shì)帶動(dòng)下,也來到了“iPhone時(shí)刻”。
但更加行業(yè)內(nèi)的認(rèn)知是:
現(xiàn)在只能說到了摩托羅拉/諾基亞時(shí)刻。
為什么?
因?yàn)閱吸c(diǎn)技術(shù)還遠(yuǎn)沒有走向成熟,行業(yè)內(nèi)還不會(huì)出現(xiàn)如喬布斯般的技術(shù)整合者,底層技術(shù)仍需持續(xù)研究和突破。
在量子位智庫最新舉辦的仿生機(jī)器人沙龍上,云深處聯(lián)合創(chuàng)始人兼CTO李超、大象機(jī)器人產(chǎn)品副總裁林鴻林,一起給出了這樣新鮮獨(dú)到的業(yè)內(nèi)見解。

除此之外,如今仿生機(jī)器人產(chǎn)業(yè)發(fā)展到哪一步?為什么會(huì)在此時(shí)此刻迎來爆發(fā)?未來趨勢(shì)走向如何?業(yè)內(nèi)當(dāng)下最關(guān)注什么?
這些行業(yè)內(nèi)外最關(guān)注的問題,在沙龍中也都有討論。
量子位在不改變?cè)獾幕A(chǔ)上,對(duì)分享內(nèi)容及圓桌對(duì)話進(jìn)行了編輯整理。希望能夠給你帶來更多的啟發(fā)與思考。
仿生機(jī)器人爆發(fā)為什么是現(xiàn)在?
今年是仿生機(jī)器人發(fā)展格外快的一年,為何如此?
大象機(jī)器人產(chǎn)品副總裁林鴻林表示,AI和大模型的成熟,推動(dòng)了整個(gè)產(chǎn)業(yè)鏈和技術(shù)鏈的發(fā)展,并影響了仿生機(jī)器人的落地。
如果從技術(shù)層面拆解,可以從硬件和軟件控制兩個(gè)層面看起,能發(fā)現(xiàn)從工業(yè)商業(yè)機(jī)器人邁向未來的人形服務(wù)機(jī)器人,有兩個(gè)最明顯的區(qū)別。

第一個(gè)非常直觀的變化,是機(jī)器人關(guān)節(jié)數(shù)量上,有了10倍左右的提高。
比如特斯拉Optimus的人形機(jī)器人,具有64個(gè)關(guān)節(jié)。這使得其成本要求和輕量化要求,和過去的協(xié)作機(jī)器人、工業(yè)機(jī)器人完全不一樣。
并且服務(wù)機(jī)器人在應(yīng)用場(chǎng)景上也發(fā)生了變化,從結(jié)構(gòu)化轉(zhuǎn)變?yōu)榉墙Y(jié)構(gòu)化,這對(duì)機(jī)器人的感知和決策也提出了不同要求。
所以過去在協(xié)作機(jī)器人、工業(yè)機(jī)器人中常用的諧波減速機(jī)、RV減速機(jī),在仿生機(jī)器人中的應(yīng)用有所下降。原因在于它自重更大、慣量更大,以及整體成本非常高,也就不符合要求。
傳感器方面,過去常用2D和3D單一的,一般不會(huì)二者融合。
但是人形機(jī)器人對(duì)傳感器的要求就多了,聲吶、各種雷達(dá)、SLAM都被放到了體積更小的人形機(jī)器人關(guān)節(jié)中,這對(duì)結(jié)構(gòu)和硬件是一個(gè)非常大的挑戰(zhàn)。
第二個(gè)就是控制層面。
過去因?yàn)槭菃我坏臋C(jī)構(gòu)化場(chǎng)景,所以對(duì)于工業(yè)機(jī)器人的控制要求可以是單關(guān)節(jié)、或者多關(guān)節(jié)的一些簡(jiǎn)單聯(lián)動(dòng)。
但是到了人形機(jī)器人場(chǎng)景之后,很大的一個(gè)原因是場(chǎng)景不再結(jié)構(gòu)化,機(jī)器人不能再簡(jiǎn)單地控制自己的運(yùn)動(dòng)關(guān)節(jié),而是需要對(duì)場(chǎng)景做出判斷。
大模型的出現(xiàn)就給控制層面提供了一個(gè)很好的助力和抓手。控制也要更多基于動(dòng)力學(xué)的運(yùn)動(dòng)軌跡生成,考慮身體的平衡以及落點(diǎn)。

回看當(dāng)下,仿生機(jī)器人的應(yīng)用落地以四足機(jī)器人為主,常見場(chǎng)景是工業(yè)巡檢等。
想要做到這一步,需要具備哪些核心能力?
云深處聯(lián)合創(chuàng)始人兼CTO李超表示至少要涵蓋四方面:
- 通用能力
- 控制算法
- 搭載能力
- 通訊能力
第一要位是通用性能力,關(guān)節(jié)能力需要很好。
第二,要有很好的控制算法,使其具備基本運(yùn)動(dòng)能力。以云深處的絕影X20為例,在運(yùn)動(dòng)控制算法加持下,能夠爬上20cm的階梯,最高運(yùn)動(dòng)速度達(dá)4.95m/s,最大作業(yè)負(fù)載為85KG。
在此之上,四足機(jī)器人還要具備搭載各種組織的能力。比如搭載云臺(tái)、加上“眼睛”、機(jī)械臂或者其他傳感器等。
如雙光譜云臺(tái),可以通過紅外線檢測(cè)溫度異常,跨域度感知補(bǔ)足人類的視覺能力。
以及通訊能力,是當(dāng)下很多機(jī)器人的痛點(diǎn)。
現(xiàn)在很多機(jī)器人是在樓宇里工作,如果做巡檢任務(wù),在陌生場(chǎng)景下,不能機(jī)械狗出去工作卻丟了,人類還是要知道它在什么地方。
尤其像管廊場(chǎng)景像隧道一樣、特別長(zhǎng),對(duì)于機(jī)器人來說很容易丟失,所以會(huì)用到一些專用技術(shù)解決狹長(zhǎng)管道的定位問題。

除了以上分享之外,量子位還和兩位嘉賓進(jìn)行了圓桌對(duì)話。
共同探討了關(guān)于仿生機(jī)器人行業(yè)當(dāng)下、未來的諸多挑戰(zhàn)與機(jī)遇。對(duì)話亮點(diǎn)包括:
- 仿生機(jī)器人行業(yè)硬件等發(fā)展超過預(yù)期
- 大模型給仿生機(jī)器人交互帶來重大影響
- 服務(wù)機(jī)器人需要控制自重才能保證安全
- 機(jī)器人領(lǐng)域應(yīng)該有公開的技術(shù)對(duì)比平臺(tái)
- 輪式方案能有效降低人形機(jī)器人落地成本
……
具體內(nèi)容如下~
圓桌對(duì)話實(shí)錄
軟硬件電池發(fā)展均超過預(yù)期
量子位:近年來看到仿生機(jī)器人公司不斷增多,大家為什么這么看好這一賽道?從行業(yè)角度來看,背后的核心邏輯是?
云深處李超:云深處從2017年成立到現(xiàn)在6年時(shí)間,也是陪伴這個(gè)發(fā)展過程走過來的。
從我們從業(yè)者角度來說,第一方面,近幾年硬件發(fā)展是超出預(yù)期的。比如電機(jī)伴隨著工業(yè)機(jī)器人、電動(dòng)汽車整個(gè)領(lǐng)域的快速發(fā)展。第二方面,電池也有很大的突破,支撐移動(dòng)機(jī)器人發(fā)展。第三方面,各種算力平臺(tái)發(fā)展也給算力提供了很好的支持,比如英偉達(dá)或者國內(nèi)各種GPU公司等。我們覺得這些因素都給行業(yè)更進(jìn)一步的提供了支撐。再往上層看,算法的進(jìn)展也超出預(yù)期、突飛猛進(jìn)。
所以現(xiàn)在其實(shí)到了一個(gè)很好的爆發(fā)點(diǎn),這些能力剛好能聚集在具身機(jī)器人上,或者說具身智能在機(jī)器人平臺(tái)上帶來了很好的呈現(xiàn)。
硬件和算法上的支持,以云深處為例,我們的機(jī)器人可以在很多工業(yè)場(chǎng)景下進(jìn)行應(yīng)用。我看到量子位《中國仿生機(jī)器人產(chǎn)業(yè)全景報(bào)告》上寫2023年開始會(huì)有工業(yè)化應(yīng)用,其實(shí)要比預(yù)計(jì)更早一些,去年已經(jīng)出現(xiàn)了。以上是我作為從業(yè)者來說的一些判斷。

人形機(jī)器人給硬件續(xù)航提出更高要求
量子位:現(xiàn)在仿生機(jī)器人中四足機(jī)器人和人形機(jī)器人有哪些差別,也是大家比較關(guān)心的問題,兩位機(jī)器人領(lǐng)域?qū)<铱煞窠o出一定理解?
云深處李超:我從兩個(gè)維度來說一下,一個(gè)是業(yè)務(wù)本身,另一個(gè)是技術(shù),其實(shí)兩者的差異不大。
在底層技術(shù)上,關(guān)節(jié)能力、控制、操作、交互和感知都是有共性的。但每個(gè)技術(shù)上遇到的難點(diǎn)不一樣。尤其是運(yùn)動(dòng)控制層面,四足機(jī)器人更加穩(wěn)定,雙足機(jī)器相對(duì)差一些,所以它在平衡控制上有難度。
雙足機(jī)器人的關(guān)節(jié)更多。正常來說,雙足機(jī)器人有20多個(gè)關(guān)節(jié),四足機(jī)器人就只有12個(gè),即便加一個(gè)機(jī)械臂,也只有16個(gè)。這進(jìn)一步影響算法也不太一樣。
從硬件本身來說,雙足機(jī)器人硬件要求會(huì)更高,它是兩條腿站在地上,要求它的力氣要比四足機(jī)器人的一條腿大。如果想要實(shí)現(xiàn)同樣的負(fù)載能力、行走能力,就給人形機(jī)器人提出了更高要求。
從應(yīng)用方面,未來我們借助人形機(jī)器人的場(chǎng)景肯定比四足機(jī)器人要多很多,這是我感受很深的一個(gè)地方。現(xiàn)在城市中的基礎(chǔ)建設(shè)設(shè)施、所有工具都是為人而誕生的。如果我們做一個(gè)機(jī)器狗,首先它從高度或者其他能力上,天然就不具備更廣泛的應(yīng)用場(chǎng)景。比如剛剛給大家看過的管道機(jī)器人,管道建設(shè)時(shí)是為人類巡查設(shè)計(jì)的,它的觀測(cè)高度比狗要高很多。
所以這就是為什么我們要加機(jī)械臂。因?yàn)楦叩臇|西四足機(jī)器人看不到,加上機(jī)械臂后延伸了它的觸覺和視覺。
在工廠場(chǎng)景里也是這個(gè)邏輯。還有更多日常生活場(chǎng)景,比如倒咖啡等,人形機(jī)器人能以更相近的形態(tài)替代人類。

△絕影X20四足機(jī)器人
大象機(jī)器人林鴻林:我的理解是人形機(jī)器人不一定要是兩條腿,但是基本上現(xiàn)在沒有看到雙臂以外的其他選擇,這是目前全世界范圍內(nèi)達(dá)成的一個(gè)共識(shí)。
所以它大概率是一個(gè)雙臂七軸結(jié)構(gòu),這是最接近人類手臂的。它在空間上沒有歧義點(diǎn),所有位點(diǎn)都可到達(dá)——其實(shí)六軸已經(jīng)能做到很好了——是工業(yè)上最常見的形態(tài)。但是人形機(jī)器人需要多一個(gè)關(guān)節(jié),原因在于這樣可以讓它在更小的體積里做零空間運(yùn)動(dòng)——就是姿態(tài)不會(huì)變得非常詭異,但是可以在很小的軌跡路徑里去完成這個(gè)動(dòng)作。所以現(xiàn)在看到雙臂七關(guān)節(jié),基本上是一個(gè)確定的答案。至于中間需不需要一個(gè)腦袋,這就見仁見智了,因?yàn)檫@個(gè)主要看工業(yè)設(shè)計(jì)能不能把所有傳感器非常合理地布局在中間。

△大象機(jī)器人myBuddy
它甚至不需要一個(gè)類人的腦袋,因?yàn)槲覀冇X得本質(zhì)上人形機(jī)器人、四足機(jī)器人,都是工具就人身體的延伸。如果現(xiàn)在的目標(biāo)是去洗衣服,最聰明的方式是做一個(gè)滾筒,而不是做兩個(gè)手去搓衣服,它的效率才是最高的。
如果從這個(gè)方面去思考的話,我覺得雙臂七軸應(yīng)該是一個(gè)確定的答案,至于下面應(yīng)該是兩條腿還是四足的機(jī)器狗,就看特定場(chǎng)景了。比如電力巡檢,或者有坡度障礙需要跨越的戶外場(chǎng)景,四足的通過性一定遠(yuǎn)遠(yuǎn)好于雙足和輪式。
我們現(xiàn)在了解到雙足機(jī)器人在算法控制的難度上,比四足高很多;在整個(gè)平衡性方面的掌握、續(xù)航能力,也會(huì)是一個(gè)很大的挑戰(zhàn);更直觀的表現(xiàn)是它的成本也會(huì)更高。
所以可能短時(shí)間內(nèi),雙足機(jī)器人想要做到量產(chǎn)并落地應(yīng)用,挑戰(zhàn)還是很多。我倒是覺得輪式機(jī)器人可能在效率、成本上,是當(dāng)下節(jié)點(diǎn)的一個(gè)最優(yōu)解。因?yàn)閷?shí)際上殘疾人通過輪椅,可以到達(dá)世界上80-90%的空間,也就是雙足不會(huì)成為一個(gè)硬性的限制。
所以從技術(shù)上拆分來看,雙足的操作性、靈活性以及在結(jié)構(gòu)仿生方面,是比較合理的一個(gè)方案。然后中間的感知層面,攝像頭、電子皮膚可能有很多方式。現(xiàn)在看到一些機(jī)器人,比如帕西尼的機(jī)器人有一個(gè)腰關(guān)節(jié)可以做90度的活動(dòng);像達(dá)闥在腰關(guān)節(jié)上實(shí)現(xiàn)可以上下移動(dòng)30cm……這些我們都覺得是非常合理的方案。至于下半部分的移動(dòng)功能,我覺得四足和輪式都比較成熟,短期內(nèi)可以落地。雙足的方案,一方面我們對(duì)這個(gè)領(lǐng)域比較陌生,另一方面感覺在技術(shù)上,它的成本能夠達(dá)到量產(chǎn)的時(shí)間會(huì)更晚一些。

雙臂方案是確定方向,但更多臂不一定
量子位:您剛才提到雙臂比雙足更適合人形機(jī)器人,我們看到云深處的四足機(jī)器人上面會(huì)增加單獨(dú)的機(jī)械臂。那么雙臂是單臂之上,更好的一個(gè)改進(jìn)嗎?
云深處李超:這個(gè)是肯定的。但是基于成本問題,單臂和雙臂是有一定差異的。剛剛有提到,如果基于任務(wù)去做開發(fā),比如管廊場(chǎng)景里的任務(wù),它是通過臂來增加攝像頭的活動(dòng)范圍,所以一個(gè)機(jī)械臂就夠了。
如果未來有更加復(fù)雜的場(chǎng)景,其實(shí)機(jī)械狗是可以做成半人馬的感覺。在一些特種場(chǎng)景中已經(jīng)有這樣的應(yīng)用,給機(jī)械狗裝上雙臂去做排爆,因?yàn)殡p臂的協(xié)同能實(shí)現(xiàn)更精細(xì)的操作。單臂和雙臂的選擇,目前還主要看要解決什么任務(wù)。
量子位:手臂越多會(huì)越好嗎?比如像螃蟹一樣裝八個(gè),這樣可行嗎?
大象機(jī)器人林鴻林:從仿生學(xué)出發(fā)來看,現(xiàn)在三個(gè)手臂的例子,現(xiàn)在我能想到的就是自然界里蝎子是兩個(gè)鉗子加一條尾巴。如果做三臂機(jī)器人,我們沒有一個(gè)出發(fā)的立足點(diǎn)。
但是做雙臂的原因在于,工業(yè)場(chǎng)景里確實(shí)需要,這不是為了做而做。現(xiàn)在工業(yè)方面絕大部分產(chǎn)線,都是單臂已經(jīng)做完了。現(xiàn)在很多工廠想用機(jī)器人,但其實(shí)都有一個(gè)顧慮,因?yàn)樗漠a(chǎn)線不是長(zhǎng)期穩(wěn)定做一個(gè)工件,現(xiàn)在有很多柔性需求。這種情況如果用單臂機(jī)器人成本會(huì)很高,在于機(jī)械臂固定的制距和工件部分需要不停地更換,機(jī)器人的調(diào)試也要不斷修改。
這種情況下,雙臂的優(yōu)勢(shì)就體現(xiàn)出來了。因?yàn)閮蓚€(gè)手可以靈活配合,一只手抓,另一只手做插件。這時(shí)候左邊固定的一只手臂就不需要去做一個(gè)固定的制距。如果整體用雙臂方案,成本也能控制在合理范圍內(nèi),所以雙臂方案在工業(yè)生產(chǎn)上就是可行的。
現(xiàn)在我們看到做的比較好的,像ABB的雙臂機(jī)器人“玉米”,它在工廠里做的其實(shí)就是雙臂靈活配合兩個(gè)組件插件來做這個(gè)事情。所以這是我認(rèn)為雙臂存在的合理性。
但至于為什么沒有三個(gè)手臂、四個(gè)手臂,一個(gè)是效率方面的考量,每增加一條手臂它不是1+1的關(guān)系,是平方的關(guān)系,更加復(fù)雜。而且如果我們要去做二十幾個(gè)或者四十幾個(gè)自由度,并且每個(gè)都是在上面擁有六個(gè)自由度,這個(gè)復(fù)雜度就放大很多很多倍了。
所以這也可能是為什么自然界里沒有進(jìn)化出來三條手臂的人,也可能出現(xiàn)過,但是被淘汰掉了。

△ABB雙臂機(jī)器人“玉米”
量子位:我們看到特斯拉人形機(jī)器人的宣傳片里出現(xiàn)了機(jī)器人幫機(jī)器人維修的畫面。它在單臂情況下抓取動(dòng)作比較多,抬手臂、上下抓是雙臂參與比較多。請(qǐng)問這種是算法預(yù)先設(shè)定好的嗎?還是說可以根據(jù)物體形狀來預(yù)估?
云深處李超:這個(gè)是逐步來的。這就是為什么現(xiàn)在做人形機(jī)器人,2D和3D相機(jī)要同時(shí)有。過去在工廠場(chǎng)景,一般只用一顆三維相機(jī)就可以做到大多數(shù)姿態(tài)判斷和抓取了。2D和3D同時(shí)要有,就是因?yàn)榇嬖趧倓偰岬降膱?chǎng)景。它需要判斷相對(duì)位置,一個(gè)是它在空間里面的姿態(tài),然后去做雙臂姿態(tài)的調(diào)節(jié)。至于他抓取這個(gè)位置是否足夠準(zhǔn)確,這個(gè)肯定是沒法一次到位的,哪怕人手去調(diào)一次,也沒有辦法調(diào)得很準(zhǔn)確。
這種情況下,用的最多的是仿真模型。今年小米發(fā)布最新一代機(jī)器狗時(shí)有提到,他們建了一個(gè)模型,里面有幾百條模擬機(jī)器狗,讓它們每天在里面不停地跑、不停地摔倒、不停地站起來。這實(shí)際上就是在模擬這個(gè)過程。同一個(gè)麥克風(fēng),應(yīng)該用幾只手抓?抓上面還是下面?讓它不斷地去做嘗試,然后自主學(xué)習(xí),最后總能抓到一個(gè)合理的位置。這樣一個(gè)結(jié)果,實(shí)際上就是非結(jié)構(gòu)場(chǎng)景中一個(gè)很典型的案例。
量子位:想問一下李超博士,在管道或工廠巡檢場(chǎng)景中,是如何訓(xùn)練機(jī)械臂或者執(zhí)行器識(shí)別環(huán)境的?
云深處李超:我來客觀說一下,剛剛林總提到的很多還處于仿真階段。那么我們目前在工廠應(yīng)用,我怕給大家一個(gè)過高的期望。目前來說更多的還是預(yù)設(shè)點(diǎn)位去進(jìn)行工作。因?yàn)樵诤芏鄳?yīng)用場(chǎng)景下,是不允許有失敗的,可靠性優(yōu)先。
像我們剛剛說到的,為什么更多應(yīng)用場(chǎng)景現(xiàn)在可以落地?因?yàn)樗窃谝粋€(gè)固定場(chǎng)景下做重復(fù)性的事情,替代人去完成枯燥的、危險(xiǎn)的工作。我們認(rèn)為這個(gè)商業(yè)模式是成立的,現(xiàn)在也在陸續(xù)往外做拓展。比如向消防領(lǐng)域發(fā)展,在半確定的環(huán)境下遙控機(jī)器狗探測(cè),它具備一定的智能,可以繞障。但確實(shí)在實(shí)際應(yīng)用中遇到的困難,比實(shí)驗(yàn)室里多得多,這也是現(xiàn)在我們正在努力的方向。

△絕影X20管廊隧道巡檢
機(jī)器人領(lǐng)域應(yīng)該有公開對(duì)比平臺(tái)
量子位:目前在行業(yè)里,仿生機(jī)器人需要自研的部分多嗎?或者說大家都會(huì)選擇自研嗎?
云深處李超:說到自研我怕大家有個(gè)誤解。因?yàn)槟壳安煌瑘?chǎng)景對(duì)機(jī)器人的性能要求都有些差異,所以在差異化技術(shù)的供應(yīng)鏈沒有形成以前,所以每個(gè)團(tuán)隊(duì)都需要沉淀自己的技術(shù)。這些自研技術(shù)包括關(guān)節(jié)部分,比如機(jī)器狗和機(jī)械臂的關(guān)節(jié)肯定是不同的。還有自研除了本身能力外,還要滿足一些行業(yè)要求。比如電力領(lǐng)域要求它抗電磁干擾、消防領(lǐng)域要求耐高溫等。
現(xiàn)在網(wǎng)上提自研的很多,關(guān)于自研算法這一塊,我今天不做判斷。因?yàn)閲鴥?nèi)現(xiàn)在還是有點(diǎn)虛,都說自己是自研,但是也沒扒開看一看。
今天也借這個(gè)溝通的機(jī)會(huì),各位同仁朋友都在。想說以后是否有有機(jī)會(huì)大家搭建一個(gè)公開的平臺(tái),可以將各種技術(shù)做對(duì)比,比如圖像處理等等方面。
因?yàn)樽匝胁皇悄康模罱K都是為了解決一個(gè)問題、實(shí)現(xiàn)某方面能力。
現(xiàn)在還沒有這樣一個(gè)平臺(tái)。我覺得如果有機(jī)會(huì),我們可以把產(chǎn)業(yè)做的更深入一點(diǎn)。正如剛剛有位老師說到一些行業(yè)標(biāo)準(zhǔn)的問題,我們來通過一個(gè)共同的平臺(tái)去驗(yàn)證大家的能力差異。
機(jī)器人自重和安全性直接相關(guān)
量子位:現(xiàn)在很多機(jī)器人在發(fā)布產(chǎn)品時(shí)都會(huì)披露自重,這個(gè)數(shù)據(jù)在實(shí)際應(yīng)用中會(huì)影響到哪些方面?
云深處李超:自重確實(shí)很關(guān)鍵。對(duì)于人形機(jī)器人、都市機(jī)器人,它的重量和安全性很多時(shí)候都是幾乎等價(jià)的。我們的絕影X20自重是50公斤左右,這個(gè)重量在特定環(huán)境下需要考慮安全性。
自重和負(fù)載有很大關(guān)系,如果沒有很大的自重,就無法具備很強(qiáng)的作業(yè)能力。所以基本上會(huì)以重量來劃定機(jī)器人的定位。多年積累下來,40-50公斤的級(jí)別,差不多就是行業(yè)機(jī)器人。再往下,就是面向科研教育的機(jī)器人,相當(dāng)于未來的服務(wù)機(jī)器人,要在20公斤以下,這樣大家使用起來會(huì)更加安全。
因?yàn)楝F(xiàn)在好多功能不能保證絕對(duì)安全,如果是小機(jī)器人出現(xiàn)意外,很多事情能兜底。

△絕影X20產(chǎn)品參數(shù)
大模型改寫機(jī)器人交互方式
量子位:大象機(jī)器人之前是做機(jī)械臂的,在相對(duì)成熟的工業(yè)機(jī)器人技術(shù)上,有哪些仿生機(jī)器人是可以直接套用的?還有哪些是需要重新開發(fā)的?
大象機(jī)器人林鴻林:底層硬件部分很多是可以使用的。運(yùn)動(dòng)控制算法這一部分,無論是單臂獨(dú)立工作,還是放在人形機(jī)器人上雙臂協(xié)同配合,我們的底層機(jī)械臂運(yùn)動(dòng)控制算法經(jīng)過這么多年考驗(yàn),還是非常可靠的。
但是從單臂到雙臂,會(huì)增加額外的新技術(shù)。比如雙臂協(xié)同算法、雙臂通信上的低延遲等,這也是我們最近在做的一些工作,是可以直接從工業(yè)機(jī)器人上面借鑒及應(yīng)用的。
我們感受到比較大的不同是交互上面。工業(yè)領(lǐng)域可以接受更加底層的編譯、程序邏輯的編寫,但是在上升到雙臂之后,如果所有的動(dòng)作是先寫左臂再寫右臂,效率其實(shí)非常低,是一個(gè)很笨的1+1工作,它沒有做到兩個(gè)臂融為一體。
所以怎樣同時(shí)給兩條機(jī)械臂編譯一個(gè)命令,然后再加上它的底層運(yùn)動(dòng)控制算法?
我們之前也做過像SLAM這種基于激光雷達(dá)建圖掃描的一些控制,如果將這些研發(fā)的精力放到一起,怎樣去融合一個(gè)更高效的交互,是現(xiàn)在一個(gè)比較大的考驗(yàn)。

量子位:今年大火的大模型、GPT技術(shù),是否有嘗試在機(jī)器人上使用?未來大模型能給機(jī)器人提供哪些動(dòng)力?
云深處李超:大模型出來后,給我們蠻大震撼。它解決了以前機(jī)器人面面相更廣泛應(yīng)用、從ToB到ToC的一個(gè)很重要問題。
現(xiàn)在很多交互都是通過后臺(tái)、通過手柄去操控。這對(duì)于一臺(tái)真正的機(jī)器人是非常不便利的。我覺得大模型能解決很多問題,比如理解能力、算法提升,在這些方面我們都有做一些嘗試。
大象機(jī)器人林鴻林:ChatGPT發(fā)布后,微軟發(fā)布了一個(gè)大模型在機(jī)器人上的綜合應(yīng)用,其中一個(gè)和機(jī)械臂有關(guān)的案例,用的就是我們的機(jī)器人。現(xiàn)在大模型+機(jī)器人每天都在做嘗試,但我覺得現(xiàn)在還處在非常早期的階段。現(xiàn)在能使用的案例,比如教育套件里能夠用AI去識(shí)別顏色、形狀、堆疊排放等,就是一些比較簡(jiǎn)單的空間意義和概念,然后讓機(jī)器人去完成對(duì)應(yīng)色塊、形狀的抓取和堆疊。

到了仿生寵物上面使用,我覺得這會(huì)更加復(fù)雜。因?yàn)槲覀儠?huì)希望它識(shí)別場(chǎng)景,而不是一個(gè)單一的形狀和色塊。現(xiàn)在反倒有一些比大模型更加簡(jiǎn)單的方式去實(shí)現(xiàn)這件事。很多做3D智能相機(jī)的,它的人臉識(shí)別算法已經(jīng)非常成熟。比起我們自己訓(xùn)練,一個(gè)可以直接使用的供應(yīng)商方案是更成熟的。
所以我們認(rèn)為大模型+機(jī)器人肯定是一個(gè)很大的方向。我們現(xiàn)在也在做多方面嘗試,希望能夠?qū)崿F(xiàn)自然語言到機(jī)器語言上的轉(zhuǎn)換,但我認(rèn)為現(xiàn)在還處在非常早期的探索階段。
人形機(jī)器人不一定要有雙足
量子位:可否介紹一下大象機(jī)器人的人形機(jī)器人研發(fā)工作?最大特點(diǎn)是什么?
大象機(jī)器人林鴻林:我們過去做了很多單一場(chǎng)景,每一個(gè)單個(gè)產(chǎn)品完成了在定位上的要求。比如做產(chǎn)線上的六軸機(jī)械手臂,它的要求是高重復(fù)定位精度、可靠重復(fù)單一任務(wù)。我們也做了桌面級(jí)教育機(jī)器人,它是完全開源的,在這方面我們有很多底層算法,是有我們的創(chuàng)客用戶自己開發(fā)出來的,之后在開源平臺(tái)上共享。過去這些產(chǎn)品的定位和面向人群是非常不同的,在這些方面累計(jì)了一些能力。
這一次我們想要做一個(gè)完整人形機(jī)器人,其實(shí)就是將這些能力綜合,按照實(shí)際需求場(chǎng)景結(jié)合。所以我們現(xiàn)在看到的一個(gè)正在做的方向,是雙臂運(yùn)動(dòng)控制,底層硬件上面的可批量制造性、可批量交付性以及新的雙臂控制和交互方式。這都是我們比較有優(yōu)勢(shì)的一個(gè)方面。
那么在底層移動(dòng)上,現(xiàn)在還在做一些新的探索。我們可能大概率不會(huì)用一個(gè)雙足,現(xiàn)在很多同行都在做雙足,我們可能會(huì)用輪式方案,用一個(gè)更接近人形輪式的方式,來最后定義產(chǎn)品。
量子位:我們觀察到大象機(jī)器人的人形機(jī)器人最先在工廠場(chǎng)景中應(yīng)用,為此有做什么不用的設(shè)計(jì)嗎?
大象機(jī)器人林鴻林:從場(chǎng)景出發(fā),我們?cè)缦冗M(jìn)行了很多實(shí)際調(diào)研。現(xiàn)在工廠里到底哪些場(chǎng)景是單臂機(jī)器人不能做、而需要一個(gè)雙臂的?答案如果是不需要雙臂機(jī)器人,那就不用做。但這個(gè)需求是實(shí)際存在的。
比如剛剛提到的雙手協(xié)同拼接。而且我們?cè)谛袠I(yè)里不斷積累,服務(wù)行業(yè)提出了一些場(chǎng)景。比如在日本,我們做了可以在便利店里煮關(guān)東煮的機(jī)器人。它需要做識(shí)別、完成抓取。還有很多各種各樣的想法被提出來,比如廚房機(jī)器人、帶雙臂的倉儲(chǔ)等。
綜上,現(xiàn)在其實(shí)有一些共性需求。工業(yè)機(jī)器人不能滿足外觀、噪聲、安全性等方面的要求。我們現(xiàn)在做的是協(xié)作機(jī)器人,它和工業(yè)機(jī)器人的區(qū)別在于,協(xié)作機(jī)器人在工廠里工作是不需要裝安全護(hù)欄的,它可以和工人們?cè)谕粋€(gè)空間內(nèi),所以對(duì)于它的安全性要求就非常高,進(jìn)一步也就不太可能做超過40公斤以上的協(xié)作機(jī)器人——40公斤以上就是工業(yè)機(jī)器人人標(biāo)準(zhǔn)了。
對(duì)于整體力矩的控制、末端人體感知等安全方面,會(huì)有很多新要求。所以這要求雙臂靈活、可以相互配合、可以協(xié)同并且足夠安全。同時(shí)在交互方面,我們也有一些應(yīng)用層上的創(chuàng)新,比如結(jié)合VR等外部設(shè)備。

機(jī)器人應(yīng)用還是太少了
量子位:我們注意到絕影Lite3已經(jīng)開始面向非結(jié)構(gòu)化場(chǎng)景使用了,適應(yīng)不同場(chǎng)景最大的技術(shù)難點(diǎn)是什么?
云深處李超:我們感覺用的時(shí)候技術(shù)難點(diǎn)到處都是哈哈。以我們行業(yè)機(jī)器人為例,現(xiàn)在的問題還是機(jī)器人用得太少了。
有一些機(jī)器人在隧道里面使用,夏天的隧道會(huì)滲水,地面特別滑,我們已經(jīng)解決了地面濕滑穩(wěn)定行走的問題,可以保證它不倒。但是在很多狹窄的地方,還希望它既能不倒、又能很精確,這確實(shí)是目前遇到的一個(gè)問題。還比如在草坪上走,會(huì)出現(xiàn)螞蟻洞這種看不到的東西,這個(gè)問題現(xiàn)在也在被逐步解決。
云深處現(xiàn)在的優(yōu)勢(shì)是不怕這些問題,我們會(huì)不斷進(jìn)行迭代。其實(shí)今天很遺憾,沒有帶著機(jī)器人來到現(xiàn)場(chǎng),如果能有一個(gè)實(shí)體機(jī)器人給大家展示,能夠更直觀感受。
量子位:云深處設(shè)計(jì)機(jī)器人過程中,模塊化設(shè)計(jì)是經(jīng)常被提及的。這在非結(jié)構(gòu)化場(chǎng)景機(jī)器人的應(yīng)用上,有什么優(yōu)勢(shì)?
云深處李超:模塊化是批量化的一個(gè)前置,這樣可以獨(dú)立去做開發(fā)。硬件、軟件模塊化對(duì)我們來說是有些困難的,它涉及到新技術(shù)引入、各個(gè)方面的協(xié)同。做模塊化是為了更好和行業(yè)做接口。
仿生機(jī)器人只是到了“摩托羅拉時(shí)刻”
量子位:現(xiàn)在都說仿生機(jī)器人到了“iPhone時(shí)刻”,作為業(yè)內(nèi)人士如何看待這種說法?我們現(xiàn)在走到哪一步了?
大象機(jī)器人林鴻林:看待這個(gè)問題首先要明確定義下什么是“iPhone時(shí)刻”。我們理解這個(gè)概念,是指智能手機(jī)被廣泛接受,并且定義了智能手機(jī)應(yīng)該是什么樣子。實(shí)際上遠(yuǎn)遠(yuǎn)在iPhone 3S出來之前,很多功能就已經(jīng)有了,比如3G網(wǎng)絡(luò)通信、電容屏觸摸,這些東西不是iPhone帶來的。
所以對(duì)于喬布斯的定位,大家都認(rèn)為他是一個(gè)整合者而不是一個(gè)創(chuàng)造者,因?yàn)樗嗍前押芏?u>現(xiàn)有技術(shù)做結(jié)合。
站在這個(gè)意義上面,我覺得我們這個(gè)時(shí)刻還具有很大一段距離。原因在于底層硬件技術(shù)本身還非常不成熟,我們只是單點(diǎn)技術(shù)比較成熟、離那個(gè)時(shí)刻非常近。
那么反過來問,iPhone時(shí)刻為什么會(huì)被定義為這個(gè)時(shí)刻?
我覺得是因?yàn)樗x了很多底層交互。比如它明確了實(shí)際上不需要用鍵盤、鼠標(biāo)來操作,而是直接用手指來點(diǎn)擊屏幕,這個(gè)更符合直覺交互,并且它定義了我們今天使用的GUI。
今天的桌面PC,無論是Windows還是macOS,他們做的這一整套定義基本上都是一樣的。無論是iOS還是安卓,這一整套視覺GUI和蘋果當(dāng)時(shí)發(fā)布的那一套是一樣的。當(dāng)我們接受了這一整套交互設(shè)定,所以我覺得這個(gè)是它能夠成為時(shí)刻點(diǎn)、定義下一代產(chǎn)品的一個(gè)原因,并且他成功把現(xiàn)有比較成熟的技術(shù)放到了一起。
放到今天來看,我覺得我們現(xiàn)在底層算法、硬件產(chǎn)業(yè)鏈發(fā)展,還沒有非常成熟、以至于可以很快出現(xiàn)一個(gè)像喬布斯一樣的整合者,還需要很多底層上面的持續(xù)研究和突破。

量子位:現(xiàn)在什么技術(shù)要素會(huì)成為通往通用人形機(jī)器人之路的鑰匙?
云深處李超:我接著剛剛林總的話說,我覺得現(xiàn)在不是iPhone時(shí)刻,是“摩托羅拉時(shí)刻”。
這是因?yàn)槿诵螜C(jī)器人很多功能是有的,怎么讓它成為一個(gè)適用范圍更大的工具?這是現(xiàn)在制約它發(fā)展的點(diǎn)。
機(jī)器人領(lǐng)域的五項(xiàng)技術(shù),現(xiàn)在都有很多需要突破,從底層、硬件、感知、交互到觸覺,離我們的想象還是有一定差距。但之前最大的差距就是交互、理解方面,這也是今天為什么大家坐在這里來討論。大模型確實(shí)彌補(bǔ)了具身智能的最后一環(huán),其他環(huán)節(jié)此前都有,但是能力還不夠,現(xiàn)在我們各個(gè)環(huán)節(jié)都補(bǔ)齊了。
行業(yè)需要更多耐心和時(shí)間
量子位:最后,想請(qǐng)問兩位有什么觀點(diǎn)和想法想和關(guān)注、熱愛仿生機(jī)器人的觀眾朋友分享?
大象機(jī)器人林鴻林:我想說我們現(xiàn)在確實(shí)在做一些比較新的東西,希望大家能夠?qū)ξ覀冞@個(gè)行業(yè)更加寬容。實(shí)際上,我們每天都是在看著機(jī)器人不斷在各種場(chǎng)合里翻車,它走不好一段路、抓不到一個(gè)東西,這個(gè)是日常工作中最常遇到的情況。最后能夠呈現(xiàn)在宣傳片里的,都是經(jīng)過很長(zhǎng)時(shí)間實(shí)驗(yàn)后得出的結(jié)果。
所以一方面,我們對(duì)未來有樂觀的判斷,有理想的追求。同時(shí)我們也要接受這不會(huì)是一個(gè)非常簡(jiǎn)單并且能快速實(shí)現(xiàn)的路徑。
我一方面希望更多人可以關(guān)注到這個(gè)行業(yè),但同時(shí)也希望大家能對(duì)任何新興行業(yè)都更加寬容,給予它一些耐心和時(shí)間。

云深處李超:我們確實(shí)在很多場(chǎng)景下實(shí)實(shí)在在解決一些問題,但是這些問題是媒體或者投資圈很少被關(guān)注到的。
在2015年,仿生機(jī)器人出現(xiàn)過一波熱潮。當(dāng)時(shí)谷歌收購了兩家機(jī)器人公司,波士頓動(dòng)力和Schaft,他們的技術(shù)水平都比國內(nèi)任何一家機(jī)器人公司高非常多。但是在那三年之后,波士頓動(dòng)力被賣掉,另一家Schaft直接關(guān)閉了。
這中間有一個(gè)原因,可能是當(dāng)時(shí)技術(shù)水平還不夠,或者說還是大家給出了一個(gè)過高的期望?
從我們成立云深處這家公司開始,就抱著一個(gè)解決問題的目標(biāo)。
但是剛剛也說到,今年具身智能的發(fā)展,實(shí)現(xiàn)了技術(shù)閉環(huán)。我其實(shí)蠻感謝這個(gè)時(shí)代,從2017年創(chuàng)業(yè)開始,每年的技術(shù)進(jìn)步都遠(yuǎn)超我預(yù)期。我們剛成立時(shí),都不能確定我們做到死,機(jī)器人能不能用得上。但實(shí)際上真實(shí)情況比預(yù)期好。
所以我最后希望整個(gè)行業(yè)大家能腳踏實(shí)地一點(diǎn),把這件事當(dāng)成像汽車產(chǎn)業(yè)或者其他技術(shù)產(chǎn)業(yè)慢慢向前去推進(jìn),即便沒有到iPhone時(shí)刻,現(xiàn)在也是摩托羅拉時(shí)刻/諾基亞時(shí)刻,也是會(huì)被每個(gè)人去用到的。
關(guān)于量子位智庫沙龍
量子位智庫主題活動(dòng),圍繞AI和前沿科技相關(guān)的最新進(jìn)展和熱門話題,邀請(qǐng)一線行業(yè)專家,系統(tǒng)性分享認(rèn)知。




