李飛飛團隊具身智能新作:500美元,一切家務(wù)機器人幫你干
論文代碼已全部開源
現(xiàn)如今機器人又是跑步又是后空翻,但到底什么時候能做上家務(wù)給人類養(yǎng)養(yǎng)老?

現(xiàn)在,為了挑戰(zhàn)這個難題,李飛飛團隊帶來了具身智能研究最新成果——?(),一個解決機器人在家庭任務(wù)中全身操作問題的綜合框架。
并且,其核心組件的實現(xiàn)成本還不到500美元。
機器人學(xué)習(xí)領(lǐng)域中的一個“圣杯”級挑戰(zhàn)是執(zhí)行通用的日常家庭移動操作任務(wù)。借助一款新型雙臂移動機器人,我們的最新成果——BRS正在嘗試攻克這一極為困難且尚未解決的難題!

擰開門把手,早上出去丟個垃圾:

等大人上班后,再幫忙整理下雜貨架:

順帶收拾下客廳,將臟碗放到洗碗機里:

然后任勞任怨,再里里外外刷干凈馬桶:

吭哧吭哧一頓收拾下來,一個機器人就把所有家務(wù)活包圓了。
而且研究團隊還發(fā)現(xiàn),即使干活時出了岔子,機器人也能自我糾正。
(一開始手臂范圍無法夠著馬桶蓋,然后有一個向前傾斜身體的動作)

網(wǎng)友們紛紛表示,離實現(xiàn)可通用的家庭機器人又更進一步了。

那么,李飛飛團隊究竟是如何做到的?
核心瞄準(zhǔn)三項全身控制能力
根據(jù)論文介紹,通過細(xì)致分析BEHAVIOR-1K(包含1000項日常家庭活動的機器人測試基準(zhǔn)),團隊首先確定了機器人成功完成各種家務(wù)活動所必需的三項全身控制能力:
- 兩只機械手臂之間的協(xié)同配合能力;
- 穩(wěn)定精確的導(dǎo)航;
- 機械手臂末端執(zhí)行器擁有廣泛的可操作范圍和觸及能力;

尤其是最后一項,大多數(shù)人可能忽視了末端執(zhí)行器控制這一關(guān)鍵能力。
因為在家庭環(huán)境中,日常物品通常位于不同高度和位置,因此機器人也必須相應(yīng)地調(diào)整其伸展范圍。

基于上述考慮,團隊認(rèn)為給家務(wù)機器人配備雙臂、移動底座和靈活軀干,是實現(xiàn)全身操作的關(guān)鍵。
具體而言,他們選擇了Galaxea R1機器人(國內(nèi)星海圖出品)作為硬件,其具備兩個6自由度手臂(每個手臂都配備了一個平行鉗口夾持器)、4自由度軀干和全向移動底座,能滿足家庭任務(wù)所需的關(guān)鍵能力。

不過,這類復(fù)雜設(shè)計給策略學(xué)習(xí)方法帶來了重大挑戰(zhàn),尤其是在數(shù)據(jù)規(guī)模化采集和全身協(xié)作方面。
對此,BRS通過兩項關(guān)鍵創(chuàng)新來解決軟硬件協(xié)同問題:
- 推出JoyLo,一種通用的低成本全身遙操作接口;
- 提出新的學(xué)習(xí)算法WB-VIMA;
展開來說,JoyLo(Joy-Con on Low-Cost Kinematic-Twin Arms)通過基于操縱木偶的方法,利用運動學(xué)孿生臂和任天堂Joy-Con控制器,實現(xiàn)高效的全身控制。
同時提供豐富的用戶反饋,優(yōu)化了策略學(xué)習(xí)數(shù)據(jù)質(zhì)量。

在總成本不超過500美元的情況下,團隊在R1機器人上實現(xiàn)了JoyLo的設(shè)計目標(biāo):
- 高效的全身協(xié)調(diào)控制系統(tǒng),實現(xiàn)復(fù)雜動作的流暢銜接;
- 豐富的用戶反饋機制,帶來直觀的遠程操作體驗;
- 確保高質(zhì)量的示范動作,提升策略學(xué)習(xí)效果;
- 低成本實現(xiàn)方案,大幅提高系統(tǒng)可及性;
- 實時、便捷的控制器設(shè)計,確保操作無縫順暢。

而另一項WB-VIMA(Whole-Body VisuoMotor Attention)學(xué)習(xí)算法,核心目標(biāo)是利用機器人的固有運動學(xué)層次結(jié)構(gòu)來建模全身動作。
基于Transformer,通過自回歸全身動作去噪和多模態(tài)觀察注意力機制,WB-VIMA能幫助機器人有效學(xué)習(xí)協(xié)調(diào)的全身動作。
同時在訓(xùn)練和部署時,使用特定的優(yōu)化器和噪聲調(diào)度器,并在工作站上進行推理以實現(xiàn)低延遲控制。

值得一提的是,WB-VIMA還解決了一個關(guān)鍵問題:
尤其在人形機器人中,在移動基座或軀干動作中出現(xiàn)的微小錯誤會在末端執(zhí)行器處顯著放大。
對此,WB-VIMA在預(yù)測下游組件動作時,不是孤立地進行,而是先分析上游組件當(dāng)前的動作狀態(tài)、位置等信息,將這些信息作為條件和依據(jù),去推算下游組件應(yīng)該做出怎樣的動作,從而實現(xiàn)整體的協(xié)調(diào)運動。
BRS適用于各種家庭任務(wù)
研究團隊在五個具有代表性的家庭任務(wù)上評估BRS,包括清潔房屋、清潔廁所、倒垃圾、放置物品到架子上和晾曬衣服。
結(jié)果表明,BRS能完成多種家庭任務(wù)。


同時,實驗環(huán)節(jié)還進一步驗證了兩個創(chuàng)新方法的有效性。
整體而言,JoyLo在數(shù)據(jù)收集效率、策略學(xué)習(xí)適用性和用戶體驗方面表現(xiàn)出色,WB-VIMA在性能上優(yōu)于基線方法。
對于JoyLo,團隊對10名參與者進行了全面的用戶研究,以評估JoyLo的效果及其收集數(shù)據(jù)對策略學(xué)習(xí)的適用性。
下圖為JoyLo與VR控制器和Apple Vision Pro進行比較的示意:

從結(jié)果來看,JoyLo在所有接口中表現(xiàn)出色,任務(wù)成功率最高、完成時間最短,其完成任務(wù)平均成功率是VR控制器的5倍,而使用Apple Vision Pro無人能完成全部任務(wù)。
且在用戶研究中,所有參與者都認(rèn)為JoyLo是最友好的界面。

另外,WB-VIMA在所有任務(wù)中全面超越基準(zhǔn)方法。
其端到端任務(wù)成功率比DP3高13倍,比RGB-DP高21倍;平均子任務(wù)表現(xiàn)分別優(yōu)于DP3(1.6 倍)和RGB-DP(3.4 倍)。

而且WB-VIMA在任務(wù)中出錯的幾率更小。它與環(huán)境物體的碰撞極少,且?guī)缀醪粫蚴┘舆^度力量而導(dǎo)致電機失去動力。

最后,關(guān)于BRS框架的所有工作已全部開源,感興趣可以進一步了解。
項目主頁:
https://behavior-robot-suite.github.io/論文:https://arxiv.org/abs/2503.05652算法代碼:https://github.com/behavior-robot-suite/brs-algo機器人代碼:https://github.com/behavior-robot-suite/brs-ctrl訓(xùn)練數(shù)據(jù):https://huggingface.co/datasets/behavior-robot-suite/data
- 英偉達巧用8B模型秒掉GPT-5,開源了2025-12-06
- SpaceX估值8000億美元超OpenAI,IPO就在明年2025-12-06
- 騰訊發(fā)布EdgeOne Pages正式版:國內(nèi)首個邊緣全棧開發(fā)平臺,內(nèi)測階段用戶突破15萬2025-12-05
- 中國AI計算開放架構(gòu)創(chuàng)新風(fēng)向標(biāo):HAIC2025重磅啟幕2025-12-04




