稚暉君預告揭曉!智元機器人發布首個通用具身基座模型GO-1
預告明天還有驚喜
剛填完坑就又埋下“驚喜預告”??
預告多日之后,稚暉君正式官宣首個通用具身基座模型——智元啟元大模型(Genie Operator-1,以下簡稱GO-1),將具身智能邁向通用全能的門檻進一步降低了。
而且劇透明天還有驚喜。


概括而言,此次發布的GO-1大模型主要有以下幾個特點:
- 人類視頻學習:可以結合互聯網視頻和真實人類示范進行學習,增強模型對人類行為的理解;
- 小樣本快速泛化:能夠在極少數據甚至零樣本下泛化到新場景、新任務,使得后訓練成本非常低;
- 一腦多形:能夠在不同機器人形態之間遷移,快速適配到不同本體;
- 持續進化:搭配智元一整套數據回流系統,可以從實際執行遇到的問題數據中持續進化學習。
網友們也紛紛表示,通用機器人指日可待了!


首個通用具身基座模型GO-1
具體來看,GO-1大模型由智元機器人聯合上海AI Lab共同發布。
通過大規模、多樣化的數據訓練,GO-1展現出強大的通用性和智能化能力,突破了大量以往具身智能面臨的瓶頸。
按照官方說法,GO-1除了拓展機器人的運動能力,更重要的是加強了其AI能力,從而大大增加了機器人的實用價值。
首先,通過學習人類操作視頻,機器人能快速學習新技能了。
比如下面這個倒水的動作:

而且機器人還具備了一定的物體跟蹤能力,即使隨意移動水杯位置,它也能精準倒水。

與此同時,機器人不止掌握已經學過的操作,還能識別并操作未見過的物品(僅通過百條級數據就能實現快速泛化)。
比如倒完水之后,再烤烤面包并抹上果醬:

另外,當前的具身模型通常針對單一機器人本體(Hardware Embodiment)進行設計,這導致兩個問題:
- 數據利用率低:不同機器人收集的數據難以共享,無法充分利用跨本體數據進行訓練;
- 部署受限:訓練好的模型難以遷移到不同類型的機器人,每個本體往往需要獨立訓練一個模型,增加適配成本。
而用上GO-1大模型之后,這些問題都被解決了。

可以看到,多個相同/不同本體的機器人能夠共同協作完成復雜任務。

此外,GO-1大模型還支持數據飛輪持續提升。即在實際操作過程中不斷回流數據尤其是執行出現問題的數據,持續驅動優化模型性能。
比如下面這個例子中,機器人放咖啡杯時出現失誤,就可以通過數據回流(加上人工審核)針對性優化。

對了,GO-1大模型也為機器人增加了新的語音交互方式,這極大便利了用戶在現實場景中自由表達需求。

基于全新ViLLA架構
事實上,GO-1大模型的構建核心圍繞對數據的充分利用展開。
基于具身領域的數字金字塔,GO-1大模型吸納了人類世界多種維度和類型的數據:
- 底層:互聯網的大規模純文本與圖文數據,可以幫助機器人理解通用知識和場景;
- 第2層:大規模人類操作/跨本體視頻,可以幫助機器人學習人類或者其他本體的動作操作模式;
- 第3層:仿真數據,用于增強泛化性,讓機器人適應不同場景、物體等;
- 頂層:高質量的真機示教數據,用于訓練精準動作執行。

有了這些數據,可以讓機器人在一開始就擁有通用的場景感知和語言能力,通用的動作理解能力,以及精細的動作執行力。
當然,過程中也少不了一個合適的數據處理架構。
由于現有的VLA(Vision-Language-Action)架構沒有利用到數字金字塔中大規模人類/跨本體操作視頻數據,缺少了一個重要的數據來源,導致迭代的成本更高,進化的速度更慢。
因此,智元團隊創新性地提出了ViLLA(Vision-Language-Latent-Action)架構。
與VLA架構相比,ViLLA通過預測Latent Action Tokens(隱式動作標記),彌合圖像-文本輸入與機器人執行動作之間的鴻溝。它能有效利用高質量的AgiBot World數據集以及互聯網大規模異構視頻數據,增強策略的泛化能力。
展開來說,ViLLA架構是由VLM(多模態大模型)+MoE(混合專家)組成。
其中VLM借助海量互聯網圖文數據獲得通用場景感知和語言理解能力,MoE中的Latent Planner(隱式規劃器)借助大量跨本體和人類操作數據獲得通用的動作理解能力,MoE中的Action Expert(動作專家)借助百萬真機數據獲得精細的動作執行能力。
推理時,VLM、Latent Planner和Action Expert三者協同工作:
- VLM采用InternVL-2B,接收多視角視覺圖片、力覺信號、語言輸入等多模態信息,進行通用的場景感知和指令理解;
- Latent Planner是MoE中的一組專家,基于VLM的中間層輸出預測Latent Action Tokens作為CoP(Chain of Planning,規劃鏈),進行通用的動作理解和規劃;
- Action Expert是MoE中的另外一組專家,基于VLM的中間層輸出以及Latent Action Tokens,生成最終的精細動作序列。
舉個例子,假如用戶給出機器人指令“掛衣服”,模型就可以根據看到的畫面,理解這句話對應的任務要求。然后模型根據之前訓練時看過的掛衣服數據,設想這個過程應該包括哪些操作步驟,最后執行這一連串的步驟,完成整個任務的操作。

與此同時,通過ViLLA架構,智元團隊在五種不同復雜度任務上測試GO-1。
結果顯示,相比已有的最優模型,GO-1成功率大幅領先,平均成功率提高了32%(46%->78%)。其中 “Pour Water”(倒水)、“Table Bussing”(清理桌面) 和 “Restock Beverage”(補充飲料) 任務表現尤為突出。
此外團隊還單獨驗證了ViLLA 架構中Latent Planner的作用,可以看到增加Latent Planner可以提升12%的成功率(66%->78%)。

還有一個彩蛋
GO-1發布視頻的最后,相信大家也看到了一個彩蛋:

不知道內容是否和稚暉君的最新預告有關,明天我們繼續蹲蹲~
論文:
https://agibot-world.com/blog/agibot_go1.pdf
- 小猿學練機榮獲2025 IDEA國際設計獎,開創學習平板品類新高度2025-12-02
- deepseek當選網易有道詞典2025年度詞匯,全年搜索量超867萬次2025-12-01
- 6小時告破30年數學難題,亞里士多德一夜成名2025-12-01
- 開源模型叫板Nano Banana Pro!Stable Diffusion原班人馬殺回來了2025-11-26




