Meta發布40頁報告，具身智能的下一步是「心智世界模型」：能聽，能看，能理解，會共情

henry 2025-07-10 15:38:12 來源：量子位

MetaAI又整“新活”: 心智世界模型是獨辟蹊徑還是劍走偏鋒?

henry 發自凹非寺
量子位 | 公眾號?QbitAI

最近Meta動作頻頻。一邊是老板小扎親自下場，豪擲一億美金挖人。

另一邊，自家具身智能研究同樣也憋了個大的，40頁長文報告。

除了LeCun老生常談的世界模型外，最讓人眼前一亮的就是：

這篇報告第一次把對人心智狀態的推斷，放到和物理世界模型（physical world model）同等重要的位置上，并將其概念化為心智世界模型（mental world model）。

相比于傳統世界模型（如LeCun的JEPA）僅關注物理規律（物體運動、機械因果），心智世界模型則首次將心理規律（意圖、情感、社會關系）納入世界模型框架，實現“雙軌建模”。

不得不說，Meta還是太超前了！

從物理世界模型到心智世界模型

眾所周知，在Lecun的帶領下，Meta對大模型頗有微詞，在這次報告中也不例外：

大模型雖然很強，但太臃腫，缺乏效率，也缺乏抽象推理能力。

就像我們回家開門的時候，并不會在腦子里預測門下一秒的每個像素，而是會關注門的狀態（開關）和鑰匙孔的位置，并作出相應的動作，如找出鑰匙，完成進門這項任務。

因此，要建構像人類一樣的具身智能體，就需要世界模型從感知中抽象出有用的信息來理解環境，再進行推理、規劃，采取行動。

那么問題來了，什么才叫有用的信息呢？

這里，報告將世界模型所需要的信息分為了兩類。一類是物理世界模型所需要的信息，其中包括：

物體及其屬性（例如：形狀、大小、顏色）

物體之間的空間關系（例如：鄰近性、距離）

環境的動態變化（例如：運動、時間上的變化）

基于物理定律的動作與結果之間的因果關系

另一類是心智世界模型所需要的信息，包括：

目標和意圖（包括其動機、偏好和價值觀）

用戶的情緒和情感狀態，以及理解這些情緒如何影響行為

捕捉社會動態，包括個體、群體和機構之間的關系，以及文化規范、習俗和期望

理解言語和非言語交流，包括語言、語調、肢體語言和面部表情

物理世界模型的作用我們都很熟悉。比如知道牛頓定律，具身智能體就能預測未來環境中物體的運動。

例如，一支筆從桌邊掉落將會做自由落體運動，智能體就需要在筆摔到地上前及時接住筆。

那為啥還需要心智世界模型呢？

對于人類來說，心智世界模型就是對世界的心理表征的過程，包括對物體、事件和關系的表征。

它使人類能夠模擬情境、預測結果、進行反事實和因果推理，從而做出更明智的決策。

例如，我們說小明在漢堡店收到了一份烤糊了的漢堡，他氣沖沖地離開了漢堡店，并沒有交錢。

那么根據心智世界模型，我們就可以合理推斷，小明并沒有吃下那份漢堡。

因此，為了更好地協助和與人類合作，智能體就必須學習人類的心理狀態，理解人類的行為模式和文化慣例。

為了實現這一點，就需要心智世界模型來表征人類用戶或其他AI智能體的心理狀態。

通過表征、理解這些心理狀態，具身智能體就可以

預測用戶的目標和意圖，使智能體能夠主動提供幫助或指導，幫助用戶實現其目標推斷信念差異，并預測持有錯誤信念的人該如何行動預測情緒反應，從而調整策略，更好的滿足用戶的需求

這將大大提高人機交互和多智能體交互的效率和舒適性。

那我怎么知道這玩意不會瞎猜心思，搗亂，幫倒忙呢？

對此，Meta設計了一系列的benchmark來測試具身智能體的性能。

可不幸的是，以目標推測為例，在第一視角多模態目標推理基準（Egocentric Multi-modal Goal Inference Benchmark）上，視覺-語言模型的成功率只有55%，遠遠達不到使用水平。

沒錯，路還很長。

世界模型的未來

雖然當下的表現很“慘淡”，但物理（心智）世界模型仍然是一個有前景的方向。

為了實現這一點，Meta在報告里指出：

要讓AI具備真正的自主學習能力，必須把系統A觀察學習（Learning by Observation）和系統B行動學習（Learning by Action）結合起來。

系統A從大量感知數據中學習抽象表示（比如自監督或無監督學習）。

它的好處是能高效學習出通用、抽象的表征，對后續任務有幫助。

但缺點是需要大量干凈的數據，不知道自己該學什么，學到的東西也很難和實際行動結合，往往只能停留在“看懂”，不一定“用得上”。

系統B是通過探索和試錯來學怎么做事，比如強化學習。

它的優點是和實際行為直接相關，能適應動態環境，也可能發現全新方法。

但缺點是效率很低，需要大量試驗才能學會簡單任務，在復雜情況下容易卡住，還特別依賴明確的獎勵信號，而現實里往往沒有現成的獎勵可用。

簡單來說，系統A擅長從大數據中提煉知識，但不會“動手”；

系統B擅長探索和行動，但學習效率低。

通過有效地整合兩者，由系統 A提供抽象結構、先驗和壓縮表示，幫助系統 B高效規劃。系統B則通過主動探索收集更優數據，為系統A提供實踐驗證。

實現感知驅動行動，行動反過來豐富感知，推動AI系統的自主進步。

One More Thing

盡管心智世界模型當前的表現仍顯稚嫩，但它在多智能體協作中的潛力不容低估。

它為多智能體之間建立“共識心智”提供了理論支點：

讓每個智能體不僅看到外部世界，還能推測他人的信念和意圖，形成比單一感知更高階的理解。

當不同的具身智能體共同執行任務時，心智模型能幫助它們在不確定的環境中對齊目標，協調行動，甚至在沖突中尋找平衡。

這也是讓人機互動從機械執行邁向富有同理心和情境感的重要一步。

在這個意義上，心智世界模型或許不是一條輕松的路，但它為具身智能打開了通往更復雜社會化形態的入口。

報告鏈接：https://arxiv.org/abs/2506.22355

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

—?完?—

世界模型

henry

清華成立具身智能與機器人研究院2025-12-04
DeepSeekV3.2技術報告還是老外看得細2025-12-04
后生可畏！何愷明團隊新成果發布，共一清華姚班大二在讀2025-12-04
爆發力超越波士頓動力液壓機器人，PHYBOT M1實現全球首次全尺寸重型電驅人形機器人完美擬人態后空翻2025-11-26

Meta發布40頁報告，具身智能的下一步是「心智世界模型」：能聽，能看，能理解，會共情

henry 發自凹非寺
量子位 | 公眾號?QbitAI

從物理世界模型到心智世界模型

世界模型的未來

One More Thing

相關閱讀

世界模型和具身大腦最新突破：90%生成數據，VLA性能暴漲300%｜開源

李飛飛發布世界模型新成果：一個提示，生成無限3D世界

李飛飛自曝詳細創業經歷：五年前因眼睛受傷，堅定要做世界模型

拿下3D生成行業新標桿！昆侖萬維Matrix-3D新模型鯊瘋了，一張圖建模游戲場景

AI版《黑客帝國》：無限生成逼真視頻，3A畫質，還能實時交互

智元機器人發布機器人4D世界模型

熱門文章

DeepSeek-V3.2系列開源，性能直接對標Gemini-3.0-Pro

能講“悄悄話”的智能助理，瑞聲科技助力夸克AI眼鏡S1開創語音交互新范式

商湯分拆了一家AI醫療公司，半年融資10億，劍指“醫療世界模型”

前端沒死，AI APP正在返祖

寧德時代給9萬+基層員工漲了薪！每月150元

Meta發布40頁報告，具身智能的下一步是「心智世界模型」：能聽，能看，能理解，會共情

henry 發自 凹非寺 量子位 | 公眾號?QbitAI

從物理世界模型到心智世界模型

世界模型的未來

One More Thing

相關閱讀

世界模型和具身大腦最新突破：90%生成數據，VLA性能暴漲300%｜開源

李飛飛發布世界模型新成果：一個提示，生成無限3D世界

李飛飛自曝詳細創業經歷：五年前因眼睛受傷，堅定要做世界模型

拿下3D生成行業新標桿！昆侖萬維Matrix-3D新模型鯊瘋了，一張圖建模游戲場景

AI版《黑客帝國》：無限生成逼真視頻，3A畫質，還能實時交互

智元機器人發布機器人4D世界模型

熱門文章

DeepSeek-V3.2系列開源，性能直接對標Gemini-3.0-Pro

能講“悄悄話”的智能助理，瑞聲科技助力夸克AI眼鏡S1開創 語音交互新范式

商湯分拆了一家AI醫療公司，半年融資10億，劍指“醫療世界模型”

前端沒死，AI APP正在返祖

寧德時代給9萬+基層員工漲了薪！每月150元

henry 發自凹非寺
量子位 | 公眾號?QbitAI

能講“悄悄話”的智能助理，瑞聲科技助力夸克AI眼鏡S1開創語音交互新范式