謝賽寧李飛飛LeCun搞的寒武紀,究竟是個啥?
不造芯片造“超感知”
聞樂 發自 凹非寺
量子位 | 公眾號 QbitAI
“寒武紀”這個名字在AI圈里火得發燙。
由謝賽寧牽頭,李飛飛和Yann LeCun站臺搞的“寒武紀”,大獲好評。

此寒武紀究竟是什么?
Cambrian-S(寒武紀-S),不造硅基芯片,而是專注于解決AI領域一個更核心的問題:讓人工智能真正學會感知世界。

它的具體成果,是一款主打空間感知的多模態視頻大模型,還兼顧了通用視頻、圖像理解能力,在短視頻空間推理中拿下了SOTA。

更厲害的是,加了預測感知模塊后,連超長視頻的空間任務都能扛下來——要知道,這可是很多主流模型的軟肋。
這個李飛飛和LeCun都關注的空間智能領域的新模型,到底有哪些突破?
超感知:讓數字生命真正體驗世界
先從它的發展歷程說起。
2024年6月,團隊先推出了Cambrian-1,這是針對圖像多模態模型的一次開放性探索。
在這次嘗試中,他們從5個方面方向進行了突破。
一是系統測評了20多種視覺編碼器及組合,明確不同類型模型(語言監督、自監督等)的適配場景與優勢;
二是設計了空間視覺聚合器SVA,以更少視覺token高效整合多源視覺特征,兼顧高清處理與計算效率;

三是構建并優化視覺指令訓練數據集,從1000萬條原始數據篩選出700萬條高質量數據,平衡類別分布并通過系統提示提升模型交互能力;

四是推出了CV-Bench基準測試,聚焦2D/3D視覺理解核心任務,彌補現有測評對視覺能力考核的不足;

五是總結了最優訓練方案,證實兩階段訓練、解凍視覺編碼器等策略能顯著提升模型性能。
按常理,下一步工作該是擴大規模搞Cambrian-2、Cambrian-3,跟主流模型拼參數、拼數據量。
但團隊并沒有這么做,而是停下來反思“什么是真正的多模態智能”。
在他們看來,現在很多多模態模型,看似能看圖說話,實則只是把圖像信息轉換成文字,再用語言模型處理——就像人只看了照片的文字說明,沒真正看到照片里的場景。
于是,他們提出了超感知的概念。
超感知并不是換個更高級的攝像頭、加個更靈敏的傳感器那么簡單。
謝賽寧一句話點透核心:
這關乎數字生命如何真正體驗世界,吸收輸入流并學習的能力。

簡單說,就是讓 AI 不止能看到物體,還能記住物體的位置、理解物體間的關系,甚至預判物體接下來的變化。
他還補了句更關鍵的:
在構建出超感知之前,不可能真正構建出超級智能。
順著這個思路,團隊又把目標聚焦到視頻上,畢竟人感知世界,靠的不是一張張孤立的照片,而是連續的生活片段。
于是,視頻空間超感知又成了核心方向:讓AI能從視頻里讀懂空間關系,比如“人從門口走到沙發旁,拿起桌上的書”,不只是識別人、沙發、書,還要懂“門口到沙發的位置距離”、“書在桌上的具體方位”。
Cambrian-S:從“考倒 AI”到“做好示范”
有了方向,團隊沒急著先做模型,而是先解決了兩個關鍵問題:
- 怎么判斷AI有沒有空間感知能力?
- 用什么數據教AI學空間感知?
帶著這兩個問題,他們先搞了個叫VSI-SUPER的基準測試,專門考AI的空間感知。
里面有兩個看似簡單的任務:一個是長時程空間記憶(VSR),讓AI看幾小時的室內漫游視頻,之后回憶出視頻里不尋常物體的位置;

另一個是持續計數(VSC),讓AI在長視頻里數清楚特定物體的總數。

現在市面上的模型一經測試,結果挺打臉,像Gemini-Live、GPT-Realtime這些號稱能處理實時視覺輸入的商業模型,在10分鐘視頻上的平均準確率還不到15%,視頻拉長到120分鐘,基本就 記不住了。

這也證明,主流模型的空間感知能力,確實沒跟上。
解決了“怎么考”,再解決“怎么教”。
團隊建了個VSI-590K數據集,里面有59萬條訓練樣本,既有真實場景的視頻,也有模擬的空間場景,重點標了物體位置、動態變化這些關鍵信息,就相當于給AI準備了一套空間感知教材。

有了測試標準和訓練數據,Cambrian-S模型家族才算正式登場。
參數規模從0.5B到7B,不算特別大,但針對性極強。

核心訓練邏輯是,通過預測下一幀的訓練機制,讓模型在推理時用意外度識別關鍵信息,最終實現對超長視頻的空間理解和任務處理。

成績也很亮眼,在短視頻空間推理任務里拿了SOTA;面對VSI-SUPER 基準測試,比開源模型的空間記憶準確率提升了30%以上,部分任務甚至超過了一些商業模型。

更關鍵的是它的預測感知模塊,模型會主動預判視頻下一幀的內容,不僅讓處理超長視頻時更高效,還能控制GPU內存消耗,不用靠堆硬件來撐性能。

團隊介紹
除了謝賽寧牽頭,李飛飛和LeCun兩位大佬站臺,寒武紀項目還有其他幾位核心貢獻成員。
紐約大學的博士生Shusheng Yang領導了該項目,他曾經還參與了Qwen模型的開發,也在騰訊實習過。

Jihan Yang,本科畢業于中山大學,后在香港大學拿到博士學位,現為紐約大學柯朗數學科學研究所的博士后研究員,研究專注于推理、智能體、長視頻、空間智能、統一模型等多模態大語言模型。

黃品志,是紐約大學的一名本科生,曾在Google Gemini實習。

Ellis Brown,本科就讀于范德堡大學,主修計算機科學和數學,曾在斯坦福大學、哥倫比亞大學攻讀非學位研究生課程,后獲得卡內基梅隆大學碩士學位,目前為紐約大學庫朗數學研究所計算機科學博士生。

參考鏈接:
[1]https://cambrian-mllm.github.io/
[2]https://x.com/sainingxie/status/1986685063367434557
— 完 —
- 又一高管棄庫克而去!蘋果UI設計負責人轉投Meta2025-12-04
- 萬卡集群要上天?中國硬核企業打造太空超算!2025-11-29
- 學生3年投稿6次被拒,于是吳恩達親手搓了個評審Agent2025-11-25
- 波士頓動力前CTO加盟DeepMind,Gemini要做機器人界的安卓2025-11-25




