1段視頻=億萬虛擬場景！群核開源空間理解多模態模型，真實世界秒變機器人訓練場

白交 2025-03-19 14:59:54 來源：量子位

基于大語言模型的3D場景語義生成框架。

GTC2025全球大會上，群核科技宣布開源空間理解模型SpatialLM。

這是一個基于大語言模型的3D場景語義生成框架。

它突破了傳統大語言模型對物理世界幾何與空間關系的理解局限，賦予機器類似人類的空間認知和解析能力。

這相當于為具身智能領域提供了一個基礎的空間理解訓練框架，企業可以針對特定場景對SpatialLM模型微調，降低具身智能訓練門檻。

1段視頻=億萬虛擬場景！群核開源空間理解多模態模型，真實世界秒變機器人訓練場

△群核科技SpatialLM模型開源頁面

據悉，僅通過一段視頻，該模型即可生成物理正確的3D場景布局。

基于從視頻中提取的點云數據，SpatialLM模型能夠準確認知和理解其中的結構化場景信息。目前，SpatialLM已在HuggingFace、GitHub、魔搭社區等平臺面向全球開發者開源。

據群核科技相關技術負責人稱，此次開源僅是開始，接下來SpatialLM模型將繼續迭代如自然語言和場景交互等功能。

1段視頻=億萬虛擬場景！群核開源空間理解多模態模型，真實世界秒變機器人訓練場

△SpatialLM運行原理

雖然行業已有對圖像、視頻進行參數化描述模型，比如Meta此前發布的SceneScript模型。

但SpatialLM的獨特之處在于：

1、相比Meta需要依賴其眼鏡的定制化模式，SpatialLM設定于面向普通相機、手機的視頻作為輸入，因此更具通用性。

2、不同于傳感器對物理世界的感知，SpatialLM使用大語言模型，最終輸出是對3D場景的自然語言描述，未來還將支持原生自然語言與場景數據的交互。

3、更重要的是，SpatialLM支持對物理世界中空間信息的認知理解，和結構化描述。群核科技本身便專注于物理空間模擬的技術場景，過去十余年中積累了海量的三維數據和空間認知數據；基于此數據訓練的模型，亦具備創建物理正確的空間場景的能力。

通過增強大語言模型的空間理解能力，SpatialLM模型開源后，將為像具身智能領域的企業或機構科研團隊提供一個空間認知理解的基礎訓練框架。尤其是對那些不具備模型開發能力的具身智能企業，可以基于SpatialLM模型進行微調，降低具身智能訓練門檻。

“我們希望打造一個從空間認知理解到空間行動交互閉環的具身智能訓練平臺。本次開源的SpatialLM空間理解模型旨在幫助具身智能機器人完成在空間認知理解上的基礎訓練。而去年群核科技發布的空間智能解決方案SpatialVerse，則希望進一步通過合成數據方案為機器人搭建最接近物理真實的‘數字道場’，實現機器人在仿真環境中的行動交互訓練。”群核科技董事長黃曉煌在接受采訪時表示。

據了解，群核空間智能平臺SpatialVerse是本次亮相GTC的另一個重頭戲，它與SpatialLM模型之間“協同合作”，打通了”現實 – 虛擬 – 現實” 的閉環路徑，共同為具身智能架起一座數字仿真與物理現實之間的橋梁。例如，SpatialLM模型通過從視頻到結構化場景的轉化，將現實世界的數據轉化為虛擬環境中的豐富場景，而基于SpatialVerse的合成數據引擎，一個結構化場景又可泛化生成億萬級新場景。這也意味著，現實世界將成為SpatialVerse“數字道場”的原料來源。

“我相信全球很快會迎來具身智能機器人的爆發性發展，在具身智能背后，是算力、算法、工程和訓練數據四個板塊的協同進化，這需要全行業合力推動。群核科技希望通過空間模型和數據開源一起推動技術基座建設，為這個技術奇點的來臨貢獻一份力量。”黃曉煌提到。據悉，在空間和具身智能訓練上，目前群核科技已與硅谷頭部科技企業等在內的一批國內外具身智能企業達成合作。

空間智能群核

白交

空間智能卡脖子難題被杭州攻克！難倒GPT-5后，六小龍企業出手了2025-08-28
陳丹琦有了個公司郵箱，北大翁荔同款2025-08-28
英偉達最新芯片B30A曝光2025-08-20
AI應用如何落地政企？首先不要卷通用大模型2025-08-12

1段視頻=億萬虛擬場景！群核開源空間理解多模態模型，真實世界秒變機器人訓練場

△群核科技SpatialLM模型開源頁面

△SpatialLM運行原理

相關閱讀

李飛飛空間智能獨角獸開源底層技術！AI生成3D世界在所有設備流暢運行

GPT-4o能拼好樂高嗎？首個多步空間推理評測基準：閉源模型領跑

李飛飛揭秘創業方向“空間智能”：視覺化為洞察，看見成為理解，理解導致行動

5700問答對全面評估拷問AI空間感！最新空間智能評測基準來了丨浙大&成電&港中文

李飛飛一年前究竟說了啥？怎么又火了

全球空間智能第一股！浙大清華“三劍客”，英偉達基因，填補兩大技術空白

熱門文章

英偉達巧用8B模型秒掉GPT-5，開源了

“豆包手機”在二手市場價格都翻倍了……

谷歌新架構突破Transformer超長上下文瓶頸！Hinton靈魂拷問：后悔Open嗎？

SpaceX估值8000億美元超OpenAI，IPO就在明年

Ilya剛預言完，世界首個原生多模態架構NEO就來了：視覺和語言徹底被焊死