1段視頻=億萬虛擬場景!群核開源空間理解多模態模型,真實世界秒變機器人訓練場
基于大語言模型的3D場景語義生成框架。
GTC2025全球大會上,群核科技宣布開源空間理解模型SpatialLM。
這是一個基于大語言模型的3D場景語義生成框架。
它突破了傳統大語言模型對物理世界幾何與空間關系的理解局限,賦予機器類似人類的空間認知和解析能力。
這相當于為具身智能領域提供了一個基礎的空間理解訓練框架,企業可以針對特定場景對SpatialLM模型微調,降低具身智能訓練門檻。

△群核科技SpatialLM模型開源頁面
據悉,僅通過一段視頻,該模型即可生成物理正確的3D場景布局。
基于從視頻中提取的點云數據,SpatialLM模型能夠準確認知和理解其中的結構化場景信息。目前,SpatialLM已在HuggingFace、GitHub、魔搭社區等平臺面向全球開發者開源。
據群核科技相關技術負責人稱,此次開源僅是開始,接下來SpatialLM模型將繼續迭代如自然語言和場景交互等功能。

△SpatialLM運行原理
雖然行業已有對圖像、視頻進行參數化描述模型,比如Meta此前發布的SceneScript模型。
但SpatialLM的獨特之處在于:
1、相比Meta需要依賴其眼鏡的定制化模式,SpatialLM設定于面向普通相機、手機的視頻作為輸入,因此更具通用性。
2、不同于傳感器對物理世界的感知,SpatialLM使用大語言模型,最終輸出是對3D場景的自然語言描述,未來還將支持原生自然語言與場景數據的交互。
3、更重要的是,SpatialLM支持對物理世界中空間信息的認知理解,和結構化描述。群核科技本身便專注于物理空間模擬的技術場景,過去十余年中積累了海量的三維數據和空間認知數據;基于此數據訓練的模型,亦具備創建物理正確的空間場景的能力。
通過增強大語言模型的空間理解能力,SpatialLM模型開源后,將為像具身智能領域的企業或機構科研團隊提供一個空間認知理解的基礎訓練框架。尤其是對那些不具備模型開發能力的具身智能企業,可以基于SpatialLM模型進行微調,降低具身智能訓練門檻。
“我們希望打造一個從空間認知理解到空間行動交互閉環的具身智能訓練平臺。本次開源的SpatialLM空間理解模型旨在幫助具身智能機器人完成在空間認知理解上的基礎訓練。而去年群核科技發布的空間智能解決方案SpatialVerse,則希望進一步通過合成數據方案為機器人搭建最接近物理真實的‘數字道場’,實現機器人在仿真環境中的行動交互訓練。”群核科技董事長黃曉煌在接受采訪時表示。
據了解,群核空間智能平臺SpatialVerse是本次亮相GTC的另一個重頭戲,它與SpatialLM模型之間“協同合作”,打通了”現實 – 虛擬 – 現實” 的閉環路徑,共同為具身智能架起一座數字仿真與物理現實之間的橋梁。例如,SpatialLM模型通過從視頻到結構化場景的轉化,將現實世界的數據轉化為虛擬環境中的豐富場景,而基于SpatialVerse的合成數據引擎,一個結構化場景又可泛化生成億萬級新場景。這也意味著,現實世界將成為SpatialVerse“數字道場”的原料來源。
“我相信全球很快會迎來具身智能機器人的爆發性發展,在具身智能背后,是算力、算法、工程和訓練數據四個板塊的協同進化,這需要全行業合力推動。群核科技希望通過空間模型和數據開源一起推動技術基座建設,為這個技術奇點的來臨貢獻一份力量。”黃曉煌提到。據悉,在空間和具身智能訓練上,目前群核科技已與硅谷頭部科技企業等在內的一批國內外具身智能企業達成合作。
- 空間智能卡脖子難題被杭州攻克!難倒GPT-5后,六小龍企業出手了2025-08-28
- 陳丹琦有了個公司郵箱,北大翁荔同款2025-08-28
- 英偉達最新芯片B30A曝光2025-08-20
- AI應用如何落地政企?首先不要卷通用大模型2025-08-12




