1段視頻=億萬(wàn)虛擬場(chǎng)景!群核開(kāi)源空間理解多模態(tài)模型,真實(shí)世界秒變機(jī)器人訓(xùn)練場(chǎng)
基于大語(yǔ)言模型的3D場(chǎng)景語(yǔ)義生成框架。
GTC2025全球大會(huì)上,群核科技宣布開(kāi)源空間理解模型SpatialLM。
這是一個(gè)基于大語(yǔ)言模型的3D場(chǎng)景語(yǔ)義生成框架。
它突破了傳統(tǒng)大語(yǔ)言模型對(duì)物理世界幾何與空間關(guān)系的理解局限,賦予機(jī)器類(lèi)似人類(lèi)的空間認(rèn)知和解析能力。
這相當(dāng)于為具身智能領(lǐng)域提供了一個(gè)基礎(chǔ)的空間理解訓(xùn)練框架,企業(yè)可以針對(duì)特定場(chǎng)景對(duì)SpatialLM模型微調(diào),降低具身智能訓(xùn)練門(mén)檻。

△群核科技SpatialLM模型開(kāi)源頁(yè)面
據(jù)悉,僅通過(guò)一段視頻,該模型即可生成物理正確的3D場(chǎng)景布局。
基于從視頻中提取的點(diǎn)云數(shù)據(jù),SpatialLM模型能夠準(zhǔn)確認(rèn)知和理解其中的結(jié)構(gòu)化場(chǎng)景信息。目前,SpatialLM已在HuggingFace、GitHub、魔搭社區(qū)等平臺(tái)面向全球開(kāi)發(fā)者開(kāi)源。
據(jù)群核科技相關(guān)技術(shù)負(fù)責(zé)人稱(chēng),此次開(kāi)源僅是開(kāi)始,接下來(lái)SpatialLM模型將繼續(xù)迭代如自然語(yǔ)言和場(chǎng)景交互等功能。

△SpatialLM運(yùn)行原理
雖然行業(yè)已有對(duì)圖像、視頻進(jìn)行參數(shù)化描述模型,比如Meta此前發(fā)布的SceneScript模型。
但SpatialLM的獨(dú)特之處在于:
1、相比Meta需要依賴(lài)其眼鏡的定制化模式,SpatialLM設(shè)定于面向普通相機(jī)、手機(jī)的視頻作為輸入,因此更具通用性。
2、不同于傳感器對(duì)物理世界的感知,SpatialLM使用大語(yǔ)言模型,最終輸出是對(duì)3D場(chǎng)景的自然語(yǔ)言描述,未來(lái)還將支持原生自然語(yǔ)言與場(chǎng)景數(shù)據(jù)的交互。
3、更重要的是,SpatialLM支持對(duì)物理世界中空間信息的認(rèn)知理解,和結(jié)構(gòu)化描述。群核科技本身便專(zhuān)注于物理空間模擬的技術(shù)場(chǎng)景,過(guò)去十余年中積累了海量的三維數(shù)據(jù)和空間認(rèn)知數(shù)據(jù);基于此數(shù)據(jù)訓(xùn)練的模型,亦具備創(chuàng)建物理正確的空間場(chǎng)景的能力。
通過(guò)增強(qiáng)大語(yǔ)言模型的空間理解能力,SpatialLM模型開(kāi)源后,將為像具身智能領(lǐng)域的企業(yè)或機(jī)構(gòu)科研團(tuán)隊(duì)提供一個(gè)空間認(rèn)知理解的基礎(chǔ)訓(xùn)練框架。尤其是對(duì)那些不具備模型開(kāi)發(fā)能力的具身智能企業(yè),可以基于SpatialLM模型進(jìn)行微調(diào),降低具身智能訓(xùn)練門(mén)檻。
“我們希望打造一個(gè)從空間認(rèn)知理解到空間行動(dòng)交互閉環(huán)的具身智能訓(xùn)練平臺(tái)。本次開(kāi)源的SpatialLM空間理解模型旨在幫助具身智能機(jī)器人完成在空間認(rèn)知理解上的基礎(chǔ)訓(xùn)練。而去年群核科技發(fā)布的空間智能解決方案SpatialVerse,則希望進(jìn)一步通過(guò)合成數(shù)據(jù)方案為機(jī)器人搭建最接近物理真實(shí)的‘?dāng)?shù)字道場(chǎng)’,實(shí)現(xiàn)機(jī)器人在仿真環(huán)境中的行動(dòng)交互訓(xùn)練。”群核科技董事長(zhǎng)黃曉煌在接受采訪(fǎng)時(shí)表示。
據(jù)了解,群核空間智能平臺(tái)SpatialVerse是本次亮相GTC的另一個(gè)重頭戲,它與SpatialLM模型之間“協(xié)同合作”,打通了”現(xiàn)實(shí) – 虛擬 – 現(xiàn)實(shí)” 的閉環(huán)路徑,共同為具身智能架起一座數(shù)字仿真與物理現(xiàn)實(shí)之間的橋梁。例如,SpatialLM模型通過(guò)從視頻到結(jié)構(gòu)化場(chǎng)景的轉(zhuǎn)化,將現(xiàn)實(shí)世界的數(shù)據(jù)轉(zhuǎn)化為虛擬環(huán)境中的豐富場(chǎng)景,而基于SpatialVerse的合成數(shù)據(jù)引擎,一個(gè)結(jié)構(gòu)化場(chǎng)景又可泛化生成億萬(wàn)級(jí)新場(chǎng)景。這也意味著,現(xiàn)實(shí)世界將成為SpatialVerse“數(shù)字道場(chǎng)”的原料來(lái)源。
“我相信全球很快會(huì)迎來(lái)具身智能機(jī)器人的爆發(fā)性發(fā)展,在具身智能背后,是算力、算法、工程和訓(xùn)練數(shù)據(jù)四個(gè)板塊的協(xié)同進(jìn)化,這需要全行業(yè)合力推動(dòng)。群核科技希望通過(guò)空間模型和數(shù)據(jù)開(kāi)源一起推動(dòng)技術(shù)基座建設(shè),為這個(gè)技術(shù)奇點(diǎn)的來(lái)臨貢獻(xiàn)一份力量。”黃曉煌提到。據(jù)悉,在空間和具身智能訓(xùn)練上,目前群核科技已與硅谷頭部科技企業(yè)等在內(nèi)的一批國(guó)內(nèi)外具身智能企業(yè)達(dá)成合作。
- 空間智能卡脖子難題被杭州攻克!難倒GPT-5后,六小龍企業(yè)出手了2025-08-28
- 陳丹琦有了個(gè)公司郵箱,北大翁荔同款2025-08-28
- 英偉達(dá)最新芯片B30A曝光2025-08-20
- AI應(yīng)用如何落地政企?首先不要卷通用大模型2025-08-12



