商湯披露:50篇論文入選CVPR 2024
CVPR最佳論文即將揭曉
CVPR正在進行中,中國科研力量再次成為場內外焦點之一。
日前,AI頂會常客選手商湯科技,已經披露了今年成績單:50篇論文入選,其中還有9篇被錄用為Oral、Highlight。
這些成果,既是商湯科研和技術實力的最新證明,也透露著這家知名AI公司對于產業趨勢和技術趨勢的預判——
論文涉及自動駕駛、機器人等前沿方向。
大規模視覺語言基礎模型:InternVL
商湯科技、上海AI實驗室等聯合設計了一個大規模的視覺語言基礎模型——InternVL。
首次將大規模視覺編碼器擴展到60億個參數,與LLM進行對齊,在準確性、速度和穩定性之間取得了良好平衡。

論文:https://arxiv.org/abs/2312.14238
為了有效訓練大規模視覺語言基礎模型,InternVL還引入了一種漸進式圖像-文本對齊策略。
該策略最大限度地利用網絡規模的噪聲圖像-文本數據進行對比學習,并將細粒度、高質量的數據用于生成學習。

通過驗證,相較于當前最先進的視覺基礎模型和多模態大語言模型,InternVL在廣泛的通用視覺語言任務上能夠取得更領先的結果。

另外,InternVL工作的最新版本InternVL 1.5具備強大的視覺編碼器和更深層次的場景理解能力。
InternVL 1.5支持動態高分辨率,能夠準確識別和理解圖像中的各種細節以及文字信息。

Demo:https://internvl.opengvlab.com/
第三方評測結果顯示,InternVL 1.5在多模態感知、通用問答、文檔理解、信息圖表理解以及數理理解等方面綜合能力領先開源模型,比肩GPT-4V、Gemini Pro等閉源模型。

不僅如此,為了補充多模態系統在高質量圖像生成中的優質表現,對傳統模型進行優化,商湯還提出了一個“基于時間信息塊的時間特征維護量化(TFMQ)”擴散模型框架。

論文:https://arxiv.org/abs/2311.16503
該框架時間信息塊僅與時間步驟相關,與采樣數據無關,創新地設計并引入了時間信息感知重建(TIAR)和有限集校準(FSC)方法,從而可以在有限的時間內對齊全精度時間特征,最小化精度損失的同時提高圖像生成效率。
配備此框架,可以保持最多的時間信息并確保端到端的圖像生成質量。在各種數據集和擴散模型上的廣泛實驗證明了該技術已經達到SOTA水平。
場景級3D開放世界感知算法:RegionPLC
場景級別的3D開放世界感知是機器人領域非常重要的能力之一。
它能夠使機器人在復雜、多變的環境中自主導航、理解和交互,從而提升執行復雜任務的效率、準確性和安全性。
商湯科技和聯合實驗室的研究團隊提出了一種直接結合點云和自然語言的新開放世界理解算法——RegionPLC,無需額外訓練就可以和大語言模型結合進行一些場景級別的開放問答。

論文:https://arxiv.org/abs/2311.16503
該算法擴展到了更細粒度的區域級別點云和語言的結合,能夠生成更密集和細粒度的描述。

在該研究中,研究人員設計了一種基于互補的數據混合策略SFusion,只會混合在3D空間中互補的3D-text pairs,減少在優化時產生沖突的概率。這樣的設計使得RegionPLC可以結合不同2D大模型的優勢,達到更好性能。

通過大量實驗證明,RegionPLC在ScanNet、ScanNet200和nuScenes數據集上的性能優于現有的3D開放世界場景理解方法,并在具有挑戰性的長尾或無注釋場景中表現非常出色。

除了對場景的識別和理解,智能體的社會化交互能力也是人工智能邁向更高階的關鍵所在。
為此,商湯及聯合實驗室提出了“數字生命計劃(Digital Life Project)”,即通過AI技術和動作合成技術創造出能夠在數字環境中模擬交互的自主3D虛擬角色。

論文:https://arxiv.org/abs/2311.16503
這些角色不僅可以進行對話,還將擁有自己的人格,并感知所處的不同社交環境,做出相對應的身體動作來表達情感和反應。

數字生命計劃包括“SocioMind”和“MoMat-MoGen”兩個核心部分。
其中,SocioMind是一個模擬人類思想和判斷的數字大腦。它能夠結合大語言模型和基于心理學原理的反思過程,使角色自主地發起和參與對話,規劃接下來的故事發展。

而MoMat-MoGen是一套用于控制角色身體動作的3D系統。它結合了動作匹配(Motion Matching)和動作生成(Motion Generation)技術,在數字大腦的驅動下,讓角色能根據場景做出合理的反應。

CVPR最佳論文發布在即
本次CVPR共有來自全球的2719篇論文被接收,錄用率為23.6%,相較去年下降2.2%。可以看到,其他國內玩家也表現不俗,都有不少論文入選。
比如像騰訊優圖實驗室,此前曝光稱有20篇入選,覆蓋多模態、人臉識別、視覺分割等多個方向。
這周,CVPR2024在美國西雅圖正在進行中。
也就在這兩天,CVPR最佳論文獎即將出爐,可以期待一下。
- 10億美元OpenAI股權兌換迪士尼版權!米老鼠救Sora來了2025-12-12
- 跳過“逐字生成”!螞蟻集團趙俊博:擴散模型讓我們能直接修改Token | MEET20262025-12-12
- 梁文鋒,Nature全球年度十大科學人物!2025-12-09
- 英偉達巧用8B模型秒掉GPT-5,開源了2025-12-06



