CVPR自動駕駛最in挑戰賽賽道,全球冠軍被算力選手奪走了
從全球90余支頂尖AI團隊中脫穎而出
允中 發自 凹非寺
量子位 | 公眾號 QbitAI
浪潮信息AI團隊,在自動駕駛領域再奪一冠!
不久前,計算機視覺領域的頂級學術會議CVPR在全球目光注視中順利落幕,并正式公布了最佳論文等獎項。除誕生了絕佳的10 篇論文之外,另一場備受關注的自動駕駛國際挑戰賽也在同期結束了“巔峰廝殺”。
就在CVPR 2024自動駕駛國際挑戰賽“Occupancy & Flow”賽道中,浪潮信息AI團隊以48.9%的出色成績,從全球90余支頂尖AI團隊中脫穎而出,摘下桂冠。
這也是該團隊在2022年、2023年登頂nuScenes 3D目標檢測榜單后,面向Occupancy技術的又一次實力展示。

△圖1-浪潮信息AI團隊斬獲占據柵格和運動估計賽道第一名
CVPR 2024自動駕駛國際挑戰賽是國際計算機視覺與模式識別會議(IEEE/CVF Conference on Computer Vision and Pattern Recognition)的一個重要組成部分,專注于自動駕駛領域的技術創新和應用研究。今年的CVPR自動駕駛國際挑戰賽賽道設置也非常之有意思了,完整地包含了感知、預測、規劃三大方向七個賽道。
此次浪潮信息AI團隊所登頂的占據柵格和運動估計(Occupancy & Flow)賽道,也正是本屆CVPR自動駕駛國際挑戰賽最受關注的賽道,聚焦感知任務,吸引了全球17個國家和地區,90余支頂尖AI團隊參與挑戰。
比賽提供了基于nuScenes數據集的大規模占用柵格數據與評測標準, 要求參賽隊伍利用相機圖像信息對柵格化三維空間的占據情況(Occupancy)和運動(Flow)進行預測,以此來評估感知系統對高度動態及不規則駕駛場景的表示能力。
占據柵格 Occupancy:挑戰更精細的環境感知與預測
道路布局的復雜性、交通工具的多樣性以及行人流量的密集性,是當前城市道路交通的現狀,也是自動駕駛領域面臨的現實挑戰。為了應對這一挑戰,有效的障礙物識別和避障策略,以及對三維環境的感知和理解就變得至關重要。
傳統的三維物體檢測方法通常使用邊界框來表示物體的位置和大小,但對于幾何形狀復雜的物體,這種方法往往無法準確描述其形狀特征,同時也會忽略對背景元素的感知。因此,基于三維邊界框的傳統感知方法已經無法滿足復雜道路環境下的精準感知和預測需求。
Occupancy Networks(占據柵格網絡)作為一種全新的自動駕駛感知算法,通過獲取立體的柵格占據信息,使系統能夠在三維空間中確定物體的位置和形狀,進而有效識別和處理那些未被明確標注或形狀復雜的障礙物,如異形車、路上的石頭、散落的紙箱等。
這種占據柵格網絡使得自動駕駛系統能夠更準確地理解周圍的環境,不僅能識別物體,還能區分靜態和動態物體。并以較高的分辨率和精度表示三維環境,對提升自動駕駛系統在復雜場景下的安全性、精度和可靠性至關重要。
如下圖,針對挖車中的力臂,3D目標檢測算法只能給出挖車整體的輪廓框(左),但占據格柵網絡卻可以更精準地描述挖車具體的幾何形狀這類細節信息(右)。

浪潮信息AI團隊創賽道最高成績
在占據柵格和運動估計(Occupancy & Flow)賽道中,浪潮信息AI團隊以48.9%的絕佳性能表現,創下本賽道最高成績。
具體而言,團隊所提交的“F-OCC”算法模型,憑借先進的模型結構設計、數據處理能力和算子優化能力,實現了該賽道最強模型性能,在RayIoU(基于投射光線的方式評估柵格的占用情況)及mAVE(平均速度誤差)兩個評測指標中均獲得最高成績。
更簡潔高效的模型架構,實現運算效率與檢測性能雙突破
首先,模型整體選擇基于前向投影的感知架構,并采用高效且性能良好的FlashInternImage模型。
同時,通過對整體流程進行超參調優、算子加速等優化,在占據柵格和運動估計均獲得最高分的同時,提升了模型的運算效率,加快了模型迭代與推理速度。
在實際應用場景中,這種改進使得模型能夠更快速、高效地處理大規模3D體素數據,使得自動駕駛車輛能更好地理解環境,進而提升決策的準確度和實時性。

△圖3 – F-OCC算法模型架構圖
更強大完善的數據處理,全面提升模型檢測能力
在數據處理方面,比賽提供的體素(Voxel)標簽包含了大量在圖像中無法觀測到的點,例如被物體遮擋的體素和物體內部不可見的體素,這些標簽在訓練過程中會對基于圖像數據的預測網絡訓練產生干擾。
在訓練數據中,浪潮信息AI團隊通過模擬LiDAR光束的方法,生成可視化掩碼,提升了模型的預測精度;另一方面,通過引入感知范圍邊緣的體素點參與訓練,有效解決出現在感知邊緣區域的誤檢問題,將模型的整體檢測性能提升11%。
更精細的3D體素編碼,模型占據預測能力提升超5%
在3D體素特征編碼模塊中,該算法團隊將具有較大感知范圍和編碼能力的可形變卷積操作應用于3D體素數據,以提升3D特征的表示能力。
通過使用CUDA對可形變3D卷積(DCN3D)進行實現與優化,大幅提升了模型的運算速度,并有效降低了顯存消耗。
通過DCN3D替代傳統3D卷積,模型整體占據預測能力提升超5%。
此外,基于開源大模型,浪潮信息AI團隊也通過優化圖像encoder模型和特征融合對齊方式,并從CoT(Chain of Thought)、GoT(Graph of Thought)、Prompt工程等方面優化,提升了多模態模型對自動駕駛BEV圖像的感知理解能力。最終以74.2%的成績,摘得本屆CVPR自動駕駛國際挑戰賽 “大語言模型在自動駕駛中的應用”(LLM4AD)賽道的第五名。
2022年,浪潮信息AI團隊摘得nuScenes競賽的純視覺3D目標檢測任務(nuScenes Detection task)第一名,并一舉將關鍵性指標NDS提高至62.4%。
2023年,這支團隊再度奪冠,以77.6%的高分成績再創3D目標檢測全賽道最高成績。
從BEV純視覺到BEV多模態,再至如今憑借“F-OCC”算法模型再度登頂CVPR 2024自動駕駛國際挑戰賽, 占據柵格和運動估計任務(Occupancy & Flow)榜首。浪潮信息AI團隊逐步探索,一路絕殺,為探索更高級別的自動駕駛技術提供了有力的支撐和經驗。
期待這支團隊在未來的精彩表現!
*本文系量子位獲授權刊載,觀點僅為作者所有。
— 完 —
- 蘋果芯片主管也要跑路!庫克被曝出現健康問題2025-12-07
- 世界模型和具身大腦最新突破:90%生成數據,VLA性能暴漲300%|開源2025-12-02
- 谷歌新架構突破Transformer超長上下文瓶頸!Hinton靈魂拷問:后悔Open嗎?2025-12-05
- 90后華人副教授突破30年數學猜想!結論與生成式AI直接相關2025-11-26



