謝賽寧盛贊字節(jié)Seed新研究!單Transformer搞定任意視圖3D重建
霸榜視覺幾何基準(zhǔn),康炳易帶隊(duì)
聞樂 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
單Transformer搞定任意視圖3D重建!
這是字節(jié)Seed康炳易團(tuán)隊(duì)帶來的最新研究成果Depth Anything 3(下稱DA3),獲謝賽寧盛贊。

架構(gòu)足夠簡單,核心能力卻不差。能從一張圖、一組多視角照片甚至一段隨手拍的視頻里,精準(zhǔn)算出物體深度、還原相機(jī)位置,不僅能拼出完整3D場景,還能腦補(bǔ)出沒拍過的新視角圖像。

而且,它在團(tuán)隊(duì)全新打造的視覺幾何基準(zhǔn)上橫掃所有任務(wù),相機(jī)定位精度平均提升35.7%,幾何重建準(zhǔn)確率漲了23.6%,單目深度估計(jì)還超越了自家前代DA2。

以前的3D視覺模型,想做單圖深度估計(jì)?得單獨(dú)訓(xùn)練一個(gè)模型;想搞多視角3D重建?又要換一套架構(gòu)。
就連算個(gè)相機(jī)位置都得搭專屬模塊,不僅開發(fā)成本高,還沒法充分利用大規(guī)模預(yù)訓(xùn)練模型的優(yōu)勢,數(shù)據(jù)依賴也很嚴(yán)重。

還有就是這些模型往往“術(shù)業(yè)有專攻”,那DA3的單一極簡操作究竟是怎樣的呢?
極簡設(shè)計(jì)也能打
核心秘訣就兩點(diǎn):一是只用一個(gè)普通的視覺Transformer當(dāng)基礎(chǔ);二是預(yù)測目標(biāo)只抓深度和光線兩個(gè)核心。

從架構(gòu)圖上可以看出來,DA3的任務(wù)流程可分為四大環(huán)節(jié)。
首先是輸入處理,多視角圖像會(huì)被送入Image Patch Embed模塊轉(zhuǎn)化為特征塊,同時(shí)若有相機(jī)參數(shù)則通過編碼器,沒有則用可學(xué)習(xí)的相機(jī)token替代,最終圖像特征與相機(jī)信息特征拼接融合。
中間的Single Transformer (Vanilla DINO)是模型的核心大腦。它是基于預(yù)訓(xùn)練的DINO視覺Transformer,通過Within-view self attn單視角自注意力、Cross-view self attn跨視角自注意力兩種注意力機(jī)制,讓模型能在單圖、多圖、視頻等不同輸入形式下,自動(dòng)打通視角間的信息關(guān)聯(lián)。
之后,Transformer輸出的特征被送入Dual DPRT Head兩個(gè)任務(wù)頭,一方面輸出深度圖,另一方面輸出光線參數(shù),同時(shí)完成深度和光線兩個(gè)核心預(yù)測。
此外,還會(huì)從特征中提取相機(jī)姿態(tài)信息,確保相機(jī)軌跡精準(zhǔn)。

在訓(xùn)練環(huán)節(jié)上,DA3采用了師生蒸餾策略。用一個(gè)性能更優(yōu)的教師模型從海量數(shù)據(jù)中提煉高質(zhì)量偽標(biāo)簽,再用這套標(biāo)準(zhǔn)答案引導(dǎo)學(xué)生模型(即DA3)學(xué)習(xí)。
這種方式既能充分利用多樣化數(shù)據(jù),又能降低對高精度標(biāo)注數(shù)據(jù)的依賴,讓模型在訓(xùn)練階段就能覆蓋更多場景。
字節(jié)團(tuán)隊(duì)還專門搭了個(gè)全新的視覺幾何基準(zhǔn),整合了5個(gè)覆蓋室內(nèi)、室外、物體級的數(shù)據(jù)集,從相機(jī)定位、3D重建到新視角生成,全方位考驗(yàn)?zāi)P蛯?shí)力。

評測結(jié)果就是DA3全程能打。給一段視頻,它能精準(zhǔn)估計(jì)每幀的相機(jī)內(nèi)參與外參,還原每幀相機(jī)的運(yùn)動(dòng)軌跡;

將其輸出的深度圖與相機(jī)位置結(jié)合,能生成密度更高、噪聲更低的3D點(diǎn)云,比傳統(tǒng)方法的點(diǎn)云質(zhì)量提升明顯;

甚至給幾張同一場景的散圖,它也能通過視角補(bǔ)全,生成未拍攝角度的圖像,這在虛擬漫游、數(shù)字孿生等場景中潛力不小。
團(tuán)隊(duì)介紹
Depth Anything 3項(xiàng)目的帶隊(duì)人是字節(jié)跳動(dòng)95后研究科學(xué)家康炳易。他的研究興趣為計(jì)算機(jī)視覺、多模態(tài)模型,致力于開發(fā)能從各種觀察中獲取知識并與物理世界交互的智能體。

2016年,他在浙大完成本科學(xué)業(yè),后在加州伯克利和新國立(師從馮佳時(shí))攻讀人工智能專業(yè)碩博。
讀博期間,他曾在Facebook AI Research實(shí)習(xí),與謝賽寧、馬庫斯等人有過合作。
康炳易領(lǐng)導(dǎo)開發(fā)Depth Anything系列,之前還被收入蘋果CoreML庫中。
論文地址:https://arxiv.org/abs/2511.10647
參考鏈接:
[1]https://x.com/bingyikang/status/1989358267668336841
[2]https://x.com/sainingxie/status/1989423686882136498
— 完 —
- 又一高管棄庫克而去!蘋果UI設(shè)計(jì)負(fù)責(zé)人轉(zhuǎn)投Meta2025-12-04
- 萬卡集群要上天?中國硬核企業(yè)打造太空超算!2025-11-29
- 學(xué)生3年投稿6次被拒,于是吳恩達(dá)親手搓了個(gè)評審Agent2025-11-25
- 波士頓動(dòng)力前CTO加盟DeepMind,Gemini要做機(jī)器人界的安卓2025-11-25




