只用靜態(tài)圖像,就能實(shí)時渲染出絲滑3D效果 | CVPR 2021 Oral
渲染速度提升3個數(shù)量級
魚羊 發(fā)自 凹非寺
量子位 報道 | 公眾號 QbitAI
這般絲滑的美食展示,是否讓跟隨鏡頭移動的你食指大動?
再看這放大鏡里流暢變化的彈簧,你敢相信,這完全是用靜態(tài)圖像合成的嗎?
沒錯,這樣的動圖并非截自視頻,而是來自AI的合成大法。
甚至只需手機(jī)隨手拍攝的十幾張2D照片,就能實(shí)時渲染生成。
比起大名鼎鼎的谷歌前輩NeRF,這只名為NeX的AI,能直接把每秒渲染幀數(shù)從0.02幀提升到60幀。
也就是說,渲染速度能提升3個數(shù)量級。
細(xì)節(jié)之處,也更加接近真實(shí)效果。
這項(xiàng)已經(jīng)入選CVPR 2021 Oral的研究,是怎么做到的?
像素參數(shù)與基函數(shù)結(jié)合
多平面圖像(MPI)視圖合成技術(shù),使得不用3D建模,只用少數(shù)幾張圖像還原多視角逼真3D效果成為可能。
不過,此前的MPI主要采用的是標(biāo)準(zhǔn)RBGα表示法,簡單說就是把圖像轉(zhuǎn)換成RGBα平面,以進(jìn)行后續(xù)的計算。
這樣做的局限性在于,其表示出的物體外觀僅與漫反射表面有關(guān),與視角無關(guān)。
這就極大地限制了MPI可以捕捉的物體和場景類型。
為此,來自泰國科學(xué)技術(shù)研究所VISTEC的研究人員提出:將每個像素的參數(shù)轉(zhuǎn)化為基函數(shù)的系數(shù),進(jìn)行線性組合,并以此創(chuàng)建與視圖相關(guān)的效果模型。
就如上圖所示,多平面圖像中每個像素都由alpha透明值、基色k0和視圖相關(guān)的反射系數(shù)k1…kn組成。
將這些系數(shù)和神經(jīng)網(wǎng)絡(luò)預(yù)測的基函數(shù)進(jìn)行線性組合,就產(chǎn)生了最終的顏色值。
如此一來,像金屬勺子在不同視角下的反射效果這樣的信息,都能在合成圖像中顯示出來。
具體到整個NeX的結(jié)構(gòu),對于輸入圖像,首先根據(jù)不同平面深度,對像素坐標(biāo)(x,y)進(jìn)行采樣,以構(gòu)建出MPI中的每個像素。
然后,把這個數(shù)據(jù)喂給多層感知機(jī)(MLP),得到alpha透明度,以及和視圖相關(guān)的基礎(chǔ)系數(shù)(k1,k2,…,kn)。
這些系數(shù)再與顯式的k0一起,與另一個MLP預(yù)測的基函數(shù)相乘,生成RGB值。
輸出圖像,如公式1所示,為所有平面復(fù)合運(yùn)算的結(jié)果。
而在細(xì)節(jié)效果的提升方面,研究人員人員發(fā)現(xiàn),通過比較渲染圖像和真實(shí)值之間的差距,對基色k0進(jìn)行優(yōu)化,就可以得到很好的效果,顯著減輕網(wǎng)絡(luò)壓縮和細(xì)節(jié)重現(xiàn)的負(fù)擔(dān),減少迭代次數(shù)。
研究人員還補(bǔ)充說,NeX可以被理解成是隱式輻射場函數(shù)的離散抽樣。
至于實(shí)時渲染,論文指出,NeX MPI中的每一個模型參數(shù)都可以轉(zhuǎn)換為圖像。而給定預(yù)先計算好的圖像,就可以在OpenGL/WebGL的片段著色器中實(shí)現(xiàn)上述公式1,實(shí)現(xiàn)捕獲場景的實(shí)時渲染。
實(shí)驗(yàn)結(jié)果
有NeRF珠玉在前,NeX具體到數(shù)據(jù)上,到底有怎樣的提升?
在運(yùn)行時間方面,輸入17張分辨率為1008×756的照片,批量大小為1的情況下,使用單個英偉達(dá)V100訓(xùn)練,NeX的耗時大概為18小時。
使用WebGL,此場景可以以每秒60幀的速度被渲染出來。
而在同一臺機(jī)器上運(yùn)行,NeRF則需要大約55秒才能生成一幀。
也就是說,NeX的渲染速度比NeRF要快1000倍以上。
與SRN、LLFF和NeRF相比,在峰值信噪比、結(jié)構(gòu)相似性和圖像感知相似度這三個指標(biāo)上,NeX都達(dá)到了最佳。
而在定性比較中,可以看到,與NeRF相比,在顏色均勻的區(qū)域,NeX細(xì)節(jié)更清晰,噪聲更少,更接近真實(shí)值。
LLFF雖然細(xì)節(jié)表現(xiàn)也很好,但當(dāng)結(jié)果以視頻形式呈現(xiàn)時,會產(chǎn)生跳躍和扭曲偽影。
可上手試玩
對了,如果你對NeX感興趣,還可以到項(xiàng)目官網(wǎng)親自感受一下實(shí)時渲染Demo。
還有手機(jī)版和VR版喲。
傳送門
項(xiàng)目地址:
https://nex-mpi.github.io/
論文地址:
https://arxiv.org/abs/2103.05606
— 完 —



