衛(wèi)星圖片重建舊金山3D模型，效果就像谷歌地球，港中大團(tuán)隊(duì)提出CityNeRF

曉查 2021-12-19 12:49:42 來源：量子位

來自港中大林達(dá)華團(tuán)隊(duì)

曉查發(fā)自凹非寺
量子位報(bào)道 | 公眾號(hào) QbitAI

看到下面這張動(dòng)圖，你會(huì)想到什么？是谷歌地球，還是蘋果自帶的3D地圖？

其實(shí)都不是，它是用衛(wèi)星和航拍圖片直接渲染生成的舊金山。

很難想象，如此精細(xì)的城市3D模型，竟然是用幾張不同角度和高度的2D圖片重建的。

這項(xiàng)研究來自香港中文大學(xué)多媒體實(shí)驗(yàn)室團(tuán)隊(duì)，叫做CityNeRF。

說到這里，有人應(yīng)該想到了這兩年大熱的“神經(jīng)輻射場(chǎng)”（NeRF），它可以用多張角度照片重建3D對(duì)象，性能出色。量子位之前對(duì)此進(jìn)行了相關(guān)報(bào)道和解讀。

NeRF雖然恢復(fù)室內(nèi)場(chǎng)景效果驚艷，但是直接用到城市級(jí)的衛(wèi)星地圖上，卻面臨著巨大的挑戰(zhàn)。

首先是拍攝相機(jī)有很大的運(yùn)動(dòng)自由度。隨著相機(jī)的上升，場(chǎng)景中的地物外觀越來越粗糙，幾何細(xì)節(jié)越來越少，紋理分辨率越來越低。

同時(shí)，隨著空間覆蓋范圍的擴(kuò)大，來自外圍區(qū)域的新對(duì)象會(huì)加入到視圖中。

相機(jī)在這個(gè)一系列場(chǎng)景中，產(chǎn)生了具有不同細(xì)節(jié)級(jí)別和空間覆蓋范圍的多尺度數(shù)據(jù)。

如果使用原來的NeRF渲染，那么生成的遠(yuǎn)景往往不完整，周邊場(chǎng)景區(qū)域存在偽影，近景總是具有模糊的紋理和形狀。

什么原理？

針對(duì)上述問題，作者提出了采用多階段漸進(jìn)式學(xué)習(xí)范式的CityNeRF。

作者根據(jù)相機(jī)距離將整個(gè)訓(xùn)練數(shù)據(jù)集劃分為預(yù)定義數(shù)量的尺度。從最遠(yuǎn)的尺度開始，每個(gè)訓(xùn)練階段逐漸將訓(xùn)練集擴(kuò)大一個(gè)更近的尺度，并同步增長模型。

通過這種方式，CityNeRF可以穩(wěn)健地學(xué)習(xí)跨場(chǎng)景所有尺度的表示層次結(jié)構(gòu)。

CityNeRF引入了兩個(gè)特殊的設(shè)計(jì)：

1、具有殘差塊結(jié)構(gòu)的生長模型：

在每個(gè)訓(xùn)練階段附加一個(gè)額外的塊來擴(kuò)展模型。每個(gè)塊都有自己的輸出head，用于預(yù)測(cè)連續(xù)階段之間的顏色和密度殘差，促使塊在近距離觀察中關(guān)注新興細(xì)節(jié)；

2、包容的多級(jí)數(shù)據(jù)監(jiān)督：

每個(gè)塊的輸出head由從最遠(yuǎn)尺度到其對(duì)應(yīng)尺度的圖像聯(lián)合監(jiān)督。

換句話說，最后一個(gè)塊接受所有訓(xùn)練圖像的監(jiān)督，而最早的塊只暴露于最粗尺度的圖像。通過這樣的設(shè)計(jì)，每個(gè)塊模塊都能夠充分利用其能力，在更近的視圖中對(duì)復(fù)雜的細(xì)節(jié)進(jìn)行建模，并保證尺度之間一致的渲染質(zhì)量。

總體來說，CityNeRF是一種漸進(jìn)式學(xué)習(xí)范式，可同步增長NeRF模型和訓(xùn)練集。從用淺基塊擬合遠(yuǎn)景開始，隨著訓(xùn)練的進(jìn)行，添加新的塊以適應(yīng)越來越近的視圖中出現(xiàn)的細(xì)節(jié)。

該策略有效地激活了位置編碼中的高頻通道，并隨著訓(xùn)練的進(jìn)行展開更復(fù)雜的細(xì)節(jié)。

簡而言之，使用基本神經(jīng)網(wǎng)絡(luò)多層感知器的權(quán)重，NeRF將提前處理所有圖像，知道其觀點(diǎn)位置。NeRF將使用相機(jī)的光線找到每個(gè)像素的顏色和密度。

因此，它知道相機(jī)的方向，并可以同時(shí)使用所有數(shù)組來了解深度和相應(yīng)的顏色。然后，使用損失函數(shù)優(yōu)化了神經(jīng)網(wǎng)絡(luò)的收斂性，

模型訓(xùn)練數(shù)據(jù)數(shù)據(jù)來自Google Earth Studio中的12個(gè)城市圖像。結(jié)果顯示在幾種常見重建模型中達(dá)到了最佳的效果。

最后，作者又將該模型用于重建無人機(jī)拍攝的空中圖像，依然收到了更佳的效果。

團(tuán)隊(duì)簡介

本篇論文的兩位一作是來自香港中文大學(xué)MMLab的兩位博士生相里元博和徐霖寧。前者曾有一篇論文被ICLR 2020收錄，后者有多篇論文被CVPR、ICCV等頂會(huì)收錄。

通訊作者是以上兩位的導(dǎo)師林達(dá)華。

林達(dá)華是香港中文大學(xué)信息工程系副教授，也是港中大-商湯科技聯(lián)合實(shí)驗(yàn)室主任。

論文地址：
https://arxiv.org/abs/2112.05504

項(xiàng)目地址：
https://city-super.github.io/citynerf/

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

NeRF 計(jì)算機(jī)視覺

曉查

衛(wèi)星圖片重建舊金山3D模型，效果就像谷歌地球，港中大團(tuán)隊(duì)提出CityNeRF

曉查發(fā)自凹非寺
量子位報(bào)道 | 公眾號(hào) QbitAI

什么原理？

團(tuán)隊(duì)簡介

相關(guān)閱讀

這家低調(diào)的上海AI公司，在CVPR上再奪一冠

AI分割一切！智源提出通用分割模型SegGPT，「一通百通」的那種

深度學(xué)習(xí)論文TOP10，2019一季度研究進(jìn)展大盤點(diǎn)

聯(lián)想？自動(dòng)駕駛技術(shù)冠軍？

微軟Excel竟能實(shí)現(xiàn)CV算法：亞馬遜工程師妙用，人臉檢測(cè)、字符識(shí)別都不在話下

路人妹子秒變老婆，兇惡大狗秒變萌犬：日本開源GAN插件，局部P圖無壓力

熱門文章

“豆包手機(jī)”在二手市場(chǎng)價(jià)格都翻倍了……

英偉達(dá)巧用8B模型秒掉GPT-5，開源了

谷歌新架構(gòu)突破Transformer超長上下文瓶頸！Hinton靈魂拷問：后悔Open嗎？

SpaceX估值8000億美元超OpenAI，IPO就在明年

Ilya剛預(yù)言完，世界首個(gè)原生多模態(tài)架構(gòu)NEO就來了：視覺和語言徹底被焊死

衛(wèi)星圖片重建舊金山3D模型，效果就像谷歌地球，港中大團(tuán)隊(duì)提出CityNeRF

曉查 發(fā)自 凹非寺量子位 報(bào)道 | 公眾號(hào) QbitAI

什么原理？

團(tuán)隊(duì)簡介

相關(guān)閱讀

這家低調(diào)的上海AI公司，在CVPR上再奪一冠

AI分割一切！智源提出通用分割模型SegGPT，「一通百通」的那種

深度學(xué)習(xí)論文TOP10，2019一季度研究進(jìn)展大盤點(diǎn)

聯(lián)想？自動(dòng)駕駛技術(shù)冠軍？

微軟Excel竟能實(shí)現(xiàn)CV算法：亞馬遜工程師妙用，人臉檢測(cè)、字符識(shí)別都不在話下

路人妹子秒變老婆，兇惡大狗秒變萌犬：日本開源GAN插件，局部P圖無壓力

熱門文章

“豆包手機(jī)”在二手市場(chǎng)價(jià)格都翻倍了……

英偉達(dá)巧用8B模型秒掉GPT-5，開源了

谷歌新架構(gòu)突破Transformer超長上下文瓶頸！Hinton靈魂拷問：后悔Open嗎？

SpaceX估值8000億美元超OpenAI，IPO就在明年

Ilya剛預(yù)言完，世界首個(gè)原生多模態(tài)架構(gòu)NEO就來了：視覺和語言徹底被焊死

衛(wèi)星圖片重建舊金山3D模型，效果就像谷歌地球，港中大團(tuán)隊(duì)提出CityNeRF

曉查發(fā)自凹非寺
量子位報(bào)道 | 公眾號(hào) QbitAI

什么原理？

AI分割一切！智源提出通用分割模型SegGPT，「一通百通」的那種

深度學(xué)習(xí)論文TOP10，2019一季度研究進(jìn)展大盤點(diǎn)

聯(lián)想？自動(dòng)駕駛技術(shù)冠軍？

微軟Excel竟能實(shí)現(xiàn)CV算法：亞馬遜工程師妙用，人臉檢測(cè)、字符識(shí)別都不在話下

路人妹子秒變老婆，兇惡大狗秒變萌犬：日本開源GAN插件，局部P圖無壓力

SpaceX估值8000億美元超OpenAI，IPO就在明年