谷歌預測景深新研究:即使相機人物都在動,單一視點也能合成3D深度圖
流程大大簡化
銅靈 發自 凹非寺
量子位 出品 | 公眾號 QbitAI
一個你邊走邊拍得到的普通視頻,現在也能重建出精準的3D世界了。
這一次,谷歌用深度學習的方法,不僅從視頻中重建了移動對象的景深圖,而且效果精準驚艷。即使拍攝相機和人物同時在運動,也能很好重建景深圖。
輸入這樣的視頻:
就能輸出這樣的3D景深版:
谷歌在博客中表示,這是世界首個在攝像機和人體同時運動情況下的深度學習景深預測算法,優于制作深度圖的最先進工具。
半天時間,推特有近千次的點贊,網友表示:“超級酷”。
研究論文也被CVPR 2019 接收,脫穎而出成為一篇Oral論文。
學習先驗
讓網友high起來的點在于,傳統的創建景深圖的方法,需要至少兩個視點同時捕捉影像。通過兩個不同的視角在同一時間段的變化軌跡,才能拼接重建出3D的影像。
就像下面這樣:
而谷歌的這項研究,只需要用一個視點的影像即可預測位置關系進行重建,比傳統方法簡化了不是一星半點,變成了下面這樣:
在論文Learning the Depths of Moving People by Watching Frozen People中,研究人員介紹了具體的設計細節。
和傳統方法最大的改進在于,谷歌的新方法可以用深度學習,從數據中學習人體姿態和形狀的先驗知識,避開了直接的3D三角測量(3D triangulation)。
這個模型應該如何去構建?
如何獲取訓練數據是擺在前面的第一個問題,在這個數據集中,需要移動的攝像機拍攝的自然場景視頻,以及精確的深度圖。這樣的數據集,似乎在谷歌家族產品中就能找到。
研究人員選取了YouTube上關于#假人挑戰#(Mannequin Challenge)話題的數據,在這種類型的視頻中,被拍攝者需做出一個定格動作,且要表現與人體模型一樣靜止不動,并由攝影師透過移動鏡頭的技巧進行拍攝:
有了這些數據,再利用多視角立體( Multi-View Stereo,MVS)算法,就可以獲取到包含其中人物在內整個場景的深度圖了。
△?合成景深圖流程
搞定數據集后,第二個問題來了,如何能在人物和攝像機同時移動的情況下構建景深圖呢?
此前,谷歌在展示過在Pixel 3手機中,通過單目攝像頭確定景深圖的研究。但在這個項目中,只有手機鏡頭在動,被拍攝的人靜止。
但這個研究的難度顯然升級了。
研究人員針對視頻中的單個幀,單獨進行深度推斷。他們計算了視頻中每一幀和其他幀之間的2D光流(2D optical flow),用來表示兩幀之間的像素位移。
為了在測試時處理移動的人物,他們采用了人像分割網絡( human-segmentation network)來掩蓋初始深度圖中的人類區域。整個網路的完整輸入包括:
- RGB圖像
- 人物mask
- 來自視差的mask深度圖
此外,通過學習人類姿態和人體形狀的先驗,研究人員細化了景深圖中各種細節。
經過大量訓練后,這個模型可以處理任意相機位置和人體運動的自然視頻。
研究人員將這個新模型與此前DORN DeMoN等類似算法進行了測評對比,結果如下:
此外,除了合成景深圖,這個新模型還能應用到將合成的CG對象插入到視頻場景中。
結果顯示,即使晃動攝像機改變其位置,也能用視頻其他幀的像素填充人物后面的背景區域。
傳送門
谷歌官方博客:
https://ai.googleblog.com/2019/05/moving-camera-moving-people-deep.html
論文地址:
https://arxiv.org/abs/1904.11111
—?完?—
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復“招聘”兩個字。
量子位 QbitAI · 頭條號簽約作者
?’?’ ? 追蹤AI技術和產品新動態
- 微軟公布19財年財報:凈利潤增長22%,云計算首超個人計算業務2019-07-19
- 騰訊云推出物聯網邊緣計算平臺,具備五大特點,想攻克物聯網落地難題2019-08-28
- DeepMind醫療業務幾經動蕩,現在團隊并入Google2019-09-20
- 首例基因編輯干細胞治療艾滋病:北大鄧宏魁參與,達最佳治療效果2019-09-14




