谷歌預測景深新研究：即使相機人物都在動，單一視點也能合成3D深度圖

安妮 2019-05-24 14:13:45 來源：量子位

流程大大簡化

銅靈發自凹非寺

量子位出品 | 公眾號 QbitAI

一個你邊走邊拍得到的普通視頻，現在也能重建出精準的3D世界了。

這一次，谷歌用深度學習的方法，不僅從視頻中重建了移動對象的景深圖，而且效果精準驚艷。即使拍攝相機和人物同時在運動，也能很好重建景深圖。

輸入這樣的視頻：

就能輸出這樣的3D景深版：

谷歌在博客中表示，這是世界首個在攝像機和人體同時運動情況下的深度學習景深預測算法，優于制作深度圖的最先進工具。

半天時間，推特有近千次的點贊，網友表示：“超級酷”。

研究論文也被CVPR 2019 接收，脫穎而出成為一篇Oral論文。

學習先驗

讓網友high起來的點在于，傳統的創建景深圖的方法，需要至少兩個視點同時捕捉影像。通過兩個不同的視角在同一時間段的變化軌跡，才能拼接重建出3D的影像。

就像下面這樣：

而谷歌的這項研究，只需要用一個視點的影像即可預測位置關系進行重建，比傳統方法簡化了不是一星半點，變成了下面這樣：

在論文Learning the Depths of Moving People by Watching Frozen People中，研究人員介紹了具體的設計細節。

和傳統方法最大的改進在于，谷歌的新方法可以用深度學習，從數據中學習人體姿態和形狀的先驗知識，避開了直接的3D三角測量（3D triangulation）。

這個模型應該如何去構建？

如何獲取訓練數據是擺在前面的第一個問題，在這個數據集中，需要移動的攝像機拍攝的自然場景視頻，以及精確的深度圖。這樣的數據集，似乎在谷歌家族產品中就能找到。

研究人員選取了YouTube上關于#假人挑戰#(Mannequin Challenge)話題的數據，在這種類型的視頻中，被拍攝者需做出一個定格動作，且要表現與人體模型一樣靜止不動，并由攝影師透過移動鏡頭的技巧進行拍攝：

有了這些數據，再利用多視角立體（ Multi-View Stereo，MVS）算法，就可以獲取到包含其中人物在內整個場景的深度圖了。

△?合成景深圖流程

搞定數據集后，第二個問題來了，如何能在人物和攝像機同時移動的情況下構建景深圖呢？

此前，谷歌在展示過在Pixel 3手機中，通過單目攝像頭確定景深圖的研究。但在這個項目中，只有手機鏡頭在動，被拍攝的人靜止。

但這個研究的難度顯然升級了。

研究人員針對視頻中的單個幀，單獨進行深度推斷。他們計算了視頻中每一幀和其他幀之間的2D光流（2D optical flow），用來表示兩幀之間的像素位移。

為了在測試時處理移動的人物，他們采用了人像分割網絡（ human-segmentation network）來掩蓋初始深度圖中的人類區域。整個網路的完整輸入包括：

RGB圖像
人物mask
來自視差的mask深度圖

此外，通過學習人類姿態和人體形狀的先驗，研究人員細化了景深圖中各種細節。

經過大量訓練后，這個模型可以處理任意相機位置和人體運動的自然視頻。

研究人員將這個新模型與此前DORN DeMoN等類似算法進行了測評對比，結果如下：

此外，除了合成景深圖，這個新模型還能應用到將合成的CG對象插入到視頻場景中。

結果顯示，即使晃動攝像機改變其位置，也能用視頻其他幀的像素填充人物后面的背景區域。

傳送門

谷歌官方博客：

https://ai.googleblog.com/2019/05/moving-camera-moving-people-deep.html

論文地址：

https://arxiv.org/abs/1904.11111

—?完?—

誠摯招聘

量子位正在招募編輯/記者，工作地點在北京中關村。期待有才氣、有熱情的同學加入我們！相關細節，請在量子位公眾號(QbitAI)對話界面，回復“招聘”兩個字。

量子位 QbitAI · 頭條號簽約作者

?’?’ ? 追蹤AI技術和產品新動態

計算機視覺谷歌

安妮

谷歌預測景深新研究：即使相機人物都在動，單一視點也能合成3D深度圖

相關閱讀

石頭、剪刀、布！10分鐘帶你打開深度學習大門，代碼已開源

找不出破綻！斯坦福等新研究：隨意輸入文本，改變視頻人物對白，逼真到讓作者害怕

用A4紙當屏幕「播放」宮崎駿動畫，隨意抖動都毫無破綻

我們從2021谷歌I/O大會給的謎題中發現了隱藏信息

谷歌量子計算突破登Nature封面，200秒頂超算10000年，川普之女：美國實現量子霸權

核能版“水變油”登上Nature！谷歌7千萬押注，MIT參與，爭風水車

熱門文章

能講“悄悄話”的智能助理，瑞聲科技助力夸克AI眼鏡S1開創語音交互新范式

商湯分拆了一家AI醫療公司，半年融資10億，劍指“醫療世界模型”

前端沒死，AI APP正在返祖

寧德時代給9萬+基層員工漲了薪！每月150元

云計算一哥10分鐘發了25個新品！Kimi和MiniMax首次上桌

谷歌預測景深新研究：即使相機人物都在動，單一視點也能合成3D深度圖

相關閱讀

石頭、剪刀、布！10分鐘帶你打開深度學習大門，代碼已開源

找不出破綻！斯坦福等新研究：隨意輸入文本，改變視頻人物對白，逼真到讓作者害怕

用A4紙當屏幕「播放」宮崎駿動畫，隨意抖動都毫無破綻

我們從2021谷歌I/O大會給的謎題中發現了隱藏信息

谷歌量子計算突破登Nature封面，200秒頂超算10000年，川普之女：美國實現量子霸權

核能版“水變油”登上Nature！谷歌7千萬押注，MIT參與，爭風水車

熱門文章

能講“悄悄話”的智能助理，瑞聲科技助力夸克AI眼鏡S1開創 語音交互新范式

商湯分拆了一家AI醫療公司，半年融資10億，劍指“醫療世界模型”

前端沒死，AI APP正在返祖

寧德時代給9萬+基層員工漲了薪！每月150元

云計算一哥10分鐘發了25個新品！Kimi和MiniMax首次上桌

能講“悄悄話”的智能助理，瑞聲科技助力夸克AI眼鏡S1開創語音交互新范式