博士答辯人沒來,導師還能贊不絕口!上海交大ACM校友實力演繹學以致用
把自己的博士論文答辯會變成了3D版
邊策 蕭簫 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
疫情之下,我們已經看慣了線上的一切:云畢業典禮、云學術會議、云發布會。
但這些“云”終究讓人感覺沒“內味”。
因為沒有身后的PPT投影、手舞足蹈的演講,終歸都是沒有靈魂的!
所以,上海交大ACM班校友、南加州大學在讀博士黃锃用專業知識,給自己辦了場特殊的博士論文答辯。
他只有一個攝像頭,家里沒有投影儀,卻把自己的答辯會辦得像在禮堂演講一樣。
演講人從2D變成3D,臥室背后的白墻也變成自己展示論文PPT的幕布。
右上角就是真實的黃锃同學,他一邊演講,電腦實時把他變成3D模型投影到場景中,導師們看到這一幕不禁笑了,隨手就是一個轉發。
在黃锃同學的主頁上,我們發現了他的學弟李瑞龍早就開始“整活”,驗證了3D論文答辯的可行性。
現在黃锃同學的這項研究已經被ECCV 2020收錄。
背后的技術
黃锃過去就一直從事3D圖像重建的研究工作,去年他參與的一項研究PIFu(像素對齊隱式函數)可以從單張圖片重建完全紋理的3D人體圖像。
但是因為PIFu對硬件的要求很高,導致該技術并不能用于實時的圖像重建。
為此,黃锃和團隊里的李瑞龍、修宇亮等一起提出了一種新穎的分層表面定位算法,和一種無需顯式提取表面網格的直接渲染方法。
通過從粗到細的方式選擇不必要的區域進行評估,成功地將3D重建速度提高了兩個數量級,同時沒有降低質量。
結果證明,這種從單攝像頭實時重建3D視頻的方法,處理速度可達15fps,3D空間分辨率為2563。
為了減少實時3D重建所需的計算量,作者引入了兩種新穎的加速技術:基于八叉樹的魯棒表面定位、無網格渲染。
由于算法流水線的主要瓶頸,是要在過多的3D位置上進行估計,因此,減少要估計的點數將大大提高性能。
八叉樹是用于有效形狀重構的通用數據表示,它可以分層減少存儲數據的節點數量。
作者提出的這種表面定位算法,保留了原來靠蠻力重建的準確性,而且復雜度與基于樸素八叉樹的重建算法相同。
此外,作者通過直接從PIFu生成的視圖渲染,來繞過顯式網格重建階段。下圖展示了無網格渲染算法的原理,虛線和實線分別表示真實表面和重建表面。
結合這兩種算法,可以實時從任意角度快速渲染3D圖像。
該算法還面臨一個問題,那就是有些特殊的姿勢和視角很難恢復,因為它們只在訓練數據集中占據很小的一部分。
一般的方法是進行數據擴展,但是對于這種3D數據來作擴增是很困難的。
然而,之前的研究證明,改變數據采樣分布會直接影響重建的質量,于是作者找到了一種解決訓練數據偏差的方法OHEM。
其關鍵思想,是讓網絡自動發現困難的樣本,自適應地更改采樣概率。
最后,作者的方法在沒有任何超參數的情況下實現了最快加速,在保持原始重建精度的同時,處理速度從30秒減少到0.14秒。
與無網格渲染技術相結合后,處理一幀圖像的時間只需0.06秒。系統的總體延遲平均為0.25秒。
這種方法不需要搭建搭建具有多個視角攝像頭的工作室,讓普通人也能用上實時的3D演講視頻。
作者指出,本文的主要貢獻點在于:
1、從單眼視頻中實時生成3D全身視頻,可以在各種姿勢和服裝類型下構造出完全紋理的衣服,而不受拓撲約束。
2、提出一種漸進式表面定位算法,可使表面重建比基線快兩個數量級,而且不會影響重建精度,在速度和正確性之間做了很好的取舍。
3、提出無需明確提取表面網格即可直接用于視圖合成的渲染技術,進一步提高了整體性能。
4、提出一種有效的訓練技術,可解決合成生成的訓練數據不平衡問題。
和全息投影相比?
乍一看投影效果,是不是想到了馬云今年在人工智能大會上,利用商湯全息投影完成的演講?
△ 來源于微博@澎湃新聞
雖然也是將人的影響投影到另一處場景中,不過二者的性質完全不同。
全息投影成像的原理,是利用光的干涉和衍射,再現出物體真實的三維圖像記錄。
而這次的虛擬答辯效果,實際上是利用AI將攝像頭拍到的2D人物圖像,轉換成3D的效果。
也就是說,二者無論是從原理、還是從設備需求來說都不一樣。
不僅如此,應用的場景也有所不同。
全息投影更側重于真實場景下「互動」的效果,也就是說,你在線下場景中,可以與一個投影出的3D版「真人」互動、或是聽一場3D全息投影的演唱會等。
但這次的虛擬3D生成技術,則是側重于在電子設備上將2D圖像視頻模擬出3D效果。
無論是單薄的2D視頻、還是無法利用視頻呈現的2D照片,利用這項技術都可以還原出仿真的人物形象。
也就是說,一臺攝像機拍出來的普通2D效果,利用這項技術就能轉換成效果斐然的3D圖像。
關于作者
用這項技術答辯的黃锃,本科畢業于上海交通大學ACM班。而這項實時技術的主要貢獻,則來自他合作的兩位學弟。
這篇論文的兩個同等貢獻的第一作者,分別是兩位黃锃的博士一年級學弟李瑞龍、修宇亮。
李瑞龍畢業于清華基礎科學班,在清華獲得了物理和數學學士學位,以及計算機科學碩士學位。
修宇亮則畢業山東大學軟件工程學院數字媒體技術專業,本科期間他還是專業第一,之后進入上海交大獲得計算機碩士學位。
至于黃锃自己,他在高中時就曾獲得全國中學生物理奧賽金牌,進入上海交大ACM班就讀后,本科四年均獲獎學金,還順便在數學建模美賽(MCM)上拿了個一等獎。
本科期間,黃锃曾在微軟亞洲研究院實習,師從首席研究員曾文軍,參與機器學習、深度神經網絡相關的科研課題中。
△ 曾文軍,圖源:微軟亞洲研究院
也是在這里,他開始深入地認識和掌握深度學習的核心概念和技巧,也開始認真思考機器學習的現狀和發展。
李瑞龍、修宇亮、黃锃均師從計算機圖形學領域有名的黎顥教授,主要研究方向是結合幾何處理和深度學習的虛擬人體重建。
△ 黎顥
博士期間,黃锃曾在Facebook實習,共有9篇論文發表在論文頂會上,其中SIGGRAPH 1篇,ECCV 2篇,CVPR 2篇,ICCV 3篇,ICLR 1篇。
黃锃最近的一項研究ARCH,則發表在CVPR 2020上,這項研究主要是關于穿著衣服人的3D可動畫化重構。
而黃锃最「出圈」的研究,是一項名為PIFu的2D圖像轉3D技術,在國外的社交媒體上被網友拿來模擬了各種2D物體圖像。
有日本網友利用PIFu的技術,將照片上的奧黛麗·赫本和坂本龍馬「請」到了自己的家里。
3D的效果還是很不錯的。(就是,黑白的圖像看起來略有點陰森…)
論文地址:
https://arxiv.org/abs/2007.13988
視頻介紹:
https://www.bilibili.com/video/av753971174/
黃锃個人主頁:
https://zeng.science/
— 完 —
量子位 QbitAI · 頭條號簽約
關注我們,第一時間獲知前沿科技動態
- 腦機接口走向現實,11張PPT看懂中國腦機接口產業現狀|量子位智庫2021-08-10
- 張朝陽開課手推E=mc2,李永樂現場狂做筆記2022-03-11
- 阿里數學競賽可以報名了!獎金增加到400萬元,題目面向大眾公開征集2022-03-14
- 英偉達遭黑客最后通牒:今天必須開源GPU驅動,否則公布1TB機密數據2022-03-05




