紙質說明書秒變3D動畫,斯坦福大學吳佳俊最新研究,入選ECCV 2022
樂高發燒友看過來
羿閣 發自 凹非寺
量子位 | 公眾號 QbitAI
有沒有空間感差的小伙伴,每次拿到樂高說明書都不知如何下手?
這回,可以動的樂高說明書來了!
清華姚班校友、斯坦福大學助理教授吳佳俊,帶領團隊研發了一項能把紙上的說明書轉化為3D動畫的技術,目前該論文已入選2022年計算機視覺頂會ECCV。
看完效果圖,有網友直呼:這對所有年齡段的樂高愛好者都大有幫助!
3D動畫說明書
盡管樂高的說明書都是由專業設計師編寫的,但對于想象力差的人,不得不說,還是3D動畫更香。
這一步轉化看上去容易,其實背后隱藏著兩個技術上的難題。
第一個難題是如何將紙上的2D圖像投影成3D動畫。
研究團隊要做的,是將任務分解為一系列可以順利、高效執行的短步驟,通過建立一個模型,將說明書上的圖像轉換為機器可解釋的算法,以簡化機器學習的任務。
正如上圖所示,要想把圖a轉化為圖c,需要提取說明書中的每一個零件的圖像位置,以便搭建最終的成品。
研究面對的第二個挑戰是,樂高積木的形狀實在是太多變了。
雖然很多基礎配件形狀差不多,但就像圖中的吉他頭一樣,樂高也有不少靈活又復雜的配件。而且,這些配件可能產生的不同組合也大大增加了機器解讀的難度:每一個搭建步驟都會形成一個新的不可知的圖像。
為了解決這兩個挑戰,研究團隊提出了一種新的基于機器學習的框架:手動執行計劃網絡(manual-To-executable-Plan Network, MEPNet)。
其核心思想是將基于神經網絡的二維關鍵點檢測方法與2D-3D匹配算法相結合,實現對不可見的3D對象的高精度預測。
MEPNet的運行有兩個階段。第一階段要做的,是將基礎形狀和新零件的3D模型、目標形狀的2D圖像作為輸入信息,為每個零件預測一組2D關鍵點、旋轉角度和掩碼。
在第二階段中,通過尋找基礎形狀和新零件之間的可能聯系,再將第一階段預測的2D關鍵點反向投影到3D圖像中。
值得一提的是,這個方法在訓練時不需要任何ground truth圖像。
另外,MEPNet的數據集表現優于其他現有方法。與基于端到端的學習方法相比,MEPNet保持了基于機器學習的模型效率,并可以被更好地推廣到生成未知的3D對象上。
最值得注意的是,MEPNet能夠利用合成數據進行單獨訓練,從而應用到真實的生活場景中。
目前,所有代碼和數據已開源,感興趣的小伙伴可以關注一下。
作者介紹
該篇論文來自斯坦福大學吳佳俊團隊。作者還包括:Ruocheng Wang、Yunzhi Zhang,麻省理工大學的Jiayuan Mao以及Autodesk AI Lab的Chin-Yi Cheng。
吳佳俊,現任斯坦福大學助理教授,隸屬于斯坦福視覺與學習實驗室 (SVL)和斯坦福人工智能實驗室 (SAIL)。在麻省理工學院完成博士學位,本科畢業于清華大學姚班,曾被譽為“清華十大學神之一”。
論文第一作者Ruocheng Wang,碩士畢業于斯坦福大學計算機科學專業,是吳佳俊門下的學生。本科畢業于浙江大學計算機專業,還在加州大學洛杉磯分校與Adnan Darwiche教授一起工作過一段時間。
One More Thing
雖然整篇論文都在以樂高為例,但作者也在論文中提到,其實這項技術還能應用到其他類型的組裝說明書上。
好多“苦安裝久矣”的網友就號召趕緊推出宜家版:
不過,在一片歡呼聲中,也有網友提出了不同的聲音:
我不知道這是驚喜還是毀了我玩樂高的樂趣。
對此,你怎么看?你是喜歡看著說明書拼樂高,還是自己發揮呢?
參考鏈接:
[1]https://cs.stanford.edu/~rcwang/projects/lego_manual/
[2]https://twitter.com/_akhaliq/status/1552118469214314496
[3]https://arxiv.org/abs/2207.12572
[4]https://jiajunwu.com/
- 北大開源最強aiXcoder-7B代碼大模型!聚焦真實開發場景,專為企業私有部署設計2024-04-09
- 剛剛,圖靈獎揭曉!史上首位數學和計算機最高獎“雙料王”出現了2024-04-10
- 8.3K Stars!《多模態大語言模型綜述》重大升級2024-04-10
- 谷歌最強大模型免費開放了!長音頻理解功能獨一份,100萬上下文敞開用2024-04-10



