入圍CVPR最佳論文,這項AI基礎研究讓我們對虎牙刮目相看
AI正在變革視頻行業,玩法越來越豐富。
曉查 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
AI正在變革視頻行業,玩法越來越豐富。
近年來,越來越多的AI技術開始應用到視頻網站中:
從簡單的圖像和行為識別,可以像文字搜索一樣搜索圖像,還能后期“無中生有”各種各樣的效果。
到視頻直播實時特效,美白塑形長腿,都能實時完成。最終還有完成換臉。
去年熱門的“語義分割”技術讓實時彈幕不再擋住主播的臉。
或許你也會問,AI對視頻的變革,下一步會從何種維度展開?
CVPR上的眾多新研究,“異口同聲”的主題應該可以給你答案:這就是“行為預測”方向。
其中最典型的的是,今年上半年李飛飛團隊發表的一篇論文,當時引起不小的轟動。
光流法可以作為行為預測的一種方法。
而在不久前結束的CVPR上,中國互聯網公司虎牙,也是在這一領域提交了新論文《SelFlow: Self-Supervised Learning of Optical Flow》,在光流法的問題上取得了開創性的突破。
虎牙這篇論文從CVPR 2019接收的1294篇論文中脫穎而出,入選了今年的最佳論文決賽(Best Paper Finalists)。
虎牙這項研究在為何能在受到CVPR論文評審們的青睞?
首先要從光流說起。
光流
什么是光流(Optical Flow)?所謂光流是空間運動物體在觀察成像平面上的像素運動的瞬時速度。
根據物體在相鄰兩幀上的位置的變化可以計算光流。
通俗地說,光流場反映了圖像里每個像素點的運動趨勢,可以看做是各個像素點的運動矢量場,它包含了圖像中物體運動速度的大小和方向。
光流在物體軌跡跟蹤、3D重建、自動駕駛等場景中都有著廣泛的應用。
光流法是利用圖像序列中像素在時間域上的變化以及相鄰幀之間的相關性來找到上一幀跟當前幀之間存在的對應關系,從而計算出相鄰幀之間物體的運動信息的一種方法。
可以說,光流包含著運動圖像中最基本的信息。而往往越是基礎的研究越是有著廣泛的應用。
廣泛的應用場景
光流這個上世紀40年代提出的概念,目前在在圖像視頻處理、計算機視覺的許多問題上都發揮著重要的作用。
光流的應用包括不僅能推斷的物體的運動狀態,還能預測物體的結構和場景環境等。因此,光流法可以用于自動駕駛、軌跡跟蹤、3D結構重建、運動檢測、圖像分割等方面。
另外,光流的概念最早是由一位心理學家提出,它是人類對運動和環境結構認知的心理過程,是人類視覺的關鍵組成部分。因此研究光流可以學習如何將人類的能力轉換為計算機視覺能力,這在機器視覺領域同樣至關重要。
掌握了計算機視覺基礎的“魔法”,就能在AI產品落地中玩出更多花樣,在直播中加入更多的AI。
比如用光流預測直播畫面中人物的行為,在某些有害的信息出現前就及時做出預防;用3D結構重建實現更低成本的VR直播,等等。
業界領先
既然光流的用處這么大,于是來自虎牙的AI研究團隊提出了一個大膽的想法:用卷積神經網絡(CNN)預測被遮擋像素的光流。
來自虎牙的AI研究員、也是這篇論文的第一作者劉鵬鵬說:這是光流研究歷史上第一次不使用額外仿真數據達到的最高準確度。而且實驗結果提交了半年以上,仍然在Sintel測試數據集上排名第一,至今未被打破。
本屆CVPR的論文提交數量為5265篇有效投稿,比去年增加56%,但接收率為卻比去年下降了3.9%,入選難度逐年上升。
計算機視覺近年來的大熱,讓基礎型研究在一眾論文中顯得尤為難能可貴。這篇文章能夠入選CVPR 2019最佳論文決賽也凸現了虎牙在AI基礎領域研究的能力。
原理簡介
雖然CNN在圖像分類、目標識別等問題上取得了巨大成功,用它來預測圖像的光流可以實時運行并且具有高性能,但是它也存在著諸多問題。
首先,如果使用監督學習的方法,那么CNN需要大量的標記數據,而包含光流的圖像數據很難獲得,最后不得不依賴仿真數據。
其次,如果使用無監督學習的方法,那么被遮擋像素的預測結果往往不佳,和不被遮擋的像素存在著較大的性能差距。
這是由于當前無監督的學習方法基本都是基于亮度一致性假設,通過image warping的方式,基于估計的光流warp第二張圖片來重構第一張圖片,然后比較第一張圖片跟warp后的第二張圖片的亮度差異。
這種方法可以比較準確地估計沒有被遮擋像素的光流,但是對于被遮擋像素的光流估計卻無能為力,因此對于被遮擋的像素,亮度不變假設不再成立。
如何在不使用任何標注數據的情況下預測被遮擋像素的光流呢?
虎牙提出了一種自監督學習方法從無標記的數據中學習光流。這種方法從無遮擋像素中提取可靠的光流估計,并使用這些預測來學習被遮擋像素的光流。
然后,研究人員用人為制造遮擋的方法造出新的被遮擋像素數據,利用之前已經學習到的沒有被遮擋像素的光流作為監督數據,去指導神經網絡學習被遮擋像素的光流。
這種自監督學習框架在MPI Sintel,KITTI 2012和KITTI 2015數據集上取得了最優的無監督效果。
更重要的是,這種無監督學習方法得到的模型為有監督學習提供了很好的初始化,消除了對仿真數據的依賴,經過有監督微調,在多個數據集上取得了最優性能。
展望
光流法在計算機視覺領域的有著非常基礎的應用。虎牙這次發表的基礎研究問題,解決了光流法在過去應用中的一些根本難題,實驗結果達到了目前業界最先進的水平,乃至在半年多的時間里沒有對手能超越。
虎牙的這項研究未來不僅對直播行業的產生重大影響,提高網絡直播的AI含金量,還能在自動駕駛等熱門AI領域發揮重要作用。
虎牙今后是不是會用手中的AI技術去參與更多的跨界行動?我們不敢妄加猜測,但至少虎牙已經在CVPR中讓我們刮目相看了。
- 腦機接口走向現實,11張PPT看懂中國腦機接口產業現狀|量子位智庫2021-08-10
- 張朝陽開課手推E=mc2,李永樂現場狂做筆記2022-03-11
- 阿里數學競賽可以報名了!獎金增加到400萬元,題目面向大眾公開征集2022-03-14
- 英偉達遭黑客最后通牒:今天必須開源GPU驅動,否則公布1TB機密數據2022-03-05



