DeepMind提出新型神經網絡架構,用無監督方法從視頻中提取關鍵點 | 論文
用無監督的方法和寥寥數據,就能提取出關鍵點,在沒有獎勵的情況下,還能進行有效操控
銅靈 發自 凹非寺
量子位 出品 | 公眾號 QbitAI
提取關鍵點此前被視為需要大量數據才能完成的工作,但DeepMind的一項最新研究可不這么認為。
DeepMind的新模型Transporter從原始視頻幀中學習以物體為中心的抽象表示,并能用簡單的算法生成控制策略和探索程序。
也就是說,用無監督的方法和寥寥數據,就能提取出關鍵點,在沒有獎勵的情況下,還能進行有效操控。
效果如下:
軟件工程師@AwokeKnowing表示,DeepMind最后還嚴謹地討論了研究的局限性,但這項在無監督、沒有硬工程特征(hard-engineered features)環境下的研究,確實是一項開創性的研究。
新型Transporter架構
在論文Unsupervised Learning of Object Keypoints for Perception and Control中,研究人員提出了一種名為Transporter的新型神經網絡架構,可跨各種常用的強化學習環境學習物體關鍵點的狀態。
Transporter的架構如下:
研究人員在論文中表示,這個模型通過利用物體的運動來發現關鍵點,將原視頻幀(xt)轉換成另一個目標幀(xt’)。
這個學習過程分為三個階段。
在訓練期間,空間特征圖Φ(xt)和Φ(xt’ )以及關鍵點坐標Ψ(xt) 和Ψ(xt’) 利用卷積神經網絡和斯坦福此前提出的PointNet進行幀的預測,再次過程中,關鍵點的坐標被轉換成高斯熱力圖(Gaussian heatmaps) HΨ(xt) 和HΨ(xt’)。
在transport期間,這個網絡執行兩種操作:
一是原幀的特征在HΨ(xt)和HΨ(xt’)中被設置成了0,二是在源目標圖像中的特征位置HΨ(xt’)被替換成了HΨ(xt)。
在最后的改進階段,研究人員又完成了兩個任務,分別是在原位置繪制缺失的特征,和清理目標位置附近的圖像。
研究人員將這些提取的關鍵點進行了可視化,并與T. Jakab和Y. Zhang等人此前的最先進關鍵點提取方法進行了效果對比:
T. Jakab等人研究:Unsupervised learning of object landmarks through conditional image generation.
地址:http://sina.lt/guuH
Y. Zhang等人研究:Unsupervised discovery of object landmarks as structural representations
地址:https://arxiv.org/abs/1804.04412
研究人員發現,Transporter學習了更多的空間對齊關鍵點,對不同數量、大小和運動的物體都有很強的魯棒性。
使用學習的關鍵點作為狀態輸入,可在幾種雅達利環境中實現比最先進的強化學習方法更好的策略,但只需要100k的環境交互。
DeepMind團隊
這項研究來自DeepMind的Tejas Kulkarni, Ankush Gupta, Catalin Ionescu, Sebastian Borgeaud, Malcolm Reynolds,Andrew Zisserman和Volodymyr Mnih。
一作Tejas Kulkarni目前是DeepMind的高級研究科學家,此前在MIT攻讀博士,主要研究視覺運動、深度強化學習代理、以及智能體的語言。
多篇論文被CVPR 17、NIPS 17、ICML 18等頂會收錄。
傳送門
Unsupervised Learning of Object Keypoints for Perception and Control
https://arxiv.org/abs/1906.11883
https://twitter.com/deepmindai/status/1145677732115898368?s=21
— 完 —
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復“招聘”兩個字。
量子位 QbitAI · 頭條號簽約作者
?’?’ ? 追蹤AI技術和產品新動態
- 微軟公布19財年財報:凈利潤增長22%,云計算首超個人計算業務2019-07-19
- 騰訊云推出物聯網邊緣計算平臺,具備五大特點,想攻克物聯網落地難題2019-08-28
- DeepMind醫療業務幾經動蕩,現在團隊并入Google2019-09-20
- 首例基因編輯干細胞治療艾滋?。罕贝筻嚭昕齾⑴c,達最佳治療效果2019-09-14



