識(shí)別迷霧中的物體,谷歌提出最新目標(biāo)檢測(cè)算法Context R-CNN
將開放API和源代碼
曉查 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
你能從下面的照片里看到什么嗎?
呃,看起來像清晨的濃霧,但濃霧后面是什么,真的看不清楚。其實(shí)這是一群牛羚在山上行走。
雖然人眼已經(jīng)無能為力,但是谷歌最新的目標(biāo)檢測(cè)模型可以識(shí)別!
谷歌提出了一種目標(biāo)檢測(cè)的新方法Context R-CNN,簡(jiǎn)單地說,就是利用攝像頭長時(shí)間的拍攝內(nèi)容,推理出模糊畫面里的目標(biāo)。這種模型的性能優(yōu)于單幀F(xiàn)aster R-CNN。
這種新的對(duì)象檢測(cè)體系結(jié)構(gòu)利用網(wǎng)絡(luò)中每個(gè)攝像機(jī)在整個(gè)時(shí)間范圍內(nèi)的上下文線索,無需依賴大量攝像機(jī)的額外訓(xùn)練數(shù)據(jù),即可提高對(duì)目標(biāo)的識(shí)別能力。
而且谷歌表示此模型將作為TensorFlow目標(biāo)檢測(cè)API的一部分開放給用戶,簡(jiǎn)化在數(shù)據(jù)集上訓(xùn)練和測(cè)試Context R-CNN模型的過程,另外相關(guān)代碼也已經(jīng)開源。
原理
Context R-CNN它是對(duì)兩階段目標(biāo)檢測(cè)模型Faster R-CNN的改進(jìn),利用靜態(tài)相機(jī)拍攝的圖像內(nèi)的高度相關(guān)性,以提高具有挑戰(zhàn)性的數(shù)據(jù)的性能,并改進(jìn)對(duì)新相機(jī)部署的通用性,無需額外的人工數(shù)據(jù)標(biāo)記。
首先,Context R-CNN使用凍結(jié)的特征提取器來建立時(shí)間跨度較長的上下文存儲(chǔ)庫。由于這項(xiàng)技術(shù)最初用于野生動(dòng)物的監(jiān)測(cè),時(shí)間跨度甚至能長達(dá)一個(gè)月。
接下來,在每個(gè)單幀圖像中檢測(cè)對(duì)象,R-CNN從內(nèi)存庫中聚合相關(guān)上下文,在具有挑戰(zhàn)性的條件下(如前文的大霧中)檢測(cè)對(duì)象。
在這個(gè)過程中,Context R-CNN使用注意力進(jìn)行聚合,這對(duì)于靜態(tài)監(jiān)視攝像機(jī)中經(jīng)常出現(xiàn)的稀疏和不規(guī)則采樣率具有魯棒性。
Context R-CNN從Faster R-CNN的第一階段中獲取建議的對(duì)象,并且對(duì)于每個(gè)對(duì)象,都使用基于相似性的注意力來確定內(nèi)存庫M中的每個(gè)特征與當(dāng)前特征的相關(guān)性,并通過在內(nèi)存庫M上取相關(guān)性加權(quán)總和,并將其加回到原始目標(biāo)特征上,來構(gòu)造每個(gè)目標(biāo)的上下文特征。
△ 圖中綠色值是每個(gè)目標(biāo)的相應(yīng)注意力權(quán)重
然后,F(xiàn)aster R-CNN的第二階段對(duì)已添加了上下文信息的每個(gè)對(duì)象進(jìn)行最終分類。
實(shí)驗(yàn)結(jié)果
Context R-CNN的實(shí)際應(yīng)用效果如何,作者在Snapshot Serengeti(SS)和Caltech Camera Traps(CCT)兩個(gè)野生動(dòng)物數(shù)據(jù)集上進(jìn)行了測(cè)試。
現(xiàn)在,讓我們一起來找找圖片中的大象、羚羊和猴子吧。
你找到圖片里所有的動(dòng)物了嗎?不僅是你,連Faster R-CNN也無法找全,而Context R-CNN不僅能發(fā)現(xiàn)濃霧、夜色里的動(dòng)物,即使是動(dòng)物被樹木遮擋了一部分也能發(fā)現(xiàn)。
Context R-CNN在數(shù)據(jù)上的提升也相當(dāng)明顯。
上表列出了每個(gè)數(shù)據(jù)集上相比Faster R-CNN的改進(jìn)。在SS上的平均精度(mAP)相對(duì)提高了47.5%,而CCT上的mAP則相對(duì)提高了34.3%。
顯然,Context R-CNN發(fā)現(xiàn)目標(biāo)的性能會(huì)隨著時(shí)間范圍的增加而增加。
博客地址:
https://ai.googleblog.com/2020/06/leveraging-temporal-context-for-object.html
論文地址:
https://arxiv.org/abs/1912.03538




