ICCV 2019接收論文提前看,曠視11篇入選文章放出 | 資源
魚羊 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號 QbitAI
ICCV 2019最終論文接收結(jié)果終于全部公布,這一次,一共有1077篇論文被接收,接受率為25%。
ICCV的全稱是 IEEE International Conference on Computer Vision,即國際計(jì)算機(jī)視覺大會,由IEEE主辦,與計(jì)算機(jī)視覺模式識別會議(CVPR)和歐洲計(jì)算機(jī)視覺會議(ECCV)并稱計(jì)算機(jī)視覺方向的三大頂會。
ICCV每兩年才召開一次,以論文錄用率低著稱,是三大會議中公認(rèn)級別最高的。
這一屆ICCV將于10月27日至11月2日在韓國首爾COEX會議中心舉行。
此番,AI獨(dú)角獸曠視有11篇論文入選,從文本到繪畫,從數(shù)據(jù)集到新模型,內(nèi)容可謂相當(dāng)豐富。快跟量子位一起來學(xué)習(xí)一下吧~
論文介紹
1、論文名稱:Objects365: A Large-scale, High-quality Dataset for Object Detection
論文鏈接:暫無
開源鏈接:https://www.objects365.org/overview.html
關(guān)鍵詞:物體檢測、數(shù)據(jù)集
摘要:
在本文中,我們介紹了一個(gè)新的大型物體檢測數(shù)據(jù)集Objects365,它有超過60萬張圖片,365個(gè)類別,超過1000萬個(gè)高質(zhì)量的邊界框。由精心設(shè)計(jì)的三步注釋管道手動(dòng)標(biāo)記,它是迄今為止最大的物體檢測數(shù)據(jù)集(帶有完整注釋),并為社區(qū)建立了更具挑戰(zhàn)性的基準(zhǔn)。
Objects365可以作為更好的特征學(xué)習(xí)數(shù)據(jù)集,用于目標(biāo)檢測和分割等定位敏感任務(wù)。
Objects365預(yù)訓(xùn)練模型明顯優(yōu)于ImageNet預(yù)訓(xùn)練模型:在COCO上訓(xùn)練90K / 540K次迭代時(shí)AP提高了5.6(42 vs 36.4)/ 2.7(42 vs 39.3)。同時(shí),當(dāng)達(dá)到相同的精度時(shí),fine-tune時(shí)間可以大大減少(最多10倍差距)。在CityPersons,VOC Segmentation和ADE中也驗(yàn)證了Object365更好的泛化能力。我們將發(fā)布數(shù)據(jù)集以及所有預(yù)訓(xùn)練的模型。
Objects365是曠視研究院發(fā)布的通用物體檢測數(shù)據(jù)集,研究團(tuán)隊(duì)由曠視科技首席科學(xué)家孫劍帶領(lǐng)。
在此之前,針對Objects365以及之前發(fā)布的大規(guī)模擁擠場景數(shù)據(jù)集CrowdHuman,曠視科技與北京智源人工智能研究院還啟動(dòng)了Detection In the Wild 2019(DIW 2019)挑戰(zhàn)賽,登上2019 CVPR Workshop。
2、論文名稱:ThunderNet: Towards Real-time Generic Object Detection
論文鏈接:https://arxiv.org/abs/1903.11752
關(guān)鍵詞:通用物體檢測
摘要:
在計(jì)算機(jī)視覺領(lǐng)域中,如何在移動(dòng)設(shè)備上實(shí)現(xiàn)實(shí)時(shí)目標(biāo)檢測是一個(gè)非常重要而又十分有挑戰(zhàn)性的任務(wù)。然而,目前基于CNN的目標(biāo)檢測網(wǎng)絡(luò)往往都需要巨大的計(jì)算開銷,導(dǎo)致這些網(wǎng)絡(luò)模型無法在移動(dòng)設(shè)備上進(jìn)行部署應(yīng)用。
在這篇文章中,我們探索了兩階段目標(biāo)檢測模型在移動(dòng)端實(shí)時(shí)目標(biāo)檢測任務(wù)上的有效性,并提出了一種輕量級的兩階段目標(biāo)檢測模型ThunderNet。在骨干網(wǎng)部分,我們分析了之前的輕量級骨干網(wǎng)絡(luò)的缺點(diǎn),并提出了一種針對目標(biāo)檢測任務(wù)設(shè)計(jì)的輕量級骨干網(wǎng)絡(luò)。在檢測網(wǎng)部分,我們采用了極為簡潔的RPN和檢測頭的設(shè)計(jì)。為了產(chǎn)生更有判別性的特征表示,我們設(shè)計(jì)了兩個(gè)網(wǎng)絡(luò)模塊:上下文增強(qiáng)模塊(CEM)和空間注意力模塊(SAM)。最后,我們探討了輕量級目標(biāo)檢測模型的輸入分辨率、骨干網(wǎng)和檢測頭之間計(jì)算開銷的平衡關(guān)系。
與之前的輕量級一階段目標(biāo)檢測模型相比,ThunderNet僅僅需要40%的計(jì)算開銷就可以在Pascal VOC和COCO數(shù)據(jù)集上實(shí)現(xiàn)更好的檢測精度。ThunderNet還在移動(dòng)設(shè)備上實(shí)現(xiàn)了24.1fps的實(shí)時(shí)檢測。據(jù)知,這是在ARM平臺上報(bào)告的第一個(gè)實(shí)時(shí)檢測模型。
論文的共同一作是CS在讀博士Zheng Qin,他曾在曠視實(shí)習(xí)。
另一位是曠視研究院研究員黎澤明。
3、論文名稱:Efficient and Accurate Arbitrary-Shaped Text Detection with Pixel Aggregation Network
論文鏈接:暫無
關(guān)鍵詞:文本檢測
摘要:
場景文本檢測是場景文本閱讀系統(tǒng)的重要一步,隨著卷積神經(jīng)網(wǎng)絡(luò)的快速發(fā)展,場景文字檢測也取得了巨大的進(jìn)步。盡管如此,仍存在兩個(gè)主要挑戰(zhàn),它們阻礙文字檢測部署到現(xiàn)實(shí)世界的應(yīng)用中。
第一個(gè)問題是速度和準(zhǔn)確性之間的平衡。第二個(gè)是對任意形狀的文本實(shí)例進(jìn)行建模。最近,已經(jīng)提出了一些方法來處理任意形狀的文本檢測,但是它們很少去考慮算法的運(yùn)行時(shí)間和效率,這可能在實(shí)際應(yīng)用環(huán)境中受到限制。
在本文中,我們提出了一種高效且準(zhǔn)確的任意形狀文本檢測器,稱為PSENet V2,它配備了低計(jì)算成本的分割模塊和可學(xué)習(xí)的后處理方法。更具體地,分割模塊由特征金字塔增強(qiáng)模塊(FPEM)和特征融合模塊(FFM)組成。FPEM是一個(gè)可級聯(lián)的U形模塊,可以引入多級、信息來指導(dǎo)更好的分割。FFM可以將不同深度的FPEM給出的特征匯合到最終的分割特征中。可學(xué)習(xí)的后處理由像素聚合模塊(PA)實(shí)現(xiàn),其可以通過預(yù)測的相似性向量精確地聚合文本像素。
幾個(gè)標(biāo)準(zhǔn)基準(zhǔn)測試的實(shí)驗(yàn)驗(yàn)證了所提出的PSENet V2的優(yōu)越性。值得注意的是,我們的方法可以在CTW1500上以84.2 FPS實(shí)現(xiàn)79.9%的F-measure。據(jù)我們所知,PSENet V2是第一種能夠?qū)崟r(shí)檢測任意形狀文本實(shí)例的方法。
4、論文名稱:Semi-supervised Skin Detection by Network with Mutual Guidance
論文鏈接:暫無
關(guān)鍵詞:半監(jiān)督學(xué)習(xí)、皮膚分割
摘要:
我們提出一種新的數(shù)據(jù)驅(qū)動(dòng)的皮膚分割方法,可以從單張人像圖中魯棒地算出皮膚區(qū)域。
不像先前的方法,我們利用人體區(qū)域作為弱語義引導(dǎo),考慮到大量人工標(biāo)注的皮膚數(shù)據(jù)非常難以獲得。具體說來,我們提出了一種雙任務(wù)的網(wǎng)絡(luò)通過半監(jiān)督的學(xué)習(xí)策略來聯(lián)合地檢測皮膚和身體。該網(wǎng)絡(luò)包含了一個(gè)共享的編碼器、兩個(gè)獨(dú)立的解碼器分別檢測皮膚和身體。對于任意一個(gè)解碼器,其輸出也扮演著另外一個(gè)解碼器引導(dǎo)的角色。這樣以來,兩個(gè)解碼器實(shí)際上是相互引導(dǎo)。
大量實(shí)驗(yàn)證明了相互引導(dǎo)策略的有效性,并且結(jié)果也顯示該方法在皮膚分割的任務(wù)上比現(xiàn)有方法更好。
5、論文名稱:Semi-Supervised Video Salient Object Detection Using Pseudo-Labels
論文鏈接:暫無
關(guān)鍵詞:半監(jiān)督學(xué)習(xí)、視頻檢測
摘要:
基于深度學(xué)習(xí)的視頻重點(diǎn)區(qū)域檢測已經(jīng)超過了大量無監(jiān)督的方法。但該方法依賴大量人工標(biāo)注的數(shù)據(jù)。
在本文中,我們利用偽標(biāo)簽來解決半監(jiān)督的視頻重點(diǎn)區(qū)域檢測問題。具體說來,我們提出了一個(gè)視頻重點(diǎn)區(qū)域檢測器,其包含了一個(gè)空間信息改良網(wǎng)絡(luò)和一個(gè)時(shí)空模塊。基于這樣的結(jié)構(gòu)以及光流,我們提出了一個(gè)從稀疏標(biāo)注的幀中生成像素級偽標(biāo)簽的方法。利用生成的偽標(biāo)簽以及部分人工標(biāo)注,我們的檢測器學(xué)習(xí)到了時(shí)空中對比度和幀間一致性的線索,從而得到了準(zhǔn)確的重點(diǎn)區(qū)域。
實(shí)驗(yàn)證明了本方法在多個(gè)數(shù)據(jù)集上大幅度超過了現(xiàn)有的全監(jiān)督的方法。
6、論文名稱:Disentangled Image Matting
論文鏈接:暫無
關(guān)鍵詞:圖像去背
摘要:
我們提出了圖像去背 (Image Matting) 問題的一種全新框架。多數(shù)之前的圖像去背算法根據(jù)輸入三分圖 (trimap) 在圖像的指定區(qū)域中計(jì)算阿法值 (alpha)。對于被劃入三分圖待確認(rèn) (unknown) 區(qū)域中的完全背景和前景像素,這些方法期望精確地產(chǎn)生 0 和 1 的阿法值。
本文指出,之前解法實(shí)際上將兩個(gè)不同的問題混在了一起:1. 區(qū)分待確認(rèn)區(qū)域中的前景、背景和混合像素; 2. 為混合像素精確地計(jì)算阿法值。其中我們稱第一個(gè)任務(wù)被稱為三分圖調(diào)整 (Trimap Adaptation),第二個(gè)任務(wù)為阿法值估計(jì) (Alpha Estimation)。其中三分圖調(diào)整是典型的分類問題,阿法值估計(jì)是典型的回歸問題,本文提出的端到端的 AdaMatting 框架,通過使用多任務(wù)學(xué)習(xí) (Multi-task Learning) 的方式分開解決這兩個(gè)問題,在多個(gè)圖像數(shù)據(jù)集上的所有常用指標(biāo)中取得了目前最佳的結(jié)果。
7、論文名稱:Re-ID Driven Localization Refinement for Person Search
論文鏈接:暫無
關(guān)鍵詞:行人搜索
摘要:
在很多應(yīng)用中,檢測器作為上游任務(wù),其結(jié)果直接影響下游任務(wù),尤其檢測框的定位精度。目前的主流做法是將檢測器單獨(dú)進(jìn)行訓(xùn)練,而沒有考慮下游任務(wù),因此得到的檢測框?qū)ο掠稳蝿?wù)未必最優(yōu)。
在本文中,我們以行人搜索任務(wù)為例,提出了一種新的優(yōu)化檢測框定位精度的方法,使其更加適合給定任務(wù)。行人搜索旨在從完整的圖片中檢測并識別行人,分為檢測和行人重識別(Re-ID)兩個(gè)任務(wù)。文章提出一種re-ID驅(qū)動(dòng)的定位調(diào)整框架,用re-ID loss對檢測網(wǎng)絡(luò)產(chǎn)生的檢測框進(jìn)行微調(diào)。文章設(shè)計(jì)了一個(gè)可導(dǎo)的ROI轉(zhuǎn)換模塊,能夠根據(jù)檢測框的坐標(biāo)從原圖中crop出對應(yīng)位置圖片,再送入re-ID網(wǎng)絡(luò)。由于整個(gè)過程可導(dǎo),re-ID loss能夠?qū)z測框的坐標(biāo)進(jìn)行監(jiān)督,從而使檢測網(wǎng)絡(luò)能夠生成更適合行人搜索這個(gè)任務(wù)的檢測框。
通過大量的實(shí)驗(yàn)結(jié)果證明,論文的方法多個(gè)數(shù)據(jù)集上取得了當(dāng)前最先進(jìn)的性能。
8、論文名稱:Vehicle Re-identification with Viewpoint-aware Metric Learning
論文鏈接:暫無
關(guān)鍵詞:車輛再識別、度量學(xué)習(xí)
摘要:
在車輛重識別任務(wù)中,極端的視角變化(變化視角可達(dá)180度)給現(xiàn)有的方法帶來了巨大挑戰(zhàn)。
受到人類識別車輛時(shí)認(rèn)知方式的啟發(fā),我們提出了一種基于視角感知的度量學(xué)習(xí)方法。該方法針對相似視角和不同視角,分別在兩個(gè)特征空間學(xué)習(xí)兩種度量標(biāo)準(zhǔn),由此產(chǎn)生了視角感知網(wǎng)絡(luò)(VANet)。在訓(xùn)練過程,我們施加了兩種約束進(jìn)行聯(lián)合訓(xùn)練。在測試過程,我們首先估計(jì)車輛的視角,并基于估計(jì)結(jié)果采用對應(yīng)的度量方式進(jìn)行度量。
實(shí)驗(yàn)結(jié)果證實(shí)了VANet能夠顯著地提高車輛重識別的準(zhǔn)確度,在識別拍攝視角不同的車輛對時(shí)效果更為明顯。我們的方法在兩個(gè)基準(zhǔn)數(shù)據(jù)集上都實(shí)現(xiàn)了目前最好的結(jié)果。
9、論文名稱:MetaPruning: Meta Learning for Automatic Neural Network Channel Pruning
論文鏈接:https://arxiv.org/abs/1903.10258
關(guān)鍵詞:模型壓縮、元學(xué)習(xí)
摘要:
Channel Pruning 是一種有效的模型壓縮方法,我們的方法 MetaPruning 提出了一種新的Pruning思路。
傳統(tǒng)Pruning往往需要人工或基于一些經(jīng)驗(yàn)準(zhǔn)則設(shè)定各層的壓縮比例,然后迭代選擇去除哪些channel,這個(gè)過程較耗時(shí)耗力。MetaPruning,跳過選擇哪個(gè)channel,直接搜索每層保留多少channel。為了既高效又準(zhǔn)確地找到最優(yōu)的每層channel組合,MetaPruning 首先訓(xùn)練一個(gè)PruningNet,用meta-learning預(yù)測各個(gè)可能的裁剪后網(wǎng)絡(luò)(PrunedNet)的精度。借用Network Architecture Search的思想,用進(jìn)化算法搜索最優(yōu)的PrunedNet。PruningNet 直接為PrunedNet預(yù)測了可靠的精度,使得進(jìn)化搜索非常高效。
最后MetaPruning 比MobileNet V1/V2 baseline精度提升高達(dá)9.0%/9.9%。相比于當(dāng)前最優(yōu)的AutoML-based Pruning 方法,MetaPruning也取得了更高的精度。并且MetaPruning非常靈活,可以適用于FLOPs限制下的pruning或者針對特定硬件速度限制的pruning。
這篇論文是香港大學(xué),清華大學(xué),曠視以及華中科技大學(xué)聯(lián)合出品。
論文一作是來自香港大學(xué)的博士Zechun Liu。
10、論文名稱:Symmetry-constrained Rectification Network for Scene Text Recognition
論文鏈接:暫無
關(guān)鍵詞:文字識別
摘要:
由于文字字體、形狀的多樣性以及自然場景的復(fù)雜性,自然場景的文字識別一直是一項(xiàng)十分具有挑戰(zhàn)性的任務(wù)。近些年來,不規(guī)則形狀場景文字的識別問題吸引了越來越多研究者的目光,其中一個(gè)有效且直觀的研究方向,就是對文字區(qū)域進(jìn)行識別前的矯正,即在識別之前把不規(guī)則的文字進(jìn)行矯正成正常形狀。然而,簡單的文字矯正可能會對極度變形或者彎曲的文字失去作用。
為了解決這一問題,我們提出了ScRN(Symmetry-constrained Rectification Network),一個(gè)利用文字對稱性約束的文字矯正網(wǎng)絡(luò)。ScRN利用了文字區(qū)域的很多數(shù)學(xué)屬性,包括文字的中心線、字符大小以及字符方向信息。這些信息可以幫助ScRN生成精確的文字區(qū)域描述,使得ScRN獲得比已有方法更優(yōu)的矯正效果,從而帶來更高的識別精度。
我們在多個(gè)不規(guī)則數(shù)據(jù)集上(ICDAR 2015, SVT-Perspective, CUTE80)都取得了較高的識別精度提升。
11、論文名稱:Learning to Paint with Model-based Deep Reinforcement Learning
論文鏈接:https://arxiv.org/abs/1903.04411
開源代碼:https://github.com/hzwer/ICCV2019-LearningToPaint
關(guān)鍵詞:強(qiáng)化學(xué)習(xí)、繪畫
摘要:
如何讓機(jī)器像畫家一樣,用寥寥數(shù)筆創(chuàng)造出迷人的畫作?結(jié)合深度強(qiáng)化學(xué)習(xí)方法和神經(jīng)網(wǎng)絡(luò)渲染器,我們讓智能體在自我探索中學(xué)會用數(shù)百個(gè)筆畫繪制出紋理豐富的自然圖像,每一個(gè)筆畫的形狀、位置和顏色都是由它自主決定的。智能體的訓(xùn)練過程不需要人類繪畫的經(jīng)驗(yàn)或筆畫軌跡數(shù)據(jù)。
這篇論文的作者是北大本科生黃哲威,信息學(xué)競賽出身,曾入選過福建省隊(duì)。在進(jìn)入北大信科一年之后,他成為了曠視科技智能計(jì)算組(IC組)的實(shí)習(xí)生。
對這只AI寫意畫家,量子位曾做過詳細(xì)報(bào)道:
https://mp.weixin.qq.com/s/1QQ2_vkQ_vLvuxvR-fboQg
— 完 —



