字節跳動實習生提出實例分割新方法:性能超過何愷明Mask R-CNN
乾明 十三 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
框架更簡單,但實現了比Mask R-CNN還好的性能。
這是字節跳動實習生提出的實例分割新方法,名為SOLO。
核心在于通過引入“實例類別”的概念,把實例分割問題轉化為分類問題。
與Mask R-CNN相比,架構更加簡單,是一種單階段實例分割的方法:
但在性能上卻強得多。
COCO數據集上的實驗結果顯示,SOLO的效果普遍超過此前的單階段實例分割主流方法,在一些指標上還超過了增強版的Mask R-CNN。
這一論文發布之后,也引起了業內人士的關注,并贏得了不少點贊。
有人評價稱:“這是一篇非常好的工作,不僅實現了single stage,精度也非常高……這些position variance的特性,一定會在物體檢測與實體分割帶來新的突破。本文則是一個非常好的嘗試。”
也有人評價稱:“我接觸到的(我接觸到的可能并不多)真正意義上的效果比較不錯的實例分割單階段方法。”
總之,新穎簡潔的框架,稱得上突破性的工作。他們具體如何實現的?我們下面一一解讀。
突破在哪?
以往的實例分割方法主要分為兩種,即自上而下和自下而上的范例。
但是這兩種方法,要么嚴重依賴精確的邊界框檢測,要么依賴每個像素的嵌入學習和分組處理。
那么,是否存在一種方法,可以繞過這些條條框框來做實例分割呢?
這項研究其實是類比了語義分割的方法。
語義分割就是一個逐像素的語義類別分類任務。
那么實例分割就可以類比為,逐像素的實例類別分類。
也就是預測每個像素所在的物體的實例類別。
而在圖片中,物體的位置和形狀就是用來區分實例的屬性。
因此,根據量化中心位置和對象大小,就可以簡單粗暴的做實例分割。
方法故取名為SOLO:?Segmenting Objects by Locations。
先來看下SOLO的驚人效果。
SOLO使用隨機梯度下降(SGD)進行訓練,在8個GPU上使用同步的SGD,每個小批(mini-batch)處理總共有16張圖片(每個GPU 2張)。
實驗所采用的是COCO數據集。
無論與兩階段模型還是單階段模型相比,SOLO方法都取得了最好的實驗效果。
上圖便展示了SOLO的效果。
每一列上方的圖片是實例分割的結果,可以看出圖片中對象分割出來的效果還是非常精確的。
每一列的下方是對應的掩碼激活圖(mask activation map)。
上圖展示了SOLO方法在實例輪廓檢測的效果。
每張圖中,不同實例的輪廓用不同的顏色來標記。
這也證明了,SOLO不僅能夠用來做實例分割,在實例輪廓檢測任務中,效果也是不錯的。
什么原理?
SOLO方法的核心思想就是:
將實例分割問題重新定義為類別感知預測問題和實例感知掩碼生成問題。
具體而言,就是將輸入系統的圖像統一劃分為S x S的網格。
如果對象的中心落入網格單元,那么這個網格單元就負責預測語義類別以及分割該對象實例。
上圖便是SOLO的框架流程圖。
不難看出,重點在于語義類別(Semantic category)和實例掩碼(Instance mask)這兩個步驟。
在語義類別過程中,對于每個網格,SOLO都會預測C維輸出,用來表示語義類的概率。
其中,C是類的數量。
這些概率取決于網格單元,如果將輸入圖像劃分為S×S網格,則輸出空間將為S×S×C。
值得注意的是,這里假設S×S網格的每個單元必須屬于一個單獨的實例,也就是只屬于一個語義類別。
推理期間,C維輸出指示每個對象實例的類概率。
在語義類別預測的同時,SOLO還并行地生成相應的實例掩碼。
對于一個輸入圖像I,如果將其劃分為S×S網格,則總共最多有S2個預測掩碼。
具體來說,實例掩碼輸出的維數是HI×WI×S2。
第k個通道負責對網格(i, j)上的實例進行分割,其中,k=i·S+j。
因此,在語義類別和與類無關的掩碼之間,就建立了一對一的對應關系。
在字節跳動實習時完成的工作
這一研究成果共有5位作者,分別來自字節跳動人工智能實驗室和阿德萊德大學。
一作名為王鑫龍,2018年畢業于同濟大學,是阿德萊德大學在讀博士生,師從沈春華教授(通訊作者)。
2019年4月,進入字節跳動實習,完成了這一研究。此前也曾在曠視和騰訊優圖實驗室實習2018年至今,一共有3篇論文被CVPR、AAAI等頂會收錄。
研究共同一作是字節跳動研究科學家孔濤。博士畢業于清華大學,師從孫富春教授。
過去3年在CVPR、AAAI、ECCV等頂級會議和雜志上署名發表論文近10篇。
其他兩位作者,也都來自字節跳動人工智能實驗室。
One more thing
關于SOLO的名字,因為與YOLO很像,也引起了不少討論。
論文一作王鑫龍在知乎上進行了回應:
雖然我們不是受YOLO啟發,但確實有致敬的意思。
并分享了Joseph Redmon在YOLOv3里的一句話:
Boxes are stupid anyway though, I’m probably a true believer in masks except I can’t get YOLO to learn them.
最后,如果你對這一研究感興趣,請收好傳送門~
傳送門
論文地址:
https://arxiv.org/abs/1912.04488
- 商湯Seko2.0重磅發布,合作短劇登頂抖音AI短劇榜No.12025-12-15
- 商湯Seko上線一個月,超10萬創作者選擇它2025-09-29
- 戴爾 x OpenCSG,推出?向智能初創企業的?體化 IT 基礎架構解決方案2025-12-10
- 看完最新國產AI寫的公眾號文章,我慌了!2025-12-08



