AI分割一切！智源提出通用分割模型SegGPT，「一通百通」的那種

魚羊 2023-04-09 14:57:00 來源：量子位

SegmentAnything Model

允中發自凹非寺

量子位 | 公眾號 QbitAI

視覺領域的GPT-3時刻，真的要來了？

Meta分割一切的SAM（SegmentAnything Model）剛炸完場，幾乎同時，國內的智源研究院視覺團隊也提出了通用分割模型SegGPT——

Segment Everything in Context，首個利用視覺上下文完成各種分割任務的通用視覺模型。

就像這樣，在一張畫面中標注出彩虹，就能批量分割其他畫面中的彩虹。

和 SAM 相比，視覺模型的 In-context 能力是最大差異點：

SegGPT “一通百通”：可使用一個或幾個示例圖片和對應的掩碼即可分割大量測試圖片。用戶在畫面上標注識別一類物體，即可批量化識別分割出其他所有同類物體，無論是在當前畫面還是其他畫面或視頻環境中。
SAM“一觸即通”：通過一個點、邊界框或一句話，在待預測圖片上給出交互提示，識別分割畫面上的指定物體。

這也就意味著，SAM的精細標注能力，與SegGPT的批量化標注分割能力，還能進一步相結合，產生全新的CV應用。

具體而言，SegGPT 是智源通用視覺模型 Painter 的衍生模型，針對分割一切物體的目標做出優化。

SegGPT 訓練完成后無需微調，只需提供示例即可自動推理并完成對應分割任務，包括圖像和視頻中的實例、類別、零部件、輪廓、文本、人臉等等。

該模型具有以下優勢能力：

通用能力：SegGPT具有上下文推理能力，模型能夠根據上下文（prompt）中提供掩碼，對預測進行自適應的調整，實現對“everything”的分割，包括實例、類別、零部件、輪廓、文本、人臉、醫學圖像等。
靈活推理能力：支持任意數量的prompt；支持針對特定場景的tuned prompt；可以用不同顏色的mask表示不同目標，實現并行分割推理。
自動視頻分割和追蹤能力：以第一幀圖像和對應的物體掩碼作為上下文示例，SegGPT能夠自動對后續視頻幀進行分割，并且可以用掩碼的顏色作為物體的ID，實現自動追蹤。

訓練方法

SegGPT將不同的分割任務統一到一個通用的上下文學習框架中，通過將各類分割數據轉換為相同格式的圖像來統一各式各樣的數據形式。

具體來說，SegGPT的訓練被定義為一個上下文著色問題，對于每個數據樣本都有隨機的顏色映射。

目標是根據上下文完成各種任務，而不是依賴于特定的顏色。訓練后，SegGPT可以通過上下文推理在圖像或視頻中執行任意分割任務，例如實例、類別、零部件、輪廓、文本等。

論文地址：https://arxiv.org/abs/2211.07636

代碼地址：https://github.com/baaivision/Painter

Demo：https://huggingface.co/spaces/BAAI/SegGPT

— 完 —