分割/識別/解說一個模型搞定!3B參數(shù)刷新視覺理解SOTA,圖像視頻全適配
所有數(shù)據(jù)均已完全開源
PAM團隊 投稿
量子位 | 公眾號 QbitAI
可以輸出語義的「分割一切模型2.0」來了!
一次交互,「分割+識別+解釋+描述」全搞定,同時支持圖像、視頻和長視頻,文本&Mask同時輸出!
由港中文MMLab、港理工、北京大學等機構開源的PAM(Perceive Anything Model)模型,能夠在保留SAM2分割一切、追蹤一切能力的基礎上,同時輸出豐富的語義信息。

為了訓練這樣一個強大的模型,PAM團隊還構建了一個超大規(guī)模高質量訓練數(shù)據(jù)集:擁有150萬個圖像區(qū)域+60萬個視頻區(qū)域標注
實驗結果表明,PAM僅使用3B參數(shù),就在多個圖像和視頻理解基準上全面刷新或逼近SOTA,且具備更優(yōu)的推理效率和顯存占用,真正實現(xiàn)性能與輕量的統(tǒng)一。
所有數(shù)據(jù)均已完全開源。

PAM:準確定位一鍵輸出
一些最新的Video LLM模型嘗試結合VLM和SAM2的強大視覺提示能力,進行視頻理解。然而:
-
這些模型往往無法直接輸出分割結果,或需要額外接入segment模型,流程復雜; -
模型體量通常非常龐大,對計算資源要求高,不適用于輕量化、快速響應的實際場景(如AR/VR、移動端推理等)。

而PAM(Perceive Anything Model)既保留了SAM2在圖像和視頻中分割、追蹤一切物體的能力,同時可以輸出豐富的語義信息:
在圖像任務中,PAM支持一次點擊即可輸出選中區(qū)域的:
-
類別(Label) -
解釋(Explain) -
精細描述(Caption)
在視頻任務中,PAM同樣支持區(qū)域理解:
-
整段描述(Caption) -
流式描述(Streaming Caption):連續(xù)事件追蹤+動態(tài)敘述
只需要用戶的一次點擊,PAM就可以并行輸出mask和文本,在許多應用場景下都具有潛力!
效果展示:圖片/短視頻/長視頻

對于圖片,用戶通過點擊或者拖拽矩形框選中一個物體,PAM可以完成分割的同時,輸出該物體的類別+解釋+描述的詳細語義信息!
對于較短視頻,用戶選中特定物體后,PAM可以追蹤并分割該物體,同時輸出該物體的事件描述。
而對于長視頻,PAM在追蹤分割用戶選中物體的同時,會根據(jù)事件的變化,動態(tài)地輸出流式描述,類似實時字幕。
工作原理:模型框架+數(shù)據(jù)集

PAM引入了Semantic Perceiver來連接SAM2分割骨架和LLM,高效地將視覺特征“翻譯”成多模態(tài)token。
通過SAM2分割骨架+Semantic Perceiver+LLM并行解碼,在保證輕量高效的前提下,實現(xiàn)了分割mask和語義信息并行輸出的圖像/視頻區(qū)域級理解。
基于此方法,PAM只使用了1.5B/3B參數(shù)的LLM head,就可以輸出非常豐富和魯棒的語義信息。

為支撐PAM的訓練,構建了一個大規(guī)模、多層次、高密度的圖像與視頻語義標注數(shù)據(jù)集,覆蓋分類、解釋、描述、時序事件等多個維度:
圖像數(shù)據(jù):精細三連注釋
使用SoM(Set of Masks)方法精準定位目標區(qū)域**,結合強大的閉源VLM(如GPT-4o)生成三類語義信息:
-
類別(Label) -
解釋(Explain) -
描述(Caption)
視頻數(shù)據(jù):Storyboard驅動式理解
-
對每段視頻抽取6張關鍵幀,合成為Storyboard格式的高分辨率圖像; -
使用SoM高亮目標區(qū)域,作為提示引導; -
利用閉源VLM進行多幀聯(lián)合推理,生成細節(jié)豐富、時間感知強的事件描述。
流式視頻數(shù)據(jù):連貫事件字幕的首創(chuàng)實踐
-
將長視頻切分為多個連續(xù)不重疊的事件片段; -
每段片段重復Storyboard流程; -
并在生成描述時遞歸引入前一段文字內容,讓字幕連貫銜接,保證上下文一致性。
實驗分析:規(guī)模更小、性能更好

可以看到,PAM-3B在PACO基準測試中達到最佳性能,超過先前最佳模型3.2%以上,并在LVIS基準測試中,就語義IoU而言,超越了當前SOTA模型DAM-8B。
此外,PAM-3B在Total-Text上超過VP-SPHINX-13B超過3.5%,并在COCO-Text上達到相當?shù)男阅堋?br />

在ImageCaption、VideoCaption、視頻時序事件理解等多個benchmark上,PAM都以更小的參數(shù)規(guī)模(3Bvs8B、13B)刷新或并列SOTA。

如圖所示,和相同參數(shù)量的DAM-3B模型相比,PAM-3B推理更快,顯存更省。
此外,PAM首創(chuàng)了區(qū)域級的流式視頻字幕能力,不僅能持續(xù)描述一個物體的行為,還能在連續(xù)事件中保持高度語義一致性,展現(xiàn)了強大的實際應用潛力。
論文地址:https://arxiv.org/abs/2506.05302
項目主頁:https://perceive-anything.github.io/
GitHub Repo:https://github.com/Perceive-Anything/PAM
Model CKPT:https://huggingface.co/Perceive-Anything/PAM-3B
Dataset:https://huggingface.co/datasets/Perceive-Anything/PAM-data
- AI芯片獨角獸一年估值翻番!放話“三年超英偉達”,最新融資53億2025-09-18
- 李飛飛發(fā)布世界模型新成果:一個提示,生成無限3D世界2025-09-17
- 奧特曼“續(xù)命”大計:押注讓大腦變年輕的藥物,預計年底臨床試驗2025-09-16
- DeepMind哈薩比斯最新認知都在這里了2025-09-15




