首創像素空間推理，7B模型領先GPT-4o，讓VLM能像人類一樣「眼腦并用」

夢晨 2025-06-09 17:55:53 來源：量子位

首次將推理戰場從文本空間拓展到像素空間

Pixel Reasoner 團隊投稿
量子位 | 公眾號 QbitAI

視覺語言模型（VLM）正經歷從「感知」到「認知」的關鍵躍遷。

當OpenAI的o3系列通過「圖像思維」（Thinking with Images）讓模型學會縮放、標記視覺區域時，我們看到了多模態交互的全新可能。

然而，當前主流VLM仍被困在「文本繭房」中——依賴文本token間接翻譯視覺信息，在高清圖像中的微小物體、視頻里的動態細節等場景中，常常因缺乏直接視覺操作能力而「視而不見」。

來自滑鐵盧大學、港科大、中科大的研究團隊，首次將推理戰場從文本空間拓展到像素空間，提出「像素空間推理」（Pixel-Space Reasoning）范式。

這項突破讓VLM能像人類一樣「眼腦并用」：通過原生視覺操作直接與視覺信息對話，在像素級精度上解鎖視覺理解的新維度。

推理模式重構：從「文本中介」到「視覺原生」

傳統VLM如同帶著「文本濾鏡」看世界：將圖像翻譯成文本token再推理，導致小字體、隱蔽物體等關鍵信息在轉換中丟失。而「像素空間推理」賦予模型「視覺手術刀」般的能力：

視覺主動操作：模型可自主觸發視覺變焦（放大關鍵區域）、時空標記（定位視頻動態線索）等原生操作，在像素矩陣上直接完成「操作 – 分析 – 推斷」的閉環推理，避免了文本轉譯導致的信息衰減。
視覺主導推理：視覺操作成為推理演進的核心驅動力。例如圖例中，回答「咖啡杯 logo 品牌」時，模型先通過空間先驗定位桌面區域，再通過視覺放大逐行掃描杯身，最終在像素級精度上提取 logo 特征。這種「視覺線索引導推理」的機制，使模型能捕捉傳統方法難以處理的空間關系與動態細節，尤其在具身視覺導航、復雜視頻理解等場景中展現出顯著優勢。

這種「眼腦協同」的推理模式，打破了文本對視覺語義的「翻譯牢籠」，讓模型真正具備了與人類視覺認知同構的推理能力。

學習陷阱破解：好奇心激勵突破認知惰性困局

在能力遷移過程中，研究團隊發現指令微調模型仍面臨「認知惰性」帶來的嚴峻挑戰：成熟的文本推理能力與稚嫩的像素操作能力形成能力鴻溝，導致模型陷入「學習陷阱」：

1 負面反饋循環：初期視覺操作的低成功率引發大量負向信號，抑制模型使用新能力的意愿；
2 路徑依賴慣性：簡單任務中模型更傾向調用已掌握的文本推理，形成「新能力退化」的惡性循環。

如同熟練的滑雪者初次嘗試沖浪，初期的失衡體驗會讓人本能回歸熟悉領域，而忽視新技能的長期價值。

為打破這一困境，研究團隊設計了內在好奇心激勵配合外在正確性激勵的強化學習獎懲方案。通過引入內在激勵鼓勵模型練習視覺操作，并引導模型逐步挖掘「像素空間推理」的潛在價值，而非僅依賴外在的正確性獎勵。這就像幼兒學步時，對新鮮動作的內在好奇會驅動其反復嘗試，即使每次嘗試都伴隨著跌倒。
因此，研究團隊形式化出下面的約束優化目標

其中包含兩個關鍵約束用于有效激發「像素空間推理」

像素推理率約束（RaPR）
：要求模型至少以特定比率觸發像素空間推理，克服認知惰性；
操作效率約束：
限制單次推理的視覺操作次數，在探索與計算成本間找到平衡。

通過拉格朗日松弛等效轉化為以下的獎勵函數：

其中的內在好奇心激勵（r_curiosity）會在模型低頻觸發「像素空間推理」時提供內在激勵，如同為探索未知領域的冒險者提供「勇氣加成」，降低嘗試新能力的機會成本。同時，隨著訓練推進，好奇心獎勵會動態衰減，確保模型最終聚焦于推理效率而非獎勵投機，形成「好奇驅動」到「效用驅動」的良性過渡。

性能驗證：7B 模型實現高效能突破

在四大視覺推理基準測試中，基于Qwen2.5-VL-7B構建的Pixel-Reasoner展現出碾壓級表現：

V* Bench（高清圖像推理）：
84.3%準確率，超越GPT-4o（62.8%）和Gemini-2.5-Pro（79.2%）。
TallyQA-Complex（復雜場景計數）：
73.8%準確率，較基線模型提升5.1%，能精準區分圖像中相似物體的數量差異。
InfographicsVQA（信息圖表理解）：
84.0%準確率，在混合文本與圖表的復雜場景中，推理準確率達到Gemini-2.5-Pro水平。
MVBench（長視頻推理）：
67.8%準確率，通過像素空間的時空操作捕捉視頻中的關鍵視覺線索，時序推理能力領先GPT-4o 3.2%。

值得注意的是，僅7B參數的Pixel-Reasoner，性能全面超越27B的Gemma3等開源模型，甚至媲美部分閉源商業模型，展現出「小模型大能力」的高效特性。

此外，研究團隊也進行了細節的實驗來分析模型「認知惰性」帶來學習新推理能力的「學習陷阱」，為如何有效培養模型全新推理能力提供了深刻的啟示。

研究團隊指出，像素空間推理并非對文本推理的替代，而是為VLM開啟了「第二思維通道」。當視覺與語言雙軌并行，多模態模型才能真正理解世界的復雜性。

Pixel-Reasoner尚且是多模態推理范式的初步探索。從「看山是山」到「見微知著」，隨著多模態推理能力的進一步發展，我們正迎來一個機器能「看得更細、想得更深」的智能時代。

論文地址：https://arxiv.org/pdf/2505.15966
項目主頁：https://tiger-ai-lab.github.io/Pixel-Reasoner/
模型試玩：https://huggingface.co/spaces/TIGER-Lab/Pixel-Reasoner

多模態

夢晨

首創像素空間推理，7B模型領先GPT-4o，讓VLM能像人類一樣「眼腦并用」

推理模式重構：從「文本中介」到「視覺原生」

學習陷阱破解：好奇心激勵突破認知惰性困局

性能驗證：7B 模型實現高效能突破

相關閱讀

北大&騰訊打造多模態15邊形戰士！語言作“紐帶”，拳打腳踢各模態，超越Imagebind

Gemini負責人爆料！多模態統一token表示，視覺至關重要

UniToken：多模態AI的“全能選手”，一次編碼搞定圖文理解與圖像生成！

打破跨模態干擾，快手東北大學聯合提出統一多模態框架，橫掃多模態檢索基準

香港大模型公司Weitu AI首秀，打造多模態Native的技術和產品

多模態模型挑戰北京杭州地鐵圖！o3成績顯著，但跟人類有差距

熱門文章

云計算一哥10分鐘發了25個新品！Kimi和MiniMax首次上桌

GPT5.5代號“蒜你狠”曝光！OpenAI拉響紅色警報加班趕制新模型，最快下周就發

英偉達巧用8B模型秒掉GPT-5，開源了

“豆包手機”在二手市場價格都翻倍了……

DeepSeekV3.2技術報告還是老外看得細