長視頻理解新突破!Mamba混合架構(gòu)讓顯存消耗腰斬,處理10萬視頻token不費(fèi)力
同等硬件條件下可處理的視頻幀數(shù)較傳統(tǒng)Transformer架構(gòu)提升4倍
Vamba團(tuán)隊(duì) 投稿
量子位 | 公眾號 QbitAI
Mamba混合架構(gòu)視頻模型來了,不再對視頻token進(jìn)行壓縮——
而是通過改進(jìn)模型架構(gòu)設(shè)計(jì)的方式提升模型在訓(xùn)練及推理預(yù)填充階段處理視頻token的效率。

滑鐵盧大學(xué)陳文虎團(tuán)隊(duì)與多倫多大學(xué)、零一萬物、向量學(xué)院以及M-A-P的研究人員提出了一種新的Mamba-Transformer混合模型Vamba。

通過大量實(shí)驗(yàn)驗(yàn)證,研究團(tuán)隊(duì)發(fā)現(xiàn)Vamba在同等硬件條件下可處理的視頻幀數(shù)較傳統(tǒng)Transformer架構(gòu)提升4倍,訓(xùn)練內(nèi)存消耗降低50%以上,并且可實(shí)現(xiàn)單步訓(xùn)練速度的翻倍。
同時,該方法完整保留了原始視頻的時空特征,避免傳統(tǒng)方法因降采樣或池化操作導(dǎo)致的關(guān)鍵動作或場景的信息丟失。
在多個長視頻的評價(jià)標(biāo)準(zhǔn)上,Vamba保持了高準(zhǔn)確率和出色的性能,尤其在LVBench長視頻理解基準(zhǔn)上相較先前的高效長視頻理解模型達(dá)到了約4.3%的性能提升。團(tuán)隊(duì)現(xiàn)已開源Vamba模型的代碼、模型權(quán)重以及訓(xùn)練、推理腳本供研究社區(qū)進(jìn)一步探索與應(yīng)用。
核心方法
目前流行的多模態(tài)大語言模型多使用Transformer作為模型的基本結(jié)構(gòu),其中的因果注意力機(jī)制相對于輸入的token序列長度存在二次時間/空間復(fù)雜度關(guān)系。
在長視頻理解任務(wù)中,多模態(tài)大模型一般會將視頻轉(zhuǎn)化為一段極長的token序列,因此這些模型往往需要高昂的訓(xùn)練或推理成本。舉例來說,一種較為流行的視頻編碼方式為使用CLIP或者SigLIP編碼器將視頻的每幀轉(zhuǎn)換為約196個token。
基于這種編碼方式,一個512幀的視頻輸入將會轉(zhuǎn)換為約10萬個視頻token,從而造成極高的訓(xùn)練或推理復(fù)雜度。現(xiàn)有方法在處理這個問題時,往往采用壓縮視頻token數(shù)量的模型設(shè)計(jì),即通過不同的壓縮機(jī)制合并或刪除一些非必要的視頻token并縮短視頻token序列長度,從而降低多模態(tài)模型在長視頻理解任務(wù)上的資源消耗。
盡管相關(guān)研究已經(jīng)取得了一定的進(jìn)展,這些高效的長視頻理解模型仍然存在一個共同的問題,即過度的視頻token序列壓縮可能會造成一定程度的信息損失。這使得目前的高效長視頻理解模型在性能方面仍然與最頂級的模型存在一定差距。
Vamba的核心設(shè)計(jì)思路是將原本作用于整個視頻+文本序列的運(yùn)算成本高昂的因果自注意力運(yùn)算操作分解為兩個更為高效且協(xié)同操作的計(jì)算組件。
(1)在處理文字token的過程中,通過引入交叉注意力機(jī)制使文字token獲得視頻token的信息。此類操作的計(jì)算開銷相比將文字與視頻同時經(jīng)由因果注意力模塊處理更為可控,同時確保文本語義與視覺信息的高效對齊。
(2)針對海量的視頻token,采用基于狀態(tài)空間模型(SSM)的Mamba-2模塊進(jìn)行序列建模。該模塊通過選擇性掃描機(jī)制,在保持了更新視頻token序列時可以檢索全局序列信息的同時,將計(jì)算復(fù)雜度從Transformer的二次復(fù)雜度降至線性復(fù)雜度,從而突破了長視頻序列的處理瓶頸。
如圖所示,對于文字token輸入,Vamba使用了因果自注意力機(jī)制和交叉注意力機(jī)制同時處理文字token,從而省去了視頻token在因果注意力模塊中所需要的計(jì)算成本。在此基礎(chǔ)上,Vamba使用Mamba-2模塊處理視頻token序列,從而既保持了對視頻序列的信息更新又將該操作所需要的復(fù)雜度控制在了線性范圍。

研究團(tuán)隊(duì)通過不同幀數(shù)的視頻輸入,對Vamba與Transformer模型在訓(xùn)練與推理中的計(jì)算成本進(jìn)行了比較。對比發(fā)現(xiàn)Vamba在長視頻/高幀數(shù)輸入的情景下(128幀及以上的視頻輸入),相比Transformer類模型達(dá)到了50%以上的運(yùn)行時間與顯存需求下降。同時,Vamba可以準(zhǔn)確地描述視頻內(nèi)容,根據(jù)用戶輸入的問題對視頻進(jìn)行分析,并作出相應(yīng)的回答。

總結(jié)
本文介紹了Vamba模型,一種專為高效理解超長視頻設(shè)計(jì)的Mamba-Transformer混合模型。
該方法通過集成面向文本token的交叉注意力機(jī)制與面向視頻token的Mamba-2模塊更新策略,在顯著降低計(jì)算復(fù)雜度與顯存占用的同時,實(shí)現(xiàn)了對長、中、短視頻理解任務(wù)的性能提升。基于LVBench等數(shù)據(jù)集的大量實(shí)驗(yàn)評估表明,Vamba在長視頻理解任務(wù)中以4.3%的顯著優(yōu)勢超越了現(xiàn)有的高效長視頻理解模型,并在多個分布各個視頻時常區(qū)間的基準(zhǔn)測試中展現(xiàn)出了卓越的競爭力。
論文地址:https://arxiv.org/abs/2503.11579
項(xiàng)目主頁:https://tiger-ai-lab.github.io/Vamba/
代碼倉庫:https://github.com/TIGER-AI-Lab/Vamba
模型權(quán)重:https://huggingface.co/TIGER-Lab/Vamba-Qwen2-VL-7B




