清華新VLA框架加速破解具身智能止步實驗室“魔咒”,LLM內(nèi)存開銷平均降低4-6倍。
大模型存在冗余性
DeeR-VLA團隊 投稿
量子位 | 公眾號 QbitAI
計算、存儲消耗高,機器人使用多模態(tài)模型的障礙被解決了!
來自清華大學的研究者們設(shè)計了DeeR-VLA框架,一種適用于VLA的“動態(tài)推理”框架,能將LLM部分的相關(guān)計算、內(nèi)存開銷平均降低4-6倍。
(VLA:視覺-語言-動作模型,代表一類用于處理多模態(tài)輸入的模型)

簡單來說,DeeR-VLA就像人的決策系統(tǒng):簡單任務(wù)快速思考,復(fù)雜任務(wù)仔細思考。通過多出口架構(gòu),模型在足夠計算后即可提前“剎車”,避免浪費算力。
在CALVIN機器人操作基準測試中,DeeR-VLA實現(xiàn)了大語言模型(LLM)計算成本減少5.2-6.5倍,GPU內(nèi)存減少2-6倍,同時保持了性能不受影響。

大模型存在冗余性
近年來,多模態(tài)大語言模型(MLLM)讓機器人具備了前所未有的理解與執(zhí)行能力。通過語言指令和視覺信息的結(jié)合,機器人可以完成復(fù)雜任務(wù),比如“抓起藍色物體并放到桌上”。
一些前沿模型,如RT-2,甚至可以泛化到新任務(wù)或新物體。然而,要讓這些強大的模型走進實際場景,還有一道難題需要解決——MLLM雖然聰明,但也“貪吃”。
每次推理動輒調(diào)用數(shù)十億參數(shù),消耗巨大的計算資源。
這對于嵌入式機器人平臺來說是致命的——GPU內(nèi)存不足、計算時間長、電池續(xù)航不夠,直接讓“通用機器人”的夢想止步于實驗室。
然而實際上,在機器人控制領(lǐng)域,很多實際應(yīng)用場景并沒有我們想象的那么復(fù)雜。
論文作者通過觀察發(fā)現(xiàn),絕大多數(shù)任務(wù)實際上可以通過較小的模型就能完成,只有在面對少數(shù)復(fù)雜場景時,才需要調(diào)用完整的大型多模態(tài)模型。
以Calvin數(shù)據(jù)集為例的實驗結(jié)果便充分體現(xiàn)了這一點:當使用24層的OpenFlamingo作為基座模型時,相比于6層的模型,任務(wù)完成率僅提高了3.2%,但計算成本卻增加了整整4倍。
這無疑凸顯了現(xiàn)有的多模態(tài)大模型對大部分簡單機器人任務(wù)的冗余性。

這一發(fā)現(xiàn)引發(fā)了對現(xiàn)有模型設(shè)計的深刻思考:
為什么在大多數(shù)簡單任務(wù)中還要使用高計算資源的復(fù)雜模型?
在很多情況下,使用更大的模型不僅沒有帶來明顯的性能提升,反而浪費了寶貴的計算資源。
作者認為,如何根據(jù)任務(wù)的復(fù)雜性動態(tài)調(diào)整模型的規(guī)模,才能在不犧牲性能的情況下,最大化計算效率,成為了提升機器人智能的關(guān)鍵。

DeeR-VLA的設(shè)計
DeeR-VLA框架的核心在于其靈活的動態(tài)推理機制,能夠根據(jù)任務(wù)復(fù)雜度智能調(diào)節(jié)LLM的計算深度。
這意味著,DeeR-VLA能夠在不同場景中激活任意規(guī)模的模型。
為了實現(xiàn)這一目標,DeeR-VLA引入了多出口架構(gòu),該架構(gòu)能在多模態(tài)大語言模型中按需選擇性激活不同的層級。
以下是其關(guān)鍵技術(shù)組件:
- 多出口MLLM結(jié)構(gòu): DeeR-VLA通過在MLLM中引入多出口架構(gòu),將模型劃分為多個階段,每個階段都可以輸出中間結(jié)果。一旦任務(wù)復(fù)雜度達到某個出口的需求,模型就會提前停止計算,避免激活更多層級。
- 特征池化方法:?每個出口的中間特征通過特征池化技術(shù)進行壓縮,提取出最核心的信息。這種方法確保即便在早期退出,模型也能生成適用于后續(xù)動作預(yù)測的高質(zhì)量特征。
- 動作預(yù)測頭設(shè)計:?在每個出口后,模型通過輕量級的動作預(yù)測頭,將特征轉(zhuǎn)化為機器人具體的執(zhí)行動作(如機械臂的位置和夾爪的開合狀態(tài))。

DeeR-VLA使用了一種獨特的動作一致性準則來決定是否提前退出。
通過對比相鄰出口的動作預(yù)測結(jié)果,若結(jié)果差異小于閾值,則推斷模型已經(jīng)達到收斂狀態(tài),無需進一步計算。

動作一致性的閾值無需手動設(shè)置,模型可以自動計算出合適的閾值來滿足給定的設(shè)定平均計算成本、峰值計算、顯存預(yù)算,動態(tài)調(diào)整計算規(guī)模,以適應(yīng)不同的硬件環(huán)境和實時性需求。
為了自動尋找最佳退出閾值,DeeR-VLA還引入了貝葉斯優(yōu)化方法。在訓練或?qū)嶋H應(yīng)用中,該方法通過探索和反饋不斷微調(diào)退出策略,確保計算資源的最優(yōu)分配。

在DeeR-VLA中,動態(tài)推理時,模型根據(jù)確定性的標準在每個時間步選擇合適的出口,并匯集時序上每一個時刻的特征生成最終的預(yù)測。
然而,在訓練階段,由于缺乏明確的終止標準,模型并不清楚時序上出口特征的分布,這導(dǎo)致訓練時的行為與推理時有所不同。
為了解決這一問題,DeeR-VLA引入了隨機出口采樣策略。
在訓練過程中,模型在每個時間步隨機選擇一個出口進行計算,這樣可以確保模型在所有出口序列上都能進行有效學習,并生成高質(zhì)量的預(yù)測。
這種策略有效減少了訓練和推理之間的分布差異,使得模型能夠更好地應(yīng)對動態(tài)推理過程中的不確定性。
此外,論文作者還引入了輔助預(yù)測頭(Auxiliary Heads)作為額外的監(jiān)督信號,對每個出口的特征進行優(yōu)化,使其更適合于動作預(yù)測任務(wù)。

實驗驗證
DeeR-VLA框架在CALVIN長Horizon多任務(wù)語言控制挑戰(zhàn)(LH-MTLC)基準上進行評估。該基準目的是測試機器人在自然語言指令下執(zhí)行任務(wù)序列的能力,其中每個任務(wù)序列包含五個子任務(wù)。
由于多模態(tài)大模型中LLM部分占據(jù)主要的參數(shù)量,DeeR-VLA主要關(guān)注LLM部分的計算量和顯存占用,而不是整體框架的節(jié)省。
通過在不同環(huán)境設(shè)置下的測試,DeeR-VLA展現(xiàn)了出色的表現(xiàn),尤其是在任務(wù)成功率與計算效率之間的平衡。
與其他SOTA方法相比,DeeR-VLA在任務(wù)成功率上保持競爭力的同時,LLM部分的計算資源消耗大幅減少。
例如,在D→D設(shè)置下,DeeR-VLA以更少的計算量(5.9倍減少的FLOPs)和2倍更低的GPU內(nèi)存消耗,依然達到了RoboFlamingo++的性能。

為了驗證DeeR-VLA在實際推理中的效率,研究團隊在Nvidia V100 GPU上對DeeR和RoboFlamingo++進行了比較。
結(jié)果表明,DeeR-VLA的LLM部分的推理時間比RoboFlamingo++減少了68.1%,且兩者在任務(wù)成功率上幾乎相同。
這一實驗證明了DeeR-VLA框架不僅在理論上能夠減少計算負擔,而且在實際應(yīng)用中也能顯著提升推理速度。
同時,DeeR-VLA框架能夠與量化技術(shù)相結(jié)合,進一步減少模型LLM部分的內(nèi)存使用。

論文作者介紹
該論文的一作是清華大學自動化系三年級博士生Yue Yang,他專注于強化學習、世界模型、多模態(tài)大模型和具身智能的研究。
此前他作為核心作者的論文《How Far is Video Generation from World Model: A Physical Law Perspective》被國內(nèi)外眾多大佬Yan Lecun,xie saining,Kevin Murphy等轉(zhuǎn)發(fā)。
另一位一作王語霖同樣是清華大學的博士生。兩位作者的導(dǎo)師都是黃高。
論文作者主頁:
https://yueyang130.github.io/
論文鏈接:
https://arxiv.org/abs/2411.02359v1
代碼和模型鏈接:
https://github.com/yueyang130/DeeR-VLA
- 空間智能卡脖子難題被杭州攻克!難倒GPT-5后,六小龍企業(yè)出手了2025-08-28
- 陳丹琦有了個公司郵箱,北大翁荔同款2025-08-28
- 英偉達最新芯片B30A曝光2025-08-20
- AI應(yīng)用如何落地政企?首先不要卷通用大模型2025-08-12




