清華新VLA框架加速破解具身智能止步實驗室“魔咒”，LLM內(nèi)存開銷平均降低4-6倍。

白交 2024-11-30 12:47:55 來源：量子位

大模型存在冗余性

DeeR-VLA團隊投稿

量子位 | 公眾號 QbitAI

計算、存儲消耗高，機器人使用多模態(tài)模型的障礙被解決了！

來自清華大學的研究者們設(shè)計了DeeR-VLA框架，一種適用于VLA的“動態(tài)推理”框架，能將LLM部分的相關(guān)計算、內(nèi)存開銷平均降低4-6倍。

（VLA：視覺-語言-動作模型，代表一類用于處理多模態(tài)輸入的模型）

清華新VLA框架加速破解具身智能止步實驗室“魔咒”，LLM內(nèi)存開銷平均降低4-6倍。

簡單來說，DeeR-VLA就像人的決策系統(tǒng)：簡單任務(wù)快速思考，復(fù)雜任務(wù)仔細思考。通過多出口架構(gòu)，模型在足夠計算后即可提前“剎車”，避免浪費算力。

在CALVIN機器人操作基準測試中，DeeR-VLA實現(xiàn)了大語言模型（LLM）計算成本減少5.2-6.5倍，GPU內(nèi)存減少2-6倍，同時保持了性能不受影響。

大模型存在冗余性

近年來，多模態(tài)大語言模型（MLLM）讓機器人具備了前所未有的理解與執(zhí)行能力。通過語言指令和視覺信息的結(jié)合，機器人可以完成復(fù)雜任務(wù)，比如“抓起藍色物體并放到桌上”。

一些前沿模型，如RT-2，甚至可以泛化到新任務(wù)或新物體。然而，要讓這些強大的模型走進實際場景，還有一道難題需要解決——MLLM雖然聰明，但也“貪吃”。

每次推理動輒調(diào)用數(shù)十億參數(shù)，消耗巨大的計算資源。

這對于嵌入式機器人平臺來說是致命的——GPU內(nèi)存不足、計算時間長、電池續(xù)航不夠，直接讓“通用機器人”的夢想止步于實驗室。

然而實際上，在機器人控制領(lǐng)域，很多實際應(yīng)用場景并沒有我們想象的那么復(fù)雜。

論文作者通過觀察發(fā)現(xiàn)，絕大多數(shù)任務(wù)實際上可以通過較小的模型就能完成，只有在面對少數(shù)復(fù)雜場景時，才需要調(diào)用完整的大型多模態(tài)模型。

以Calvin數(shù)據(jù)集為例的實驗結(jié)果便充分體現(xiàn)了這一點：當使用24層的OpenFlamingo作為基座模型時，相比于6層的模型，任務(wù)完成率僅提高了3.2%，但計算成本卻增加了整整4倍。

這無疑凸顯了現(xiàn)有的多模態(tài)大模型對大部分簡單機器人任務(wù)的冗余性。

這一發(fā)現(xiàn)引發(fā)了對現(xiàn)有模型設(shè)計的深刻思考：

為什么在大多數(shù)簡單任務(wù)中還要使用高計算資源的復(fù)雜模型？

在很多情況下，使用更大的模型不僅沒有帶來明顯的性能提升，反而浪費了寶貴的計算資源。

作者認為，如何根據(jù)任務(wù)的復(fù)雜性動態(tài)調(diào)整模型的規(guī)模，才能在不犧牲性能的情況下，最大化計算效率，成為了提升機器人智能的關(guān)鍵。

DeeR-VLA的設(shè)計

DeeR-VLA框架的核心在于其靈活的動態(tài)推理機制，能夠根據(jù)任務(wù)復(fù)雜度智能調(diào)節(jié)LLM的計算深度。

這意味著，DeeR-VLA能夠在不同場景中激活任意規(guī)模的模型。

為了實現(xiàn)這一目標，DeeR-VLA引入了多出口架構(gòu)，該架構(gòu)能在多模態(tài)大語言模型中按需選擇性激活不同的層級。

以下是其關(guān)鍵技術(shù)組件：

多出口MLLM結(jié)構(gòu): DeeR-VLA通過在MLLM中引入多出口架構(gòu)，將模型劃分為多個階段，每個階段都可以輸出中間結(jié)果。一旦任務(wù)復(fù)雜度達到某個出口的需求，模型就會提前停止計算，避免激活更多層級。
特征池化方法:?每個出口的中間特征通過特征池化技術(shù)進行壓縮，提取出最核心的信息。這種方法確保即便在早期退出，模型也能生成適用于后續(xù)動作預(yù)測的高質(zhì)量特征。
動作預(yù)測頭設(shè)計:?在每個出口后，模型通過輕量級的動作預(yù)測頭，將特征轉(zhuǎn)化為機器人具體的執(zhí)行動作（如機械臂的位置和夾爪的開合狀態(tài)）。

DeeR-VLA使用了一種獨特的動作一致性準則來決定是否提前退出。

通過對比相鄰出口的動作預(yù)測結(jié)果，若結(jié)果差異小于閾值，則推斷模型已經(jīng)達到收斂狀態(tài)，無需進一步計算。

動作一致性的閾值無需手動設(shè)置，模型可以自動計算出合適的閾值來滿足給定的設(shè)定平均計算成本、峰值計算、顯存預(yù)算，動態(tài)調(diào)整計算規(guī)模，以適應(yīng)不同的硬件環(huán)境和實時性需求。

為了自動尋找最佳退出閾值，DeeR-VLA還引入了貝葉斯優(yōu)化方法。在訓練或?qū)嶋H應(yīng)用中，該方法通過探索和反饋不斷微調(diào)退出策略，確保計算資源的最優(yōu)分配。

在DeeR-VLA中，動態(tài)推理時，模型根據(jù)確定性的標準在每個時間步選擇合適的出口，并匯集時序上每一個時刻的特征生成最終的預(yù)測。

然而，在訓練階段，由于缺乏明確的終止標準，模型并不清楚時序上出口特征的分布，這導(dǎo)致訓練時的行為與推理時有所不同。

為了解決這一問題，DeeR-VLA引入了隨機出口采樣策略。

在訓練過程中，模型在每個時間步隨機選擇一個出口進行計算，這樣可以確保模型在所有出口序列上都能進行有效學習，并生成高質(zhì)量的預(yù)測。

這種策略有效減少了訓練和推理之間的分布差異，使得模型能夠更好地應(yīng)對動態(tài)推理過程中的不確定性。

此外，論文作者還引入了輔助預(yù)測頭（Auxiliary Heads）作為額外的監(jiān)督信號，對每個出口的特征進行優(yōu)化，使其更適合于動作預(yù)測任務(wù)。

實驗驗證

DeeR-VLA框架在CALVIN長Horizon多任務(wù)語言控制挑戰(zhàn)（LH-MTLC）基準上進行評估。該基準目的是測試機器人在自然語言指令下執(zhí)行任務(wù)序列的能力，其中每個任務(wù)序列包含五個子任務(wù)。

由于多模態(tài)大模型中LLM部分占據(jù)主要的參數(shù)量，DeeR-VLA主要關(guān)注LLM部分的計算量和顯存占用，而不是整體框架的節(jié)省。

通過在不同環(huán)境設(shè)置下的測試，DeeR-VLA展現(xiàn)了出色的表現(xiàn)，尤其是在任務(wù)成功率與計算效率之間的平衡。

與其他SOTA方法相比，DeeR-VLA在任務(wù)成功率上保持競爭力的同時，LLM部分的計算資源消耗大幅減少。

例如，在D→D設(shè)置下，DeeR-VLA以更少的計算量（5.9倍減少的FLOPs）和2倍更低的GPU內(nèi)存消耗，依然達到了RoboFlamingo++的性能。

為了驗證DeeR-VLA在實際推理中的效率，研究團隊在Nvidia V100 GPU上對DeeR和RoboFlamingo++進行了比較。

結(jié)果表明，DeeR-VLA的LLM部分的推理時間比RoboFlamingo++減少了68.1%，且兩者在任務(wù)成功率上幾乎相同。

這一實驗證明了DeeR-VLA框架不僅在理論上能夠減少計算負擔，而且在實際應(yīng)用中也能顯著提升推理速度。

同時，DeeR-VLA框架能夠與量化技術(shù)相結(jié)合，進一步減少模型LLM部分的內(nèi)存使用。

論文作者介紹

該論文的一作是清華大學自動化系三年級博士生Yue Yang，他專注于強化學習、世界模型、多模態(tài)大模型和具身智能的研究。

此前他作為核心作者的論文《How Far is Video Generation from World Model: A Physical Law Perspective》被國內(nèi)外眾多大佬Yan Lecun，xie saining，Kevin Murphy等轉(zhuǎn)發(fā)。

另一位一作王語霖同樣是清華大學的博士生。兩位作者的導(dǎo)師都是黃高。

論文作者主頁：
https://yueyang130.github.io/
論文鏈接：
https://arxiv.org/abs/2411.02359v1
代碼和模型鏈接：
https://github.com/yueyang130/DeeR-VLA

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

清華

白交

空間智能卡脖子難題被杭州攻克！難倒GPT-5后，六小龍企業(yè)出手了2025-08-28
陳丹琦有了個公司郵箱，北大翁荔同款2025-08-28
英偉達最新芯片B30A曝光2025-08-20
AI應(yīng)用如何落地政企？首先不要卷通用大模型2025-08-12

清華新VLA框架加速破解具身智能止步實驗室“魔咒”，LLM內(nèi)存開銷平均降低4-6倍。

大模型存在冗余性

DeeR-VLA的設(shè)計

實驗驗證

論文作者介紹

相關(guān)閱讀

國產(chǎn)人形機器人破全球紀錄！連續(xù)空翻一鏡到底，量產(chǎn)3.99w起售

你寫腳本，AI自動剪視頻：13分鐘完成剪輯師7小時創(chuàng)作，清華北航聯(lián)手打造，丘成桐參與其中

清華伯克利發(fā)起RISC-V國際開源實驗室，圖靈獎得主牽頭，落地深圳

Claude團隊喜提清華物理學霸姚順宇！兩個Yao Shunyu都投身大模型了

這個“1句話生成視頻”AI爆火：支持中文輸入，分辨率達到480×480，清華&智源出品

清華首次提出數(shù)據(jù)驅(qū)動控制新形式，算法效率直翻三倍

熱門文章

DeepSeek-V3.2系列開源，性能直接對標Gemini-3.0-Pro

能講“悄悄話”的智能助理，瑞聲科技助力夸克AI眼鏡S1開創(chuàng) 語音交互新范式

商湯分拆了一家AI醫(yī)療公司，半年融資10億，劍指“醫(yī)療世界模型”

前端沒死，AI APP正在返祖

寧德時代給9萬+基層員工漲了薪！每月150元