色综合中文综合网_性猛交娇小69hd_久久精品99久久久久久_欧美日韩精品一区二区三区四区 _97视频色精品_国产高清精品久久久久_日日鲁鲁鲁夜夜爽爽狠狠视频97 _国产成人免费视频精品含羞草妖精 _熟女少妇在线视频播放_精品人妻一区二区三区麻豆91 _久久女同性恋中文字幕_一区二区福利视频

缺數據也能拿SOTA?清華&上海AI Lab破解機器人RL兩大瓶頸

一套端到端在線訓練方案

SimpleVLA-RL團隊 投稿

量子位 | 公眾號 QbitAI

視覺-語言-動作模型是實現機器人在復雜環境中靈活操作的關鍵因素。

然而,現有訓練范式存在一些核心瓶頸,比如數據采集成本高、泛化能力不足等。

為此,研究團隊提出了SimpleVLA-RL。基于veRL框架,他們實現了針對VLA模型的交互式軌跡采樣與并行仿真渲染機制。

缺數據也能拿SOTA?清華&上海AI Lab破解機器人RL兩大瓶頸

SimpleVLA-RL通過 “交互式軌跡采樣+結果獎勵+探索增強” 的設計,解決了VLA模型訓練的三大核心瓶頸:

  • 降低對大規模演示數據的依賴,提升數據效率;
  • 增強模型在分布偏移場景下的泛化能力;
  • 實現高效的Sim-to-Real遷移,提升真實世界任務性能。

實驗結果表明,該框架在LIBERO與RoboTwin等標準基準測試中均實現了SoTA的性能。更為關鍵的是,即便在有限數據的條件下,SimpleVLA-RL依然能夠訓練出表現優異的模型并具備極高的泛化能力。

在 “單軌跡 SFT”(每個任務僅1條演示數據)場景下,應用SimpleVLA-RL后,OpenVLA-OFT的LIBERO平均成功率從48.9%提升至96.9%,長時序任務LIBERO-Long從17.3%提升至91.7%

缺數據也能拿SOTA?清華&上海AI Lab破解機器人RL兩大瓶頸

此外,模型在訓練過程中還展現出自主探索能力,并涌現出新的操作策略,例如通過“推動”替代“抓取”的Pushcut現象。這些結果表明,SimpleVLA-RL為VLA模型的高效訓練與泛化能力提升開辟了新的研究路徑。

SimpleVLA-RL:端到端在線訓練方案

VLA模型作為機器人操控領域的重要研究范式,旨在融合視覺感知、語言理解與動作生成,從而在復雜物理環境中實現靈活的任務執行。

現階段的主流訓練流程通常遵循 “大規模預訓練+有監督微調” 的范式。然而,該方法在實際應用中面臨兩大核心瓶頸:

數據稀缺性

SFT依賴于大規模的高質量機器人操作軌跡,而此類數據的采集過程需要精心構建實驗場景、涵蓋多樣化的交互對象,并依賴專業操作人員完成。由此導致采集成本高昂、規模受限,從根本上制約了其可擴展性。

泛化能力不足

SFT的學習過程高度依賴于任務與場景特定的數據分布,因而在面對分布外任務(out-of-distribution tasks)、全新環境或未見過的對象時,模型性能會顯著下降,尤其在長時序依賴與組合型任務中尤為明顯。

與此同時,大規模推理模型(如DeepSeek-R1)的最新進展表明強化學習在僅依賴結果獎勵的情況下,也能顯著提升模型的逐步推理能力。

這引出了一個自然的問題:RL能否同樣有效地增強 VLA 模型在長時序任務中逐步規劃動作的能力?然而將RL直接應用于VLA訓練又面臨一些獨特挑戰:

1、傳統機器人RL往往依賴人工設計的過程獎勵,該方式難以擴展至復雜的開放環境;

2、VLA的訓練需要與物理或高保真模擬環境進行多輪交互,訓練效率低,成本遠高于基于文本的LLM推理優化。

缺數據也能拿SOTA?清華&上海AI Lab破解機器人RL兩大瓶頸

基于上述問題,研究團隊出了SimpleVLA-RL,它是在veRL(LLM強化學習框架)上擴展的一套端到端在線訓練方案,專門針對VLA模型的特點做了優化。

整體設計主要包含四部分:

首先是交互式軌跡采樣。與LLM僅依賴文本token采樣不同,VLA必須在閉環中不斷更新視覺觀測和機器人狀態。

因此,SimpleVLA-RL讓模型直接輸出動作token的概率分布,用隨機采樣生成多樣軌跡。整個過程中,機器人執行動作后環境返回新狀態,再繼續生成,直到任務完成。

其次是結果獎勵建模。研究人員不再使用復雜的過程獎勵(如距離目標遠近),而是采取極簡的二元結果:

任務成功記為1,失敗記為0,并將這個獎勵均勻分攤到整個軌跡的動作token上。

這樣一來,不僅避免了過程獎勵在不同任務間的不可遷移性,也省去了針對任務調參的麻煩,更好地聚焦了訓練目標。

第三是探索增強。VLA模型很容易因為訓練數據過于單一而收斂到狹窄解法,從而導致rollout的軌跡高度同質化進而影響GRPO的優勢估計。

為了解決這個問題,SimpleVLA-RL在三個地方做了調整:

  • 動態采樣,只保留“部分成功、部分失敗”的軌跡組,確保優勢估計有效,避免梯度消失;
  • 擴大GRPO的裁剪區間,從[0.8, 1.2]放寬到[0.8, 1.28],讓低概率但可能有價值的動作更容易被保留;
  • rollout階段提高采樣溫度,從1.0提升到1.6,以此鼓勵更多樣化的探索。

最后是訓練目標。基于上述的一系列改進,團隊進一步對GRPO做了簡化:移除了KL散度正則項,不再依賴參考模型,從而減少內存消耗,也讓新行為的探索不受束縛。

缺數據也能拿SOTA?清華&上海AI Lab破解機器人RL兩大瓶頸

研究團隊的主要貢獻可以總結為如下幾點:

構建VLA專屬高效RL框架:基于veRL擴展,加入VLA交互式軌跡采樣、多環境并行渲染及 “訓練-推理-渲染” 一體化設計,解決VLA與環境交互慢、成本高的問題,支持規模化訓練。

最優性能:團隊引入了探索增強策略,使性能穩定提升10–15%。在LIBERO與RoboTwin 1.0 & 2.0等基準上,SimpleVLA-RL超越多個現有SoTA模型。

數據效率與泛化能力:僅需單個演示軌跡,RL即可將LIBERO-Long的成功率從17.1%提升至91.7%,并在空間、物體與任務泛化上顯著優于SFT。

真實世界可部署性:仿真環境中訓練的策略能夠有效遷移至真實機器人,實現強大的仿真到現實(sim-to-real)性能提升,無需額外的真實機器人數據。

發現 “Pushcut” 新現象:RL訓練使模型自主探索出人類演示之外的新策略。

基準測試性能:刷新SOTA

SimpleVLA-RL基于OpenVLA-OFT(autoregressive VLA模型)實現,在三大基準測試(LIBERO、RoboTwin1.0、RoboTwin2.0)及真實世界任務中驗證,核心結果如下:

LIBERO(單臂操控基準)

在Spatial、Object、Goal、Long四個任務集上,SimpleVLA-RL將OpenVLA-OFT 的平均成功率從91.0%提升至99.1%,其中長時序任務LIBERO-Long提升12.0個百分點(86.5%→98.5%),超越π?(85.2%)、UniVLA(92.0%)等SOTA模型。

缺數據也能拿SOTA?清華&上海AI Lab破解機器人RL兩大瓶頸

RoboTwin1.0(雙臂操控基準)

四個任務平均成功率從39.8%提升至70.4%,其中 “Blocks Stack” 任務提升33.1個百分點(7.1%→40.2%)。

缺數據也能拿SOTA?清華&上海AI Lab破解機器人RL兩大瓶頸

RoboTwin2.0(高多樣性雙臂基準)

覆蓋短/中/長/超長時序12個任務,平均成功率從38.3%提升至68.8%,超越π?(49.2%)和RDT(33.3%)。即使是需多輪交互的超長時序任務(如 “Put Bottles Dustbin”),也提升18.7個百分點。

缺數據也能拿SOTA?清華&上海AI Lab破解機器人RL兩大瓶頸

在LIBERO的 “9個已見任務訓練+1個未見任務測試” 實驗中,SimpleVLA-RL與SF 表現出顯著差異:

SFT:在已見任務成功率達90%以上時,未見任務出現 “災難性遺忘”,部分任務成功率降至0%(如LIBERO-Goal的3個未見任務);

SimpleVLA-RL:所有未見任務成功率均提升,其中LIBERO-Object的 “Unseen Task 2” 提升36.5個百分點,LIBERO-Spatial 的 “Unseen Task 1” 從43.3%提升至71.8%,證明RL能學習通用技能而非過擬合特定數據。

僅使用仿真數據訓練(無真實數據),在AgileX Piper機械臂上測試4個真實任務:

OpenVLA-OFT 的平均成功率僅17.5%,“Pick Bottle” 任務完全失敗。

SimpleVLA-RL將平均成功率提升至38.5%,“Stack Bowls” 提升32個百分點(38.0%→70.0%),“Pick Bottle” 實現14%成功率,證明RL能增強仿真模型的真實環境適配性。

在RoboTwin 2.0的 “Move Can Pot” 與 “Place A2B Right” 兩個任務中,SFT模型僅能復現演示數據中顯式呈現的“抓取–移動–放置”操作序列。

相比之下,經過SimpleVLA-RL訓練的模型能夠自主探索并發現更高效的替代策略,例如直接通過“推”的方式將罐子移至目標位置。研究團隊將這種現象定義為 “Pushcut”,其特征是能夠突破人類演示模式限制,利用獎勵信號探索并采納演示外的路徑。

他們認為其本質在于結果獎勵并不約束具體動作模式,而是允許模型在滿足任務目標的前提下,自主選擇最優或更簡潔的行為路徑。

“Pushcut” 現象證明RL能讓VLA模型超越人類演示的局限并探索更優策略,為未來自主、自適應VLA模型的研發提供了新范式。

論文鏈接:https://arxiv.org/pdf/2509.09674
Github鏈接:https://github.com/PRIME-RL/SimpleVLA-RL

版權所有,未經授權不得以任何形式轉載及使用,違者必究。
中文字幕一区二区三区不卡在线| 欧美高清性xxxxhd| 黄色片免费观看视频| 日韩一区二区三区电影在线观看| 99免费视频观看| 综合在线观看色| 国产一级黄色录像片| 色天天综合久久久久综合片| 一本大道熟女人妻中文字幕在线 | 亚洲精品一区二区三区樱花| 久久精品亚洲一区二区| 日韩av片电影专区| 美女尤物国产一区| 亚洲欧美另类日本| 亚洲自拍偷拍一区二区三区| 日韩视频亚洲视频| 日日夜夜免费精品视频| 97在线看免费观看视频在线观看| 外国一级黄色片| 亚洲精品一区二区三区99| 久久久精品91| 欧美极品欧美精品欧美视频| 日韩av一二三区| 欧美国产精品va在线观看| 国产成人av免费| 成人疯狂猛交xxx| 99精品欧美一区| 日本成年人网址| 欧美一级国产精品| 91精品国产综合久久香蕉最新版 | 欧美18视频| 99精品视频在线观看免费| 51xx午夜影福利| 亚洲欧美乱综合| 亚洲在线观看网站| 国产成人亚洲精品青草天美| 中文字幕日韩精品无码内射| 色老头久久综合| 中文字幕第六页| 少妇av一区二区三区| 少妇喷水在线观看| 日本午夜一区二区三区| 国产精品水嫩水嫩| 性一交一黄一片| 久久久999国产| 奇米影视在线99精品| 777av视频| 精品国产凹凸成av人导航| 波多野结衣视频网址| 精品国产一区二区三区免费 | 中文字幕一区久久| 色妞在线综合亚洲欧美| 久久激情久久| 性高湖久久久久久久久aaaaa| 精品视频在线看| 一级黄色免费看| 国产又粗又爽又黄的视频| 91精品国产色综合久久| 一级淫片免费看| 神马影院午夜我不卡影院| 欧洲av在线精品| 一级特黄aa大片| 中文字幕人妻熟女人妻洋洋| 亚洲精品理论电影| 六月丁香综合在线视频| www.久久av.com| jlzzjlzz国产精品久久| 最近免费观看高清韩国日本大全| 欧美日韩不卡一区| 久久久久久久久久影院| 国产在线一区二区三区欧美| 色94色欧美sute亚洲线路一ni| 国产成人无码一区二区在线播放| 中文字幕色一区二区| 亚洲精品国产综合区久久久久久久| 欧美视频久久久| 国产乱码一区二区三区四区| 日韩美女视频免费看| 亚洲最新视频在线观看| 久久久久久欧美精品se一二三四| 国模一区二区三区私拍视频| 欧美日韩久久不卡| 无码国产精品一区二区色情男同 | 日本人妖一区二区| 亚洲调教欧美在线| 激情小说综合区| 欧美精品18+| 久久三级视频| 国产女主播喷水高潮网红在线| 成人欧美视频在线| 欧美精品久久一区| 国产在线看一区| 麻豆国产尤物av尤物在线观看| 精品国产一区二区三区在线| 精品国偷自产在线视频99| 国产精品久久久久毛片软件| 国产精品一级视频| 中文字幕在线视频一区二区| 国产精品偷伦免费视频观看的| 欧美日韩免费在线视频| 精一区二区三区| 亚洲AV无码国产成人久久| 麻豆中文字幕在线观看| 欧美精品成人在线| 色先锋久久av资源部| 蜜桃av噜噜一区二区三区小说| 午夜激情福利电影| 草草久久久无码国产专区| 国产精品专区一| 国产亚洲精品久久久久久| 亚洲少妇最新在线视频| 久久精品一区| 国产成人无码一区二区三区在线 | 无码人妻精品一区二区三区在线| 国产精品影片在线观看| 亚洲精品国产精品自产a区红杏吧 亚洲精品国产精品乱码不99按摩 亚洲精品国产精品久久清纯直播 亚洲精品国产精品国自产在线 | 性久久久久久久久久| www国产免费| 99热在线国产| 欧美激情视频给我| 精品黑人一区二区三区久久| 夜夜精品视频一区二区| 成人综合在线网站| 久久伊人一区| 91精品国产91久久久| 精品视频—区二区三区免费| 香蕉影视欧美成人| kk眼镜猥琐国模调教系列一区二区| 亚洲一区二区天堂| 欧美成人一区二区三区高清| 向日葵污视频在线观看| 在线视频精品一区| 91深夜福利视频| 欧美国产日韩在线| 免费97视频在线精品国自产拍| 欧美喷潮久久久xxxxx| 夜色激情一区二区| 中文字幕免费一区| 成人性视频网站| 日韩av在线发布| 91影院在线播放| av大全在线观看| 久久久久久久久四区三区| 亚洲新中文字幕| 国产精品福利在线| 久久久视频在线| 久久精品视频在线| 亚洲一二在线观看| 精品视频—区二区三区免费| 欧美成人官网二区| 3751色影院一区二区三区| 欧美性色视频在线| 精品美女永久免费视频| 亚洲欧美激情插 | 四虎免费在线观看| 国产盗摄一区二区三区在线| 国产精品久久久免费看| www.av免费| 在线免费观看亚洲视频| 三级影片在线看| 亚洲国产综合久久| 国产大片aaa| 国产又黄又猛又粗又爽| 在线视频精品免费| 国产女主播福利| 国产激情久久久久久熟女老人av| 不卡av中文字幕| 久热国产精品| 国产精品一区二区视频| 91理论电影在线观看| 国产精品国产三级国产专播品爱网 | www.国产欧美| 久久精品午夜| 成人免费视频一区| 亚洲国产岛国毛片在线| 亚洲高清不卡在线| 欧美日韩激情在线| 精品中文字幕久久久久久| 久久精品视频播放| 国产成人涩涩涩视频在线观看| 91亚洲va在线va天堂va国| 久久综合色一本| 国产精品国产亚洲精品看不卡| 亚洲精品蜜桃久久久久久| 九九九在线观看视频| 丰满少妇一区二区| 日本道在线观看| 天堂久久一区二区三区| 2014亚洲片线观看视频免费| 亚洲成av人片一区二区| 亚洲第一中文字幕| 国语自产精品视频在线看一大j8 | 成人性生交大片免费看中文| 亚洲精品免费在线播放| 欧美中文字幕一二三区视频| 日韩精品久久久久久| 秋霞av鲁丝片一区二区| 91丨porny丨国产入口| 在线这里只有精品| 久久亚洲一区二区三区四区五区高 | 韩国三级在线看| 日本一级黄色录像| 老司机午夜精品99久久| 亚洲女爱视频在线| 亚洲国产中文字幕在线观看| 国产精品久久久久久久久久ktv| 精品一区二区成人免费视频 | 色综合色综合网色综合| 色综合久久久久久久久五月| 久久综合在线观看| 最新中文字幕第一页| 97久久精品人人做人人爽| 3d成人h动漫网站入口| 国产精品亚洲第一区| 国产亚洲精品网站| 国产精品18p| 国产精品69毛片高清亚洲| 欧美男生操女生| 成人夜晚看av| 91大神免费观看| 国产视频一区二区三区四区五区| 丰满人妻一区二区三区大胸| 中文字幕人妻一区二区三区视频| 精品视频一区 二区 三区| 色天天综合狠狠色| 国产精品一区二区三区免费观看| 鲁一鲁一鲁一鲁一av| 男女视频免费看| 久久久久综合| 久久久久久久综合| 在线欧美小视频| 91精品国产亚洲| 宅男噜噜99国产精品观看免费| 国产人妻大战黑人20p| 九九久久精品视频| 亚洲电影第1页| 中文字幕乱码免费| 欧美亚洲色综久久精品国产| 国产女人高潮时对白| 国产丝袜欧美中文另类| 欧美xxxx18性欧美| 无码中文字幕色专区| 高潮无码精品色欲av午夜福利| 一区二区三区日本| 国产精品高潮呻吟久久av无限 | 午夜电影一区二区三区| 亚洲bt欧美bt日本bt| 久久婷婷五月综合| 国产亚洲一区二区三区在线观看| 欧美成年人视频| 国产女同无遮挡互慰高潮91| 美洲天堂一区二卡三卡四卡视频| 精品人妻无码一区二区色欲产成人 | 亚洲77777| 日本午夜一区二区| 国产一区二区三区在线看| 国产福利视频在线播放| 蜜桃精品视频在线| 欧美wwwxxxx| 人妻丰满熟妇aⅴ无码| 国产精品视频九色porn| 91免费看片在线| 99视频在线看| 欧美一区二区三区播放老司机| 妞干网在线播放| 久久电影网电视剧免费观看| 欧美极品少妇xxxxⅹ喷水| 亚洲精品激情视频| 国产精品久久久久四虎| 国产精品日韩一区二区免费视频 | 99视频网站| 中文字幕日韩国产| 亚洲精品成人免费| 亚欧美一区二区三区| 欧美国产日本视频| 久久久久无码国产精品一区| 亚洲一区二区人妻| 亚洲色无码播放| 能看毛片的网站| 亚洲美女在线国产| 亚洲综合网中心| 极品尤物av久久免费看| 国产精品电影院| 久久视频精品在线| 国产999免费视频| 亚洲视频一区二区在线| 亚洲资源在线看| 成 人 黄 色 片 在线播放 | 国产www视频| 九九热精品视频国产| 欧美极品视频在线观看| 日韩欧美一级二级| 538国产视频| 欧美性大战xxxxx久久久| 激情综合网俺也去| 中文字幕在线一区| 国产精品一区在线免费观看| 久久爱www久久做| 成人av资源| 老牛影视一区二区三区| 91高跟黑色丝袜呻吟在线观看| www香蕉视频| 日韩美女免费视频| 国产又粗又黄又爽| 欧美一级高清免费| 亚洲第一第二区| 国产欧美日韩中文| 四虎免费在线观看| 国产精品美女诱惑| 国产高清久久久| 亚洲黄色成人久久久| 国产亚洲人成网站| 免费无码毛片一区二三区| 国产精品不卡在线观看| caoporn超碰97| 色婷婷精品大在线视频| 国产专区欧美专区| www.日韩一区| 亚洲国产精品一区二区久久恐怖片 | 大尺度做爰床戏呻吟舒畅| 国产精品99久久久久久久女警 | 日韩国产高清视频在线| 日本猛少妇色xxxxx免费网站| 日韩福利视频在线观看| 精品人妻无码一区二区三区| 欧美日韩性生活| 992kp免费看片| 欧美高清dvd| av网站免费在线播放| 午夜精品视频一区| 性活交片大全免费看| 日韩视频123| 日韩美女视频网站| 91精品国产高清久久久久久91| 好吊色在线观看| 亚洲一区二区三区在线视频 | 国产黑丝在线一区二区三区| 亚洲精品一区二区三区四区五区 | 亚洲欧美日韩精品| 亚洲AV无码成人片在线观看| 国产精品永久免费视频| 成人不卡免费av| 亚洲爆乳无码精品aaa片蜜桃| 亚洲国产综合人成综合网站| 久久久久久婷婷| 欧美激情视频在线观看| 99麻豆久久久国产精品免费| 伊人网综合视频| 国产91精品在线播放| 99精品黄色片免费大全| 网站免费在线观看| 欧美亚洲视频在线看网址| 99re热视频精品| 人妻aⅴ无码一区二区三区| 国产自产女人91一区在线观看| 亚洲aaa精品| 中国一区二区视频| 欧美亚洲精品一区二区| 亚洲精品永久免费| k8久久久一区二区三区| 亚洲国产av一区| 91成人性视频| 国产日韩欧美高清在线| 性欧美一区二区| 精品日本一区二区三区| 日韩精品极品在线观看播放免费视频| 奇米影视一区二区三区小说| 午夜免费一级片| 国产精品444| 色中色一区二区| 老妇喷水一区二区三区| 怡红院一区二区| 国产一区二区黄色| 欧美午夜片在线观看| 视频一区二区国产| 性欧美精品男男| 99精彩视频在线观看免费| 亚洲乱码中文字幕综合| 久久精品国产亚洲AV无码男同| 欧亚精品中文字幕| 国产精品私人自拍| 蜜桃av免费在线观看| 欧美日韩在线观看一区| 亚洲精品美女在线观看播放| 三级一区在线视频先锋| 天天舔天天操天天干| 日韩欧美亚洲日产国| 久久视频在线播放| 亚洲精品中文字幕在线观看| 欧美 日韩 国产 在线| 日韩女同一区二区三区| 免费av手机在线观看| 欧洲美女免费图片一区| 欧美日韩免费在线视频| 国产美女视频一区| 久久久久久久亚洲| 亚洲免费成人在线视频| 国产日韩欧美亚洲一区| 亚洲国产精品中文| 国产精品的网站| 在线免费av网| 国产乱了高清露脸对白| 日韩免费av电影| 91黑丝高跟在线| 欧美一区二区视频网站| 1区2区3区国产精品| 午夜视频在线播放| 国产精品视频123| 一级片视频免费看| 无码无遮挡又大又爽又黄的视频|