色综合中文综合网_性猛交娇小69hd_久久精品99久久久久久_欧美日韩精品一区二区三区四区 _97视频色精品_国产高清精品久久久久_日日鲁鲁鲁夜夜爽爽狠狠视频97 _国产成人免费视频精品含羞草妖精 _熟女少妇在线视频播放_精品人妻一区二区三区麻豆91 _久久女同性恋中文字幕_一区二区福利视频

騰訊發布超低成本AI訓練法!120元效果秒殺70000元微調方案

將經驗知識作為token先驗

時令 發自 凹非寺

量子位 | 公眾號 QbitAI

只花120元,效果吊打70000元微調!

騰訊提出一種升級大模型智能體的新方法——無訓練組相對策略優化Training-Free GRPO。

無需調整任何參數,只要在提示詞中學習簡短經驗,即可實現高性價比提升模型性能

騰訊發布超低成本AI訓練法!120元效果秒殺70000元微調方案

實驗表明,在數學推理和網頁搜索任務上,利用無訓練GRPO的DeepSeek-V3.1-Terminus模型展現出顯著的跨領域性能提升。

與微調32B模型相比,該方法在671B大型模型上所需訓練數據更少、成本更低。

騰訊發布超低成本AI訓練法!120元效果秒殺70000元微調方案

網友不禁表示:

也太劃算了吧!

騰訊發布超低成本AI訓練法!120元效果秒殺70000元微調方案

下面具體來看。

將經驗知識作為token先驗

如今,大語言模型正逐漸成為強大的通用智能體,在復雜問題解決、網頁研究等通用任務中表現出色。

然而,在需外部工具(如計算器、API) 和特定提示策略的專業場景中,LLM往往會因對領域需求和工具不熟悉,而導致性能欠佳。

為了彌補上述差距,基于GRPO的強化學習通過參數空間調整實現對模型行為的定向優化。盡管這些方法能有效提升特定任務的能力,但其對LLM參數調優的依賴仍存在多方面挑戰:

  • 算力成本高;
  • 跨領域泛化能力弱;
  • 數據稀缺;
  • 收益遞減。

參數調優中的這些局限引發了一個根本性問題:在參數空間中應用強化學習是否是唯一可行的方法?能否以非參數化的方式提升LLM智能體的性能,同時降低數據和計算成本?

為此,騰訊優圖團隊提出了無訓練組相對策略優化,通過輕量級的token先驗在上下文中學習經驗知識,無需修改模型參數即可提升LLM智能體性能。

騰訊發布超低成本AI訓練法!120元效果秒殺70000元微調方案

Training-Free GRPO重新利用了傳統GRPO基于組間相對評估的核心邏輯,但將其轉化為非參數化的推理階段過程。

該方法保持參數θ永久凍結,轉而維護一個外部經驗知識庫(初始為空集),通過動態更新知識庫而非模型參數來實現性能優化。

隨后,Training-Free GRPO生成自然語言形式的組相對語義優勢。

騰訊發布超低成本AI訓練法!120元效果秒殺70000元微調方案

具體流程如下所示:

1、對于每個輸出,免訓練GRPO首先讓同一個大語言模型M生成對應分析摘要。

騰訊發布超低成本AI訓練法!120元效果秒殺70000元微調方案

2、基于摘要集和當前經驗,由M說明每個輸出相對成功或失敗的原因,然后提取出簡明的自然語言經驗。

騰訊發布超低成本AI訓練法!120元效果秒殺70000元微調方案

之后,傳統GRPO會通過對單個批次中所有優勢計算得到的目標函數進行梯度上升,從而更新模型參數θ。

而在Training-Free GRPO中,該方法通過使用當前批次中的所有語義優勢A_text來更新經驗庫,每條操作可能包括:

  • Add(添加):將A_text中描述的經驗直接追加到經驗庫
    中。
  • Delete(刪除):根據A_text,從經驗庫中移除低質量經驗。
  • Modify(修改):根據A_text提供的見解,優化或改進經驗庫中已有的經驗。
  • Keep(保留):經驗庫保持不變。

在更新經驗庫后,條件策略會在隨后的批次或訓練輪次中生成偏移后的輸出分布。

可以說,Training-Free GRPO是通過改變上下文而非模型參數本身,將模型引向高獎勵輸出。

其中,被凍結的基礎模型起到了強先驗(strong prior)的作用,不僅保證輸出的連貫性,還提供了類似于GRPO中KL散度約束的內在穩定性,防止策略過度偏離參考模型。

實驗結果

為評估免訓練GRPO方法的性能,團隊在數學推理和網絡搜索兩大基準測試上開展了多維度對比實驗。

在實驗中,研究主要關注的是現實應用中難以微調且成本高昂的大型高性能LLM,例如DeepSeek-V3.1-Terminus

騰訊發布超低成本AI訓練法!120元效果秒殺70000元微調方案

實驗結果顯示,Training-Free GRPO在數學推理任務中取得了顯著提升,無論是否使用工具,均表現出明顯優勢。

基線模型DeepSeek-V3.1-Terminus+ReAct在AIME24和AIME25上的得分分別為80.0%和 67.9%,而應用Training Free GRPO后,凍結模型的表現顯著提升至82.7%和73.3%,分別帶來2.7%和5.4%的絕對增益。

值得注意的是,這一提升僅使用了100個跨域訓練樣本,并且無需任何梯度更新。相比之下,傳統強化學習方法如ReTool和AFM在32B LLM上通常需要數千個訓練樣本,成本超過10000美元,而Training Free GRPO僅需約18美元

騰訊發布超低成本AI訓練法!120元效果秒殺70000元微調方案

在AIME24和AIME25實驗中,隨著每一步學習,模型表現持續提升,這表明僅從100個問題中學到的經驗能夠有效泛化,同時也凸顯了多步學習的必要性。

此外,在訓練過程以及跨域評估中,模型的平均工具調用次數都有所下降。這表明Training-Free GRPO不僅促使模型做出正確的推理和決策,還能教會智能體更高效、更謹慎地使用工具。

學習到的經驗知識幫助智能體發現一些捷徑,避免錯誤或冗余的工具調用,從而驗證了基于語義優勢優化方法的有效性。

在網絡搜索任務中,團隊選擇在WebWalkerQA基準上評估免訓練GRPO方法的有效性。

騰訊發布超低成本AI訓練法!120元效果秒殺70000元微調方案

可以看出,該方法在使用DeepSeek-V3.1-Terminus模型時實現了67.8%的Pass@1得分,較基線63.2%有顯著提升。

此外,研究還對來自WebWalkerQA的51個實例進行分層隨機抽樣,以開展消融實驗。

騰訊發布超低成本AI訓練法!120元效果秒殺70000元微調方案

由上圖可知,直接使用生成的經驗會略微降低ReAct的性能(Pass@1 為64.7%,相比原來的66.7%),這說明僅靠上下文示例而沒有經過優化,難以帶來性能提升。

不使用真實答案的Training-Free GRPO在Pass@1上與ReAct保持一致(66.7%),但在Pass@3上提升到78.4%,表明即使沒有真實答案,通過相對獎勵評估也能提高輸出的一致性。

完整的Training-Free GRPO則取得了最佳表現(Pass@1為68.6%,Pass@3為78.4%),凸顯了結合真實答案指導、語義優勢和經驗優化的重要性。

此外,研究還驗證了模型能力是基于經驗優化能否有效的前提條件。

實驗將Training-Free GRPO應用于QwQ-32B時,Pass@1僅為25.5%,遠低于DeepSeek-V3.1-Terminus的66.7%,甚至低于其自身的ReAct基線(27.5%)。這表明該方法的有效性依賴于基礎模型在復雜工具使用場景中的推理和工具使用能力。

論文鏈接:https://arxiv.org/abs/2510.08191
參考鏈接:https://x.com/rohanpaul_ai/status/1978048482003890625
Github鏈接:https://github.com/TencentCloudADP/youtu-agent/tree/training_free_GRPO

版權所有,未經授權不得以任何形式轉載及使用,違者必究。
中文字幕av不卡| 91福利社在线观看| 成人福利网站在线观看11| 久久久精品国产sm调教| 日韩欧美亚洲一二三区| 91精品91久久久中77777老牛| 国产成人免费在线| 成人激情av| 99产精品成人啪免费网站| 精品国产一区av| 黄色裸体一级片| 欧美久久久久久久久中文字幕| 91精品国产91综合久久蜜臀| 国产精品一区二区久久国产| 真实的国产乱xxxx在线91| 亚洲欧美日韩爽爽影院| 巨胸大乳www视频免费观看| 一本一本久久a久久精品综合麻豆 一本一道波多野结衣一区二区 | 中文字幕日韩欧美在线| 国产123在线| 91精品在线观看入口| 先锋资源在线视频| 亚洲成人动漫一区| 日韩欧美xxxx| 亚洲欧美影音先锋| 青春草国产视频| 久久综合九色综合欧美就去吻| 精品国产一二| 国内精品视频666| 国产在线精品一区二区三区》| 石原莉奈在线亚洲二区| 91香蕉电影院| 日韩中文字幕麻豆| 99精品国产一区二区| 久久精品日韩欧美| 91福利入口| 秋霞午夜av一区二区三区| www.久久艹| 国产在线精品免费av| 免费99视频| 国产成人精品免费| 伊人精品久久久久7777| 久久久久久影视| 欧美tk—视频vk| 免费观看日韩毛片| 亚洲国产精品一区二区久久恐怖片 | 久草中文综合在线| 精品综合久久| 国产99久久久精品| 中文字幕精品一区日韩| 国产欧美一区二区三区网站| ijzzijzzij亚洲大全| 国产精品国产三级国产aⅴ入口| 91视频 -- 69xx| 亚洲成人自拍偷拍| 影音先锋资源av| 亚洲成人黄色在线| 久久人人爽人人爽人人| 久久人人爽人人| 国产免费不卡av| 91人成网站www| 国产一区不卡视频| 亚洲乱码日产精品bd在线观看| 国产精品二三区| 伊人国产在线视频| 日韩一区二区视频在线观看| 欧美日韩偷拍视频| 91国内免费在线视频| 五月婷婷狠狠干| 日本不卡二区高清三区| 国产精品色眯眯| 亚洲精品手机在线观看| 777午夜精品免费视频| 五月天婷婷色综合| 欧美一区二区三区……| 久久国产精品72免费观看| 一区二区三区久久网| 亚洲男同1069视频| 色婷婷av一区二区三区久久| 久草中文在线视频| 日本中文字幕成人| 加勒比av一区二区| 日韩欧美一区二| 欧美午夜精品一区二区蜜桃| 777777国产7777777| 欧美大秀在线观看| 首页亚洲欧美制服丝腿| 国产福利片一区二区| 狠狠久久亚洲欧美专区| 国产又色又爽又高潮免费| 久久久之久亚州精品露出| 日韩电影在线免费看| 国产日韩第一页| 色婷婷av久久久久久久| 久热这里有精品| 欧美中文字幕视频| 成人激情文学综合网| 色国产在线视频| 亚洲乱码国产乱码精品精| 国产精品久久欧美久久一区| 欧美一级日本a级v片| 亚洲国产精品视频| 欧美特级一级片| 国产日韩欧美一二三区| 久久精品免费在线观看| 日本一区二区在线免费观看| 久久手机免费视频| 久久er精品视频| 国产第一页视频| 亚洲欧洲在线看| 天堂在线资源8| 日韩美女爱爱视频| 精品国产乱码久久久久久图片 | free性中国hd国语露脸| 久久视频在线免费观看| 蜜臀av一区二区| 成人性做爰aaa片免费看不忠| 亚洲国产成人在线播放| 隣の若妻さん波多野结衣| 国产成人生活片| 欧美成人a视频| 人妻va精品va欧美va| 日韩成人三级视频| 亚洲国产91精品在线观看| 亚洲狼人综合网| koreanbj精品视频一区| 亚洲欧洲偷拍精品| 黑人巨大精品欧美一区| 超碰成人在线播放| 九九久久国产精品| 99精品视频中文字幕| av网站免费在线播放| 国产福利精品在线| 亚洲精品乱码久久久久| 糖心vlog免费在线观看| 国产女人水真多18毛片18精品 | 国产成人精品三级| 久久性爱视频网站| 国产精品嫩草影院一区二区| 亚洲欧美色综合| 久久黄色免费视频| 神马影院一区二区| 亚洲国产古装精品网站| 免费国产亚洲视频| 亚洲av无码专区在线播放中文| 青青草原一区二区| 亚洲精品乱码久久久久久久久| 国产成人在线免费视频| 欧美性受黑人性爽| 亚洲精品在线不卡| 国产91精品免费| 国产精品美女高潮无套| 欧美这里有精品| 熟女少妇一区二区三区| 91亚洲精品久久久| 在线视频综合导航| 五月婷婷伊人网| 久久撸在线视频| 国产z一区二区三区| 五月激情六月综合| 精品国产伦一区二区三区| 国产精品igao| 国产成人97精品免费看片| 亚洲午夜国产一区99re久久| 97人妻精品一区二区三区动漫| 日本精品久久久久中文字幕| 97在线视频一区| 亚洲午夜电影网| 亚洲一区二区三区高清视频| 国内外成人免费激情视频| 欧美精品videosex牲欧美| 自拍av一区二区三区| 免费看污视频的网站| 国产激情在线观看视频| 日韩av电影在线网| 91久久一区二区| 日韩av中文在线观看| 欧美性猛交xxxx乱| 亚洲视频精品一区| 精品国产一区久久久| 亚洲品质自拍视频| 国产男女猛烈无遮挡| 中文字幕1区2区| 国内精品视频免费| 国产亚洲欧美一区| 最新成人av在线| 国产麻豆免费观看| av影片在线播放| 精品视频在线观看| 中文字幕日韩视频| 亚洲曰韩产成在线| 五月激情丁香婷婷| 亚洲一二三精品| 成人在线免费高清视频| 91大神福利视频在线| 91国产精品成人| 国产在线精品不卡| 少妇一级淫片免费放中国| av丝袜天堂网| 国产精品二区在线观看| 中文字幕视频一区二区在线有码| 亚洲天堂免费看| 无码精品视频一区二区三区| 激情五月激情综合| 97国产在线播放| 成人激情av在线| 亚洲美女性视频| 亚洲视频一二三| 人人狠狠综合久久亚洲| 日本a在线观看| 青青草精品视频在线观看| http;//www.99re视频| 在线观看视频亚洲| 一本到三区不卡视频| 国产精品1区二区.| 最近中文字幕av| 欧美肉大捧一进一出免费视频| 亚洲欧美综合一区| 国产精品91在线观看| 精品国产乱码久久久久久久久| 国产嫩草影院久久久久| 欧美 日韩 国产 成人 在线| 亚洲天堂黄色片| 在线观看岛国av| 亚洲高清视频一区| 国产精品久久久久久久7电影| 亚洲精品久久久久久久久久久久 | 亚洲免费av电影| 亚洲成人av一区| 99久久精品国产导航| 亚洲精品911| 午夜偷拍福利视频| 亚洲av永久无码精品| 奇米影视亚洲色图| 欧美精品免费观看二区| 亚洲大片一区二区三区| 亚洲一区影音先锋| 亚洲第一天堂无码专区| 日韩欧美一区电影| 亚洲色图15p| 国语自产精品视频在线看一大j8 | 日韩精品视频网| 国产无遮挡又黄又爽在线观看 | 国产情侣小视频| youjizz亚洲女人| 午夜免费福利在线| 精品一区二区成人免费视频| 99在线观看视频| 欧洲精品在线视频| 久久精品99久久香蕉国产色戒| 制服丝袜在线91| 亚洲v中文字幕| 国产片一区二区三区| 韩日精品视频一区| 成人精品在线播放| 免费av中文字幕| 男人与禽猛交狂配| 法国空姐电影在线观看| 日本人dh亚洲人ⅹxx| 日韩av一二三四| 热久久最新地址| 日本一区二区三区在线视频| 成人精品一区二区三区电影黑人| 国内精品美女av在线播放| 在线播放国产一区二区三区| 精品欧美一区二区在线观看| 色婷婷激情综合| 亚洲精品免费电影| 中文字幕欧美国产| 91老师国产黑色丝袜在线| 久久精品国产亚洲aⅴ | 精品伊人久久久久7777人| 国精产品乱码一区一区三区四区| 中文字幕一区在线播放| 久久久久无码国产精品不卡| 亚洲黄色网址大全| 30一40一50老女人毛片| 日本wwwwwww| 亚洲欧美一区二区三区不卡| 国产精品乱码久久久久| 久久久久久香蕉| 日韩av片在线看| 国产原创popny丨九色| 黄色一级片在线看| 无码av天堂一区二区三区| 日韩一二区视频| 黄色网址在线免费看| www.午夜色| 最新黄色av网站| 黄频视频在线观看| 一区二区三区欧美在线| 9999在线观看| 成人免费看片视频在线观看| 黄色一级视频播放| 日韩精品一区二区三区四| 福利在线一区二区| 久久久久久久久久网| 欧美黄色免费影院| 热久久精品国产| 成人在线免费播放视频| 人人干人人干人人| www.成人黄色| 亚洲乱妇老熟女爽到高潮的片| 天天躁日日躁狠狠躁av| 少妇精品无码一区二区三区| 亚洲图片综合网| 免费在线观看你懂的| 欧美精品日韩在线| 伊人亚洲福利一区二区三区| 中文字幕在线观看视频www| 99精品欧美一区二区蜜桃免费| 中文字幕亚洲综合久久| 欧美精品一区二区三区高清aⅴ| 青椒成人免费视频| 国产麻豆精品theporn| 在线视频精品一| 挪威xxxx性hd极品| xxxxx91麻豆| 国产一级18片视频| 中文字幕日韩视频| 国产精品成人av久久| 青草热久免费精品视频| 久久国产精品影院| 欧美激情在线一区二区三区| 大肉大捧一进一出好爽视频| 亚洲欧美一区二区久久| 精人妻一区二区三区| 欧美专区在线播放| 亚洲日本丝袜连裤袜办公室| 国产无套在线观看| 亚洲视频在线二区| 午夜亚洲福利老司机| 日韩欧美不卡视频| 97se亚洲综合| 国产成人精品午夜视频免费| 欧美性猛交内射兽交老熟妇| 久久色.com| 亚洲性图一区二区| 在线91免费看| 国产精品老熟女一区二区| 热99精品里视频精品| 一级黄色片日本| 亚洲欧美综合v| 九九九国产视频| 国产成人免费av电影| 国产精品欧美一级免费| 在线观看免费视频国产| 亚洲欧美日韩中文在线制服| 久久免费手机视频| 久久精品国产v日韩v亚洲| 国产www免费观看| 免费观看黄色大片| 欧洲一区二区av| 国产成人亚洲综合无码| 亚洲一区日韩精品中文字幕| 国产熟妇久久777777| www.日韩免费| 国产欧美精品一区| 日本久久综合网| www插插插无码免费视频网站| xxx欧美精品| 亚洲一区二区三区四区的| 国产女同在线观看| 国产精品视频一二三四区| 亚洲欧美在线免费| 精品一区二区三区欧美| 鲁一鲁一鲁一鲁一色| 午夜影院久久久| 美国精品一区二区| 极品尤物一区二区三区| 亚洲精品乱码久久久久久黑人| 2021亚洲天堂| 日本一区二区三区视频在线观看 | 黑森林精品导航| 欧美三级中文字幕| 国产日韩欧美在线观看视频| 999视频在线免费观看| 亚洲网友自拍偷拍| 精品人妻无码一区二区性色| 久久男人的天堂| 青青草原av在线播放| 一区二区三区久久精品| 国产在线精品一区二区不卡了| 国产精品无码久久久久久| 正在播放一区二区三区| 国产最新精品视频| 欧美高清www午色夜在线视频| 国产精品毛片高清在线完整版| 免费观看黄一级视频| av中文字幕免费观看| 日韩久久久久久久久久久久| 亚洲网在线观看| 可以免费看不卡的av网站| 天天干天天舔天天操| 91久久久一线二线三线品牌| 色综合一个色综合亚洲| 亚洲精品久久久狠狠狠爱| 99国产精品白浆在线观看免费| 亚洲国产欧美精品| 国产欧美日韩卡一| 中文字幕国产在线观看| 日本黄大片在线观看| 精品国内二区三区| 三级欧美在线一区| 男男做爰猛烈叫床爽爽小说| 热99精品里视频精品| 一区二区三区精密机械公司| 久久不卡免费视频| 日本福利视频网站| 日本久久久久久久|