色综合中文综合网_性猛交娇小69hd_久久精品99久久久久久_欧美日韩精品一区二区三区四区 _97视频色精品_国产高清精品久久久久_日日鲁鲁鲁夜夜爽爽狠狠视频97 _国产成人免费视频精品含羞草妖精 _熟女少妇在线视频播放_精品人妻一区二区三区麻豆91 _久久女同性恋中文字幕_一区二区福利视频

LLM強化學習新框架!UCSD多智能體訓練框架讓LLM工具調用能力暴增5.8倍

結合樹狀采樣與角色化獎勵機制

PettingLLMs團隊 投稿

量子位 | 公眾號 QbitAI

大語言模型智能體的強化學習框架, 首次實現了通用的多智能體的“群體強化”。

在大語言模型(LLM)智能體的各種任務中,已有大量研究表明在各領域下的多智能體工作流在未經訓練的情況下就能相對單智能體有顯著提升。

但是現有的LLM智能體訓練框架都是針對單智能體的,多智能體的“群體強化”仍是一個亟須解決的問題。

為了解決這一領域的研究痛點,來自UCSD和英特爾的研究人員,提出了新的提出通用化多智能體強化學習框架——PettingLLMs。支持任意組合的多個LLM一起訓練。

LLM強化學習新框架!UCSD多智能體訓練框架讓LLM工具調用能力暴增5.8倍

研究背景

大語言模型驅動的多智能體系統在醫療、編程、科研、具身智能等多個領域均能大幅度提升任務表現。

為訓練大模型智能體,Group Relative Policy Optimization (GRPO) 已被驗證為通用的有效強化學習算法。然而,當前所有針對LLM的強化學習訓練框架,包括GRPO算法本身,都局限于單智能體訓練的范疇。多智能體間的協作優化,即“群體強化”的學習機制,仍然是一個亟待填補的空白。

GRPO算法的核心機制是,針對同一個輸入(prompt),通過多次采樣生成一組候選回答。隨后,算法在組內對這些回答進行評估(例如,通過一個獎勵模型),并計算它們之間的相對優勢。

這種優勢計算的有效性與公平性依賴于一個關鍵假設——組內所有用于比較的候選回答,都必須基于一個完全相同的上下文(即prompt)生成。

然而,將GRPO直接應用于多智能體(multi-agent)多輪(multi-turn)環境中存在一個核心困難。

在多智能體場景下,即使是針對同一個初始問題,不同智能體在不同輪次接收到的prompt差異顯著。

例如(如圖所示),一個負責編程的智能體,其在第二輪的prompt不僅包含原始問題,還可能融合了第一輪中自己生成的代碼以及其他智能體生成的單元測試。

LLM強化學習新框架!UCSD多智能體訓練框架讓LLM工具調用能力暴增5.8倍

因此,如果在MA環境中仍然簡單地將同一個初始問題產生的所有(跨輪次、跨智能體的)回答視為一個“group”來進行優勢計算,這就直接違反了GRPO所要求的“共同prompt”的核心假設。

這導致組內的優勢計算基準不統一,使得計算結果不再公平或有效。

所以核心問題就是,如何既保證每個組內有一定批次量的回答,又能保證優勢計算的公平。

方法概述

作者提出了一種greedy-search的樹狀采樣方法。

每輪次每個agent形成一個節點進行K個分支,在分支以后選擇此時reward最高的agent進行下一次分支。這樣能夠讓多智能體訓練能平衡好探索(exploration)與利用(exploitation)。

每一個agent的獎勵函數都考慮自身角色的獎勵和全局任務的獎勵來保證角色專屬能力和合作能力的進化。

LLM強化學習新框架!UCSD多智能體訓練框架讓LLM工具調用能力暴增5.8倍

對于多智能體的強化學習進化的另一個面臨一個核心的策略問題:在何種任務下,讓模型進化成不同角色的“專屬模型”(specialized models)?又在何種任務下,讓所有智能體共享一個“通用模型”(shared model)會更優?

為了實現兩種不同的訓練模式,作者搭建了如圖所示的異步分發訓練系統。

LLM強化學習新框架!UCSD多智能體訓練框架讓LLM工具調用能力暴增5.8倍

系統中的路由模塊負責收集多智能體系統在環境中交互產生的軌跡數據。

專屬模型模式下,系統可以配置多個獨立的模型資源池(如圖中的池i和池j)。路由模塊會將智能體i的數據批次僅發送給池i的更新單元,專門更新模型i;同時將智能體j的數據批次發送給池j的更新單元,獨立更新模型j。

而在共享模型模式中,相對地,路由模塊也可以將所有智能體的軌跡數據合并,并全部發送給同一個模型資源池的更新單元,以集中更新一個共享模型。

通用的多智能體強化學習框架:PettingLLMs

基于該項研究,作者開源了通用的多智能體強化學習框架,使得多智能體強化學習訓練開發變得敏捷、簡潔、優雅。

  • 在作者現有的系統上搭建環境開發只需要任務特有的agent的交互和獎勵函數。同時,作者也給環境開發設計建立了詳細的環境開發教程。
  • 已有的環境也已經包括了主流的agent任務比如數學、code、游戲等。
  • 該框架支持不同模型和agent之間的任意映射。也支持每個agent適配不同的lora的方式。

實驗效果

在推箱子這種長規劃任務中,通過AT-GRPO訓練,兩個agent都得到了強化,任務性能從14%提升至96%。

LLM強化學習新框架!UCSD多智能體訓練框架讓LLM工具調用能力暴增5.8倍

作者在Qwen3-1.7B與Qwen3-8B兩個規模上開展了大規模實驗,覆蓋規劃(Sokoban、Plan-Path)、代碼(LiveCodeBench、APPS、CodeContests)與數學(AIME24/25、OlympiadBench)三大類任務。

LLM強化學習新框架!UCSD多智能體訓練框架讓LLM工具調用能力暴增5.8倍

實驗結果表明:

  • 規劃類任務中,Sokoban從14%提升至96%,Plan-Path從47%提升至99.5%;
  • 代碼生成任務中,LiveCodeBench提升+6.1%,APPS+4.2%,CodeContests+7.0%;
  • 數學推理中,AIME 24提升+9.0%,AIME 25提升+17.9%。
LLM強化學習新框架!UCSD多智能體訓練框架讓LLM工具調用能力暴增5.8倍

消融實驗進一步驗證了關鍵設計——

只在單智能體(SA)里訓練,收益有限:把規劃/工具等子角色各自放在 SA 環境里訓練,單看各自指標會從 5.0% 提到11.0%/14.5%,但放回MAS聯合作業僅到16.0%。

互換角色策略會“崩盤”:把已經學成的兩個角色策略對調,準確率從96.0%→6.0%,說明兩位“隊友”學到的是互補但不可替代的能力。

協同越來越順、回合越來越少:訓練過程中兩位代理的學習回報同步上升,任務所需平均回合數持續下降——體現出更緊密的對齊與分工協作。

LLM強化學習新框架!UCSD多智能體訓練框架讓LLM工具調用能力暴增5.8倍

PettingLLMs通過支持通用的多智能體強化學習算法,讓多智能體一起學習一起進化,實現了跨任務、跨規模的通用強化學習算法。

論文:https://huggingface.co/papers/2510.11062
GitHub:https://github.com/pettingllms-ai/PettingLLMs

版權所有,未經授權不得以任何形式轉載及使用,違者必究。
av在线综合网| 97精品国产97久久久久久春色| 极品粉嫩小仙女高潮喷水久久| 日韩一区二区三区电影在线观看| 久久久国产一级片| 久久久久久av| 麻豆一区二区99久久久久| 免费在线观看91| 国产精品美女www爽爽爽| 116极品美女午夜一级| 午夜私人影院久久久久| yjizz视频| 欧美成人r级一区二区三区| 午夜精品一区二区三区视频| 国产一区二区三区精品久久久| 国产在线观看黄色| 成人h视频在线| 久久精品一区二区三区四区 | www.成人av.com| 国产三级欧美三级| 男女做爰猛烈刺激| 欧美与黑人午夜性猛交久久久| 国产成人午夜高潮毛片| 人妻熟妇乱又伦精品视频| 欧美精品久久久久久久多人混战| 成人精品免费在线观看| 精品无人区一区二区三区| 日本人妻丰满熟妇久久久久久| 91福利视频导航| 一区二区三区在线视频观看| 日本成人精品视频| 亚洲综合中文字幕在线| 一本久久a久久精品亚洲| www.好吊色| 日韩a在线播放| 欧美成年人视频网站| 欧美韩日一区二区三区四区| 国产精品国产三级国产专业不| 精品国产美女在线| 国产一区二三区好的| mm131国产精品| 午夜精品一区在线观看| 国产女人18水真多毛片18精品| 国产视频福利一区| 一本一本久久a久久精品综合麻豆| 国产性生活视频| 日韩视频在线视频| 日本一区二区三不卡| 极品美女销魂一区二区三区| 制服丝袜第一页在线观看| 亚洲欧洲日产国产网站| 丁香亚洲综合激情啪啪综合| 国产一级特黄aaa大片| av观看免费在线| 99影视tv| 欧美精品aaa| 日韩欧美国产一区二区在线播放| 青娱乐精品在线视频| 五月婷婷六月丁香综合| 国产精品久久久久久久久久新婚 | 色网站免费观看| 爱情岛论坛亚洲自拍| 激情六月天婷婷| 久久超碰亚洲| 91欧美视频网站| 欧美日韩高清区| 国产小视频国产精品| 一本色道久久综合狠狠躁篇怎么玩 | 久久午夜鲁丝片午夜精品| 免费观看国产精品视频| 亚洲影院色无极综合| 亚洲视频视频在线| 欧美影院一区二区三区| 欧美一级片免费看| 欧美色xxxx| 成人欧美一区二区三区1314| 人妻 日韩精品 中文字幕| 91成人免费视频| 国产日韩欧美精品综合| 美女视频一区在线观看| av网站免费大全| 日韩黄色片网站| 久久久久久久久艹| 久久免费播放视频| 艳妇乳肉豪妇荡乳xxx| 中文字幕第80页| 一区二区三区欧美精品| 欧美日韩一级在线观看| 国产精品99久久久久久www| 亚洲欧美日韩精品综合在线观看| 男人的午夜天堂| 91色九色蝌蚪| 国产成人精品视频在线观看| 国产一区二区三区在线观看视频 | 水野朝阳av一区二区三区| 国产精品30p| 久久久久久久久久久久国产| 欧美精品入口蜜桃| 久久久久99精品成人片试看| 日本高清免费观看| 国产午夜小视频| www日本在线观看| 日本一区二区三区www| 国产精品久久久久久久久婷婷| 99久久久久国产精品免费| 国产一区二区三区四区五区加勒比 | 亚洲男人的天堂在线aⅴ视频| 一区av在线播放| 一区二区三区免费在线视频| 国产精品色呦呦| 欧洲成人免费视频| 色老汉一区二区三区| 一区二区三区资源| 污片在线观看一区二区| 亚洲伊人色欲综合网| 韩曰欧美视频免费观看| 欧美性生活一区| 亚洲热线99精品视频| 久久久久久久国产精品视频| 国产91一区二区三区| 在线国产99| 黄色一级片免费的| 国产精彩视频在线| 日韩中文字幕免费观看| 国产婷婷精品av在线| 精品国产第一区二区三区观看体验| 精品久久久久久国产91| 色婷婷狠狠综合| 一个色综合av| 亚洲精品国产精品自产a区红杏吧 亚洲精品国产精品乱码不99按摩 亚洲精品国产精品久久清纯直播 亚洲精品国产精品国自产在线 | 欧美精品亚洲二区| 亚洲巨乳在线观看| 亚洲人成电影在线观看天堂色| 亚洲国产免费av| 日韩女优人人人人射在线视频| 99电影在线观看| 男同互操gay射视频在线看| 人人干人人视频| 国产精品白丝喷水在线观看| 亚洲国产精品久久久久爰性色| 国产成a人亚洲精| 一本久道中文字幕精品亚洲嫩| 欧美精品在线观看| 日韩在线电影一区| www.色.com| 久久久国产精品成人免费| 亚洲欧美一区二区三| 欧美成人一区二区视频| 殴美一级黄色片| jizz18女人高潮| 久久精品国产一区二区三区免费看 | 国产成人啪精品午夜在线观看| 天天干天天操av| 最新热久久免费视频| 一区二区三区免费看| 久久香蕉视频网站| 国产一区二区精品久久99| 日本精品免费观看| 欧美不卡视频在线观看| 亚洲第一免费网站| 五月天六月丁香| 一区二区不卡在线播放 | 亚洲色图狂野欧美| 成人网站免费观看| 欧美日韩亚州综合| 婷婷激情小说网| 亚洲国产精品尤物yw在线观看| 色香蕉在线观看| www.66久久| 茄子视频成人在线观看| 美女尤物国产一区| 91精品啪aⅴ在线观看国产| 国产三区在线播放| 日韩av手机在线看| 国产免费不卡视频| 人九九综合九九宗合| 波多野结衣一二区| 97精品视频在线播放| 69亚洲精品久久久蜜桃小说| 操日韩av在线电影| 国产精品免费av一区二区| 影音先锋日韩有码| 免费看日韩毛片| 欧美精品一二区| 久久人人爽人人爽人人片av免费| 久久亚洲精品中文字幕冲田杏梨| 特黄视频免费看| 欧美黑人巨大精品一区二区| 成人黄色三级视频| 日韩免费观看网站| 午夜av免费观看| 成人av免费看| 成人福利在线看| 一本一道久久a久久精品综合 | 中文字幕第三页| 国产91色在线播放| 姝姝窝人体www聚色窝| 91在线观看免费| 国产精品一区二区你懂的| 亚洲乱码一区二区三区 | 久久精品人人做人人爽97| 欧美一级淫片丝袜脚交| 一级黄色录像视频| 精品国产一区二区三区久久影院 | 成人国产一区二区三区精品| 性欧美激情精品| 日本视频www| 久久久久中文字幕| 日韩欧美中文字幕一区二区| 日韩美女在线视频| 精品人妻一区二区三区四区| 欧美亚男人的天堂| 粗大的内捧猛烈进出视频| 有码一区二区三区| 国产乱子伦农村叉叉叉| 一区二区三区精品久久久| 亚洲一区二区精品在线| 高清不卡在线观看| 国产精品视频久| 五月婷婷六月香| 91首页免费视频| 久久久久久高清| 国产成人aaa| 日韩亚洲不卡在线| 欧美国产视频在线| 亚洲永久激情精品| 欧美日韩国产精品一区二区不卡中文| 天天综合网入口| 亚洲第一精品在线观看| 国产精品久久久久久av福利| 国产激情一区二区三区| 已婚少妇美妙人妻系列| 日韩精品中文字幕一区| 中文字幕乱伦视频| 国产欧美日韩伦理| 亚洲成va人在线观看| 日日碰狠狠添天天爽| 国产成人a亚洲精品| av电影在线观看一区| 免费成人黄色大片| 色婷婷av一区二区三区在线观看 | 日韩a∨精品日韩在线观看| 午夜影院在线观看欧美| 偷拍女澡堂一区二区三区| 欧美成年人视频网站| 美女视频一区二区三区| 天天干天天草天天| 一区二区三区视频免费在线观看| 亚洲欧美综合一区二区| 99福利在线观看| 亚洲精品xxxx| 久久精品综合| 黄色在线视频网| 久久视频在线视频| 国产成人免费视频| 美女搡bbb又爽又猛又黄www| 国内外成人免费激情在线视频 | 天干夜夜爽爽日日日日| 九9re精品视频在线观看re6| 色婷婷久久一区二区三区麻豆| 中文字幕一区二区人妻电影| 日韩电影大全在线观看| 欧美日本高清视频在线观看| 国产精品无码一区二区桃花视频 | 啪一啪鲁一鲁2019在线视频| 久久午夜老司机| 二区三区四区视频| 国产综合动作在线观看| 欧美色图一区二区三区| 亚洲国产精品无码久久| 国产性生交xxxxx免费| 久久亚洲欧美日韩精品专区| 久久久无码精品亚洲日韩按摩| 免费看的黄色网| 国产一区再线| 日韩视频123| 蜜臀久久久99精品久久久久久| 男生操女生视频在线观看| 欧美一级视频在线观看| 亚洲欧美怡红院| av首页在线观看| 青青视频在线播放| 97免费中文视频在线观看| 亚洲毛片av在线| 亚洲天堂免费av| 国产无套粉嫩白浆内谢的出处| 性欧美xxxx视频在线观看| 亚洲靠逼com| 一级特黄特色的免费大片视频| 久久久久久久中文| 欧美第一黄色网| 亚洲一区二区免费视频| 97超碰国产在线| 手机精品视频在线| 91成人免费看| 日韩精品中文字幕视频在线| 成人免费看视频| 日本少妇在线观看| 少妇人妻无码专区视频| 国内精品久久久久久影视8| 亚洲青青青在线视频| jizz中国少妇| 手机在线看片日韩| 婷婷久久青草热一区二区| 亚洲一级黄色av| 国产精品久久午夜夜伦鲁鲁| 97国产成人无码精品久久久| 波多野结衣网页| 国产一区二区三区黄| 亚洲性av网站| 一区二区三区四区在线播放 | 精品无码国产污污污免费网站| 久久综合九色综合久99| 最近2019中文字幕第三页视频| 亚洲精品欧美二区三区中文字幕| 国产日本精品视频| 日韩av一二区| 蜜桃视频一区二区在线观看| 久草视频手机在线观看| 日韩中文第一页| 国产91精品精华液一区二区三区 | 中文字幕一区二区三区在线乱码| 黄色片视频免费观看| 久久99精品国产.久久久久久 | 99re这里只有精品视频首页| 91蝌蚪porny| 懂色av中文一区二区三区天美| 欧美性jizz18性欧美| 精品亚洲国产成av人片传媒| 久久99精品久久久久久青青91| 日韩精品福利视频| 亚洲精品久久久中文字幕| 性高潮久久久久久| 亚洲男人天堂网址| 99热这里只有精品在线| 日韩欧美国产午夜精品| 国模一区二区三区私拍视频| 色播亚洲婷婷| 日韩经典在线观看| 91污片在线观看| 精品捆绑美女sm三区| 日韩欧美aⅴ综合网站发布| 亚洲天堂精品在线| 91免费视频网站| 黄色动漫网站入口| 青青草视频一区| 国产美女久久精品| 欧美成人一区二区视频| 亚洲精品一区二三区不卡| 污污的网站免费| 国产99一区视频免费| 激情视频在线观看一区二区三区| 国产在线视频三区| 日产国产高清一区二区三区| 在线欧美日韩国产| 国产99久久精品一区二区永久免费 | 成人亲热视频网站| 国产精品久久..4399| aaaaa级少妇高潮大片免费看| 国产一区二区在线看| 91久久线看在观草草青青| 国产精品毛片久久久久久久| 久久午夜国产精品| 亚洲一区二区在线播放相泽| 色偷偷成人一区二区三区91| 欧美精选一区二区| 在线观看国产精品91| 欧美一区二区三区四区在线| 97视频资源在线观看| 中文字幕一区二区三区在线乱码 | 日韩欧美在线综合网| 日本一区二区在线免费播放| 国产免费一区二区三区| 原创真实夫妻啪啪av| 欧美视频xxx| 亚洲精品中文在线影院| 懂色中文一区二区在线播放| 国产美女精品人人做人人爽| 国产精品天天摸av网| 欧美私模裸体表演在线观看| 神马国产精品影院av| 久久久久成人精品无码中文字幕| 亚洲高清不卡在线| 一区二区三区欧美成人| 石原莉奈在线亚洲二区| 一区二区三区日韩精品| 91tv亚洲精品香蕉国产一区7ujn| 色哟哟精品观看| 欧美日韩视频在线| 久久久久久成人| 精品国产乱码久久久久久88av| 精品久久久久久久久久中文字幕| 中文字幕第66页| 性感美女一级片| 国产精品国产三级国产专播品爱网| 91精品国产综合久久久蜜臀粉嫩| 国产成人精品av在线| 99re8这里只有精品| 国产一区二区三区四区五区六区| www.66久久| 黄色影视在线观看| 亚洲精品视频观看| 午夜免费福利在线| 一本一道久久a久久精品逆3p| 福利一区二区三区四区| 午夜精品美女自拍福到在线| 91无套直看片红桃| 97激碰免费视频| 99视频在线看| 日韩在线免费视频观看|