色综合中文综合网_性猛交娇小69hd_久久精品99久久久久久_欧美日韩精品一区二区三区四区 _97视频色精品_国产高清精品久久久久_日日鲁鲁鲁夜夜爽爽狠狠视频97 _国产成人免费视频精品含羞草妖精 _熟女少妇在线视频播放_精品人妻一区二区三区麻豆91 _久久女同性恋中文字幕_一区二区福利视频

LLM強化學習新框架!UCSD多智能體訓練框架讓LLM工具調用能力暴增5.8倍

結合樹狀采樣與角色化獎勵機制

PettingLLMs團隊 投稿

量子位 | 公眾號 QbitAI

大語言模型智能體的強化學習框架, 首次實現了通用的多智能體的“群體強化”。

在大語言模型(LLM)智能體的各種任務中,已有大量研究表明在各領域下的多智能體工作流在未經訓練的情況下就能相對單智能體有顯著提升。

但是現有的LLM智能體訓練框架都是針對單智能體的,多智能體的“群體強化”仍是一個亟須解決的問題。

為了解決這一領域的研究痛點,來自UCSD和英特爾的研究人員,提出了新的提出通用化多智能體強化學習框架——PettingLLMs。支持任意組合的多個LLM一起訓練。

LLM強化學習新框架!UCSD多智能體訓練框架讓LLM工具調用能力暴增5.8倍

研究背景

大語言模型驅動的多智能體系統在醫療、編程、科研、具身智能等多個領域均能大幅度提升任務表現。

為訓練大模型智能體,Group Relative Policy Optimization (GRPO) 已被驗證為通用的有效強化學習算法。然而,當前所有針對LLM的強化學習訓練框架,包括GRPO算法本身,都局限于單智能體訓練的范疇。多智能體間的協作優化,即“群體強化”的學習機制,仍然是一個亟待填補的空白。

GRPO算法的核心機制是,針對同一個輸入(prompt),通過多次采樣生成一組候選回答。隨后,算法在組內對這些回答進行評估(例如,通過一個獎勵模型),并計算它們之間的相對優勢。

這種優勢計算的有效性與公平性依賴于一個關鍵假設——組內所有用于比較的候選回答,都必須基于一個完全相同的上下文(即prompt)生成。

然而,將GRPO直接應用于多智能體(multi-agent)多輪(multi-turn)環境中存在一個核心困難。

在多智能體場景下,即使是針對同一個初始問題,不同智能體在不同輪次接收到的prompt差異顯著。

例如(如圖所示),一個負責編程的智能體,其在第二輪的prompt不僅包含原始問題,還可能融合了第一輪中自己生成的代碼以及其他智能體生成的單元測試。

LLM強化學習新框架!UCSD多智能體訓練框架讓LLM工具調用能力暴增5.8倍

因此,如果在MA環境中仍然簡單地將同一個初始問題產生的所有(跨輪次、跨智能體的)回答視為一個“group”來進行優勢計算,這就直接違反了GRPO所要求的“共同prompt”的核心假設。

這導致組內的優勢計算基準不統一,使得計算結果不再公平或有效。

所以核心問題就是,如何既保證每個組內有一定批次量的回答,又能保證優勢計算的公平。

方法概述

作者提出了一種greedy-search的樹狀采樣方法。

每輪次每個agent形成一個節點進行K個分支,在分支以后選擇此時reward最高的agent進行下一次分支。這樣能夠讓多智能體訓練能平衡好探索(exploration)與利用(exploitation)。

每一個agent的獎勵函數都考慮自身角色的獎勵和全局任務的獎勵來保證角色專屬能力和合作能力的進化。

LLM強化學習新框架!UCSD多智能體訓練框架讓LLM工具調用能力暴增5.8倍

對于多智能體的強化學習進化的另一個面臨一個核心的策略問題:在何種任務下,讓模型進化成不同角色的“專屬模型”(specialized models)?又在何種任務下,讓所有智能體共享一個“通用模型”(shared model)會更優?

為了實現兩種不同的訓練模式,作者搭建了如圖所示的異步分發訓練系統。

LLM強化學習新框架!UCSD多智能體訓練框架讓LLM工具調用能力暴增5.8倍

系統中的路由模塊負責收集多智能體系統在環境中交互產生的軌跡數據。

專屬模型模式下,系統可以配置多個獨立的模型資源池(如圖中的池i和池j)。路由模塊會將智能體i的數據批次僅發送給池i的更新單元,專門更新模型i;同時將智能體j的數據批次發送給池j的更新單元,獨立更新模型j。

而在共享模型模式中,相對地,路由模塊也可以將所有智能體的軌跡數據合并,并全部發送給同一個模型資源池的更新單元,以集中更新一個共享模型。

通用的多智能體強化學習框架:PettingLLMs

基于該項研究,作者開源了通用的多智能體強化學習框架,使得多智能體強化學習訓練開發變得敏捷、簡潔、優雅。

  • 在作者現有的系統上搭建環境開發只需要任務特有的agent的交互和獎勵函數。同時,作者也給環境開發設計建立了詳細的環境開發教程。
  • 已有的環境也已經包括了主流的agent任務比如數學、code、游戲等。
  • 該框架支持不同模型和agent之間的任意映射。也支持每個agent適配不同的lora的方式。

實驗效果

在推箱子這種長規劃任務中,通過AT-GRPO訓練,兩個agent都得到了強化,任務性能從14%提升至96%。

LLM強化學習新框架!UCSD多智能體訓練框架讓LLM工具調用能力暴增5.8倍

作者在Qwen3-1.7B與Qwen3-8B兩個規模上開展了大規模實驗,覆蓋規劃(Sokoban、Plan-Path)、代碼(LiveCodeBench、APPS、CodeContests)與數學(AIME24/25、OlympiadBench)三大類任務。

LLM強化學習新框架!UCSD多智能體訓練框架讓LLM工具調用能力暴增5.8倍

實驗結果表明:

  • 規劃類任務中,Sokoban從14%提升至96%,Plan-Path從47%提升至99.5%;
  • 代碼生成任務中,LiveCodeBench提升+6.1%,APPS+4.2%,CodeContests+7.0%;
  • 數學推理中,AIME 24提升+9.0%,AIME 25提升+17.9%。
LLM強化學習新框架!UCSD多智能體訓練框架讓LLM工具調用能力暴增5.8倍

消融實驗進一步驗證了關鍵設計——

只在單智能體(SA)里訓練,收益有限:把規劃/工具等子角色各自放在 SA 環境里訓練,單看各自指標會從 5.0% 提到11.0%/14.5%,但放回MAS聯合作業僅到16.0%。

互換角色策略會“崩盤”:把已經學成的兩個角色策略對調,準確率從96.0%→6.0%,說明兩位“隊友”學到的是互補但不可替代的能力。

協同越來越順、回合越來越少:訓練過程中兩位代理的學習回報同步上升,任務所需平均回合數持續下降——體現出更緊密的對齊與分工協作。

LLM強化學習新框架!UCSD多智能體訓練框架讓LLM工具調用能力暴增5.8倍

PettingLLMs通過支持通用的多智能體強化學習算法,讓多智能體一起學習一起進化,實現了跨任務、跨規模的通用強化學習算法。

論文:https://huggingface.co/papers/2510.11062
GitHub:https://github.com/pettingllms-ai/PettingLLMs

版權所有,未經授權不得以任何形式轉載及使用,違者必究。
日韩欧美一区二区三区四区五区| 一区二区视频国产| 亚洲欧美精品一区二区三区| 91精品1区2区| 少妇一级淫免费播放| 一区二区三区精品视频| 中文字幕在线免费看线人| 激情六月婷婷久久| 一区二区免费在线观看视频| www.黄色com| 欧美aaa在线| 欧美激情一区二区三区全黄 | 男人的天堂亚洲一区| 超碰在线观看91| 欧美一级爱爱视频| 99久热re在线精品视频| 9.1国产丝袜在线观看 | 美女视频一区二区三区| 国产亚洲一区二区在线观看| 99国产精品一区二区三区| 久久免费激情视频| 国产美女高潮视频| 国产精品久久久久久久久久直播| 国产精品福利久久久| 中文字幕精品无码一区二区| 日韩欧美三级视频| 男人的天堂a在线| 福利电影一区二区| 亚洲综合自拍偷拍| 日韩国产一区三区| 国产精品黄色av| 夜夜爽99久久国产综合精品女不卡| 国产精品亚洲a| 激情五月激情综合| 狠狠躁日日躁夜夜躁av| 91麻豆成人久久精品二区三区| 高跟丝袜一区二区三区| 亚洲欧美日韩综合| 成人激情视频在线观看| 999在线观看视频| 亚洲精品国产熟女久久久| 91网站在线看| 最新中文字幕亚洲| 成人做爰www免费看视频网站| 国产免费xxx| 日本激情小视频| 亚洲xxxx天美| 中文字幕亚洲在| 亚洲欧美激情一区| 久久99蜜桃综合影院免费观看| 色www免费视频| 成人免费看片98欧美| 国产福利一区二区三区视频 | 国产在线拍揄自揄拍无码视频| 性xxxx视频播放免费| 一区二区高清视频在线观看| 亚洲无av在线中文字幕| 欧美二区三区| 欧美熟妇一区二区| 亚洲 小说区 图片区 都市| 夜色激情一区二区| 欧美日韩第一页| 91精品一区二区三区四区| 天天舔天天操天天干| 日韩激情视频网站| 欧美在线三级电影| 国产精品自产拍高潮在线观看| 日本在线视频www| 欧美一区二区三区久久久| 久久影视一区二区| 伊人久久久久久久久久久久久 | 日韩在线免费高清视频| 先锋影音网一区| 永久免费看片直接| 99天天综合性| 日日噜噜噜夜夜爽亚洲精品| 亚洲人成网站在线播放2019| 欧美三级黄色大片| 91一区二区三区在线观看| 日韩久久午夜影院| 亚洲欧洲一二三| 久久成人国产精品入口| 久久久久国产精品厨房| 成人小视频在线观看| 国产精品亚洲成人| 亚洲精品自拍偷拍| 在线观看成人av| 久久久久成人精品无码| 国产日韩欧美a| 国模视频一区二区三区| 91 在线视频观看| 久久久777| 精品国产伦理网| 中文字幕欧美人与畜| 黄色小说在线观看视频| 中文字幕一区不卡| 国产精品久久久久久久av电影| 污色网站在线观看| 久久婷婷久久| 日韩av网址在线| 国产视频在线观看网站| 国产免费久久久| 欧美日韩成人综合在线一区二区| 国产青春久久久国产毛片| 香蕉久久久久久久| 亚洲欧美日韩久久| 91久久精品国产91性色| 懂色av粉嫩av浪潮av| 久久久www成人免费无遮挡大片 | 亚洲国产乱码最新视频| 91成人免费在线观看| 手机av在线看| 一个色在线综合| 91九色在线免费视频| 欧美在线视频第一页| 亚洲福利视频一区二区| 久久精品中文字幕一区二区三区 | 国产激情在线观看视频| 色婷婷av一区二区三| 日韩av在线影院| 午夜免费一区二区| 美女一区二区久久| 中文字幕欧美日韩| 三级网站免费看| 99国产精品一区| 国产精品人人做人人爽| 九九视频免费在线观看| 色婷婷av一区二区三区gif| 日韩精品欧美专区| 国产黄a三级三级三级| 亚洲国产日韩欧美在线动漫| 亚洲综合在线网站| 99视频有精品| 翡翠波斯猫1977年美国| 亚洲欧美日韩一区二区三区四区| 日韩女优毛片在线| 99热手机在线| 久久色.com| 国产传媒一区二区三区| 中文字幕在线观看国产| 日韩精品中文在线观看| 想看黄色一级片| 国产精品家庭影院| 欧美一进一出视频| 亚洲日本在线播放| 国模视频一区二区| 国产一级黄色av| 日韩视频在线你懂得| 污视频免费在线观看网站| 91丨porny丨户外露出| 国产精品久久久久久久久久久久冷 | 久久亚洲视频| 欧美在线xxx| 国产精品6666| 亚洲欧美制服中文字幕| 国产男女猛烈无遮挡a片漫画| 亚洲午夜久久久久久久久电影院 | 亚洲熟妇无码久久精品| 在线日韩日本国产亚洲| 国产午夜精品久久久久久久久| 欧美丝袜美女中出在线| 男人添女人下部高潮视频在观看| 成人免费高清视频在线观看| 国产精品三区在线| 蜜臀av午夜精品| 欧美一区三区三区高中清蜜桃| 久久免费精彩视频| 亚洲视频欧美视频| 少妇影院在线观看| 亚洲第一色在线| 欧洲女同同性吃奶| 欧美一区二区三区视频在线观看| 一级黄色高清视频| 欧美性感美女h网站在线观看免费| 男女日批视频在线观看| 国产欧美一区二区精品仙草咪| 超碰在线免费观看97| 久久婷婷综合激情| 国产美女作爱全过程免费视频| 国产亚洲精品7777| 亚洲狠狠婷婷综合久久久| 国产成人亚洲综合a∨婷婷| 蜜桃视频成人| 99视频一区二区三区| 伊人久久av导航| 国产亚洲一区二区在线观看| 黄色大片中文字幕| 一区二区三区日本| 搡的我好爽在线观看免费视频| 日韩欧美中文字幕在线观看| 久久精品一二三四| 9191精品国产综合久久久久久| 精品久久久久久中文字幕人妻最新| 日韩欧美国产wwwww| 亚洲一二三四视频| 国产小视频91| 日韩精品一区二区亚洲av| 2021国产精品视频| 天堂va蜜桃一区二区三区漫画版| 精品伦精品一区二区三区视频| 国产成人精品免费在线| www国产免费| 亚洲综合色视频| 中国极品少妇videossexhd| 日韩av在线一区| 久久国产乱子伦精品| 国产伦精品免费视频| 国产一区不卡精品| 人妻无码一区二区三区四区| 亚洲免费大片在线观看| 黄色国产在线视频| 国产性猛交xxxx免费看久久| 一级黄色片在线播放| eeuss一区二区三区| 91毛片在线观看| 密臀av一区二区三区| 欧美大胆一级视频| 天干夜夜爽爽日日日日| 国产精品美女久久| 国产91高潮流白浆在线麻豆| 国产裸体舞一区二区三区| 91精品啪在线观看国产60岁| 日本熟女一区二区| 成人激情视频在线播放| 久久天堂av综合合色蜜桃网| 女同性αv亚洲女同志| 在线观看欧美www| 国产成人自拍一区| 日本丰满大乳奶| 欧美日韩一区三区| 在线观看日本视频| 蜜桃视频在线观看91| 香蕉影视欧美成人| 免费无遮挡无码永久在线观看视频 | 黑森林福利视频导航| 亚洲成人激情在线观看| 国产免费高清av| 色99中文字幕| 欧美在线免费播放| 永久免费无码av网站在线观看| 99精彩视频在线观看免费| 中文一区二区完整视频在线观看| 亚洲色图14p| 26uuu另类亚洲欧美日本一| 国产一区二区精品久久| 欧美一级xxxx| 免费99精品国产自在在线| 国产制服丝袜一区| 国产不卡的av| 久久免费精品视频| www国产成人免费观看视频 深夜成人网 | 日本欧美一二三区| 久久欧美中文字幕| www国产精品视频| 中文字幕av久久爽一区| 国产精品美女免费看| 国产精品嫩草99a| 久久久久久久久久97| 91在线观看欧美日韩| 亚洲国产精品一区二区www在线| 精品国产欧美日韩不卡在线观看| 2022国产精品| 日韩欧美在线视频免费观看| 亚洲天堂国产精品| 六月婷婷在线视频| 丝袜一区二区三区| av在线综合网| 欧美激情 一区| 国产伦精品一区二区三区高清版| 大荫蒂欧美视频另类xxxx| 中文字幕一区二区人妻痴汉电车| 国产一级片91| 亚洲女人初尝黑人巨大| 国产精品一二三四| 国产毛片欧美毛片久久久| 国产91免费视频| 欧美一区二区三区小说| 久久综合影视| 妖精视频一区二区| 99se婷婷在线视频观看| 欧美军同video69gay| 日本中文字幕一区| 亚洲自拍偷拍一区二区| 国产乱码一区| 亚洲第一级黄色片| 国产91精品精华液一区二区三区| 日本欧美一区二区三区不卡视频| 国产美女精品在线观看| 欧美一区二区在线播放| 黄网站免费久久| 黄色片网站在线播放| 色之综合天天综合色天天棕色| 亚洲欧美中文字幕在线一区| 久久综合色之久久综合| 国产婷婷色一区二区在线观看| 久久久久久久午夜| 日本精品视频在线观看| 色婷婷久久久久swag精品| 美女爽到呻吟久久久久| 国产sm调教视频| 欧美日韩在线免费观看视频| 色综合色综合网色综合| 亚洲不卡av一区二区三区| 亚洲国产欧美另类| 国产精品无码一区二区三| 欧美激情一区二区三区在线视频| 亚洲精品中文字幕有码专区| 欧美激情综合网| 国产精品特级毛片一区二区三区| 男人女人拔萝卜视频| 国产精品国产三级国产专区53 | 国产精品久久久久aaaa| 亚洲中文无码av在线| www.成人黄色| 另类视频在线观看+1080p| 亚洲四色影视在线观看| 一区二区三区在线免费观看 | 日韩国产在线播放| 136国产福利精品导航| 午夜精品久久久久久久99热黄桃| 黄色免费看视频| 欧美 日韩 国产 在线观看| 欧美在线视频一区二区| 日韩一区二区电影| 国产精品黄色在线观看| 久久字幕精品一区| 国产亚洲欧美精品久久久久久| 亚洲中文字幕久久精品无码喷水| 亚洲尤物视频网| 色青青草原桃花久久综合 | 国产一区二区免费看| 国产又黄又爽又色| 天堂va欧美va亚洲va老司机| 国产精品久久成人免费观看| 日本精品性网站在线观看| 亚洲国产精品福利| 亚洲国产日韩综合久久精品| 国产一区二区三区四区五区入口| 69亚洲精品久久久蜜桃小说 | 日韩经典在线视频| 91av视频导航| 日韩精品免费电影| 色综合一区二区三区| 久久综合狠狠综合| 国产又爽又黄网站亚洲视频123| 豆国产97在线 | 亚洲| 亚洲欧洲日韩综合| 国产中文字幕乱人伦在线观看| 国产成人精品免费视频大全最热| 欧美成人h版在线观看| 欧美成人vr18sexvr| 欧美日韩免费区域视频在线观看| 91在线云播放| 久久99久久久久| 精品人妻av一区二区三区| 久久精品女人毛片国产| 日本黄色特级片| 亚洲精品mv在线观看| 日本国产在线播放| 亚洲一一在线| 精品九九九九| 91精品久久久久久| 午夜精品久久久久久久白皮肤 | 久久午夜夜伦鲁鲁一区二区| 色播亚洲视频在线观看| 91色p视频在线| 欧美精品久久久久久久久久| 亚洲三级黄色在线观看| 91精品国产欧美日韩| 懂色av一区二区三区| 亚洲美女偷拍久久| 国产精品久久久久久户外露出 | 国产精品久久久久久免费免熟| 免费在线视频观看| 亚洲欧美精品久久| 日本少妇xxxxx| 国产综合内射日韩久| 天美一区二区三区| 天天综合网日韩| 可以免费在线看黄的网站| 丰满的少妇愉情hd高清果冻传媒| 日韩精品资源| 欧美午夜精品久久久久免费视| 超碰在线97av| 国产日韩一区欧美| 91精品一区二区| 国产日韩精品电影| 2021国产精品视频| 日av在线播放中文不卡| 4k岛国日韩精品**专区| 7777免费精品视频| 欧美资源在线观看| 国产成人精品电影| 国产精品专区一| 99porn视频在线| 98国产高清一区| 久久99九九| 视频三区二区一区| 在线视频不卡国产| 最新黄色av网站| 国产精品videossex国产高清| 国产 日韩 欧美在线| 乱子伦视频在线看| 99热这里只有精品2| 亚洲av无码一区二区三区观看| 丰满圆润老女人hd| 老司机深夜福利网站| 国产毛片aaa| 高h震动喷水双性1v1| 激情五月播播久久久精品|