ROCK & ROLL!阿里給智能體造了個(gè)實(shí)戰(zhàn)演練場(chǎng) | 開源
構(gòu)成了完整的智能體訓(xùn)練閉環(huán)
克雷西 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
智能體終于擁有了可以海量復(fù)制的“實(shí)戰(zhàn)演練場(chǎng)”。
阿里此次開源的新項(xiàng)目ROCK,解決了無法在真實(shí)環(huán)境中規(guī)模化訓(xùn)練的難題。
有了ROCK,開發(fā)者想要訓(xùn)練AI執(zhí)行復(fù)雜任務(wù)時(shí)可以不在“手搓”環(huán)境,直接進(jìn)行標(biāo)準(zhǔn)化的一鍵部署。
它與阿里此前的RL訓(xùn)練框架ROLL形成了絕妙配合——
ROLL負(fù)責(zé)教AI怎么思考(訓(xùn)練算法),ROCK負(fù)責(zé)提供AI練習(xí)的場(chǎng)所(環(huán)境沙箱)。

兩者協(xié)同作戰(zhàn),構(gòu)成了完整的智能體訓(xùn)練閉環(huán)。
這套組合打通了智能體訓(xùn)練的鏈路,讓開發(fā)者不再被底層基建困擾,實(shí)現(xiàn)從單機(jī)實(shí)驗(yàn)到集群大規(guī)模訓(xùn)練的跨越,推開了Agentic AI規(guī)模化應(yīng)用的大門。
環(huán)境服務(wù),智能體進(jìn)化的缺失一環(huán)
當(dāng)下大語言模型正在經(jīng)歷一場(chǎng)深刻的范式轉(zhuǎn)變,最前沿的模型已經(jīng)進(jìn)化為能夠與外部環(huán)境深度交互的Agentic模型。
這種演化不僅僅是技術(shù)上的進(jìn)步,更代表了AI應(yīng)用場(chǎng)景的根本性擴(kuò)展。當(dāng)前幾乎所有的SOTA級(jí)模型都具備了多輪交互能力,能夠通過工具調(diào)用、代碼執(zhí)行、外部API調(diào)用等方式與環(huán)境進(jìn)行交互。
簡(jiǎn)單說就是,模型只是“能說”已經(jīng)無法滿足需求,現(xiàn)在還要會(huì)做,它們需要調(diào)用工具、跑代碼、調(diào)API,跟外部環(huán)境真刀真槍地交互。
從業(yè)務(wù)價(jià)值角度來看,這一轉(zhuǎn)變意義重大。許多企業(yè)的自動(dòng)化鏈路需要的不僅僅是文本建議或分析報(bào)告,而是能夠直接執(zhí)行的動(dòng)作。
不過要訓(xùn)練好這樣的Agent,光有聰明的大模型大腦只是基礎(chǔ),后續(xù)還需要對(duì)模型進(jìn)行訓(xùn)練,讓模型學(xué)會(huì)在特定任務(wù)環(huán)境中規(guī)劃并執(zhí)行正確的決策序列。
這是一個(gè)系統(tǒng)工程,得湊齊四塊拼圖:大腦(LLM)、考卷(任務(wù)描述)、教練(RL框架),以及最容易被忽視的一塊——訓(xùn)練場(chǎng)(環(huán)境服務(wù))。
很多從業(yè)者面臨的困境,往往就和這個(gè)“訓(xùn)練場(chǎng)”有關(guān)。
如果把RL框架比作發(fā)動(dòng)機(jī),那么訓(xùn)練環(huán)境就是燃料。對(duì)于Agentic模型而言,環(huán)境服務(wù)的穩(wěn)定性和效率直接決定了模型的Scaling潛力,也就是能否通過大規(guī)模交互數(shù)據(jù)持續(xù)突破性能瓶頸。
一個(gè)高效穩(wěn)定的環(huán)境服務(wù)需要同時(shí)處理數(shù)千乃至數(shù)萬訓(xùn)練實(shí)例,需要毫秒級(jí)的快速反饋,需要可靠地維護(hù)、回溯和重置環(huán)境狀態(tài),還需要適配多樣化任務(wù)類型與復(fù)雜度。
環(huán)境服務(wù)的性能瓶頸往往直接成為整個(gè)訓(xùn)練流程的“卡脖子”問題。
為突破這一制約,開發(fā)者需要雙軌并行——既要構(gòu)建高度可定制化與高性能的強(qiáng)化學(xué)習(xí)訓(xùn)練框架,也要建立高效穩(wěn)定、彈性伸縮的環(huán)境管理運(yùn)行體系,兩者協(xié)同才能釋放Agentic模型的真正潛力。
ROLL框架,高性能的驅(qū)動(dòng)引擎
ROLL基于Ray構(gòu)建,專門為了大規(guī)模LLM強(qiáng)化學(xué)習(xí)打造,覆蓋從小規(guī)模預(yù)研到數(shù)千卡百億參數(shù)生產(chǎn)環(huán)境的完整RL優(yōu)化流程。
ROLL提供了豐富的功能特性,涵蓋了強(qiáng)化學(xué)習(xí)訓(xùn)練的各個(gè)方面——
-
支持?jǐn)?shù)學(xué)、代碼、推理等多領(lǐng)域任務(wù)聯(lián)合訓(xùn)練; -
原生支持Agentic RL,靈活適配游戲、多輪對(duì)話、工具調(diào)用、CodeAgent等多步?jīng)Q策場(chǎng)景; -
深度集成Megatron-Core、Deepspeed等主流框架,支持先進(jìn)的5D并行策略; -
具備樣本級(jí)生成管理、異步推理、異步訓(xùn)練加速等核心機(jī)制。
為了讓Agent訓(xùn)練得更快,ROLL專門搞了環(huán)境異步交互和冗余采樣。而且,它用了一套非常簡(jiǎn)潔的標(biāo)準(zhǔn)接口——GEM。
ROLL采用GEM通過極簡(jiǎn)的env.reset和env.step兩個(gè)核心方法,大幅簡(jiǎn)化了Agentic RL的交互過程。
這種簡(jiǎn)潔的設(shè)計(jì)使得任何新的業(yè)務(wù)應(yīng)用都能快速適配,無需復(fù)雜的接口轉(zhuǎn)換。
環(huán)境開發(fā)者只需實(shí)現(xiàn)標(biāo)準(zhǔn)的reset/step方法,即可無縫接入ROLL的訓(xùn)練體系,實(shí)現(xiàn)從簡(jiǎn)單游戲到復(fù)雜工具調(diào)用等各類Agentic任務(wù)的統(tǒng)一管理。
ROLL作為驅(qū)動(dòng)引擎,在Agentic RL訓(xùn)練過程中的Scaling能力對(duì)環(huán)境服務(wù)提出了極高的具體要求——
-
它能并發(fā)處理數(shù)萬個(gè)實(shí)例,這就要求環(huán)境服務(wù)得扛得住這么大的吞吐量; -
它有容錯(cuò)機(jī)制,這就要求環(huán)境得有足夠的冗余; -
它支持異步Rollout,這就要求環(huán)境拉起要快,生命周期管理要細(xì)。
現(xiàn)在,雖然訓(xùn)練引擎準(zhǔn)備好了,但環(huán)境還沒完善,就是在這個(gè)背景下,ROCK登場(chǎng)了。

打造智能體訓(xùn)練的標(biāo)準(zhǔn)化工廠
ROCK(Reinforcement Open Construction Kit),名字一聽就很硬核。
智能體訓(xùn)練輕松實(shí)現(xiàn)規(guī)模化
它的核心使命就一個(gè)詞——規(guī)模化。
一個(gè)聰明的Agent,其智能的廣度與深度,取決于它所能探索世界的規(guī)模與多樣性。
但傳統(tǒng)訓(xùn)練里,復(fù)雜的環(huán)境太吃資源了,單機(jī)跑幾個(gè)就滿載,成為了限制Agent訓(xùn)練規(guī)模的硬性天花板。
ROCK的誕生,正是為了擊碎這塊天花板。
它的底座也是Ray,這讓它能把一堆雜亂的計(jì)算集群,抽象成一個(gè)整齊劃一、彈性伸縮的“環(huán)境資源池”。
以前你要配置一套集群環(huán)境,可能得折騰好幾天。現(xiàn)在用ROCK,只需修改配置參數(shù),就能在分鐘級(jí)別內(nèi),自動(dòng)調(diào)度和拉起成千上萬個(gè)并行訓(xùn)練環(huán)境。
開發(fā)者不必再關(guān)心繁瑣的節(jié)點(diǎn)管理和資源分配,可以完全聚焦于算法本身。
而且它還支持前所未有的訓(xùn)練靈活性,支持在同一集群中,同時(shí)運(yùn)行同構(gòu)(來自同一鏡像)與異構(gòu)(來自不同鏡像)的環(huán)境。
這既滿足了大規(guī)模重復(fù)探索的需求,也為提升Agent在網(wǎng)頁瀏覽、代碼編寫等不同任務(wù)間的泛化能力提供了至關(guān)重要的保障。
告別環(huán)境“黑盒”
除了規(guī)模大,ROCK還解決了一個(gè)讓開發(fā)者抓狂的問題——環(huán)境是個(gè)“黑盒”。
Agent跑著跑著動(dòng)作變形了,到底是因?yàn)榄h(huán)境出bug了,還是Agent自身出現(xiàn)了問題?以前很難知道。
ROCK直接給開發(fā)者開了一個(gè)“上帝視角”——程序化的Bash交互能力。
它把Linux Shell的能力通過SDK和HTTP API開放了出來,讓開發(fā)者可以像操作本地終端一樣,與成百上千個(gè)遠(yuǎn)程Sandbox進(jìn)行深度交互。
不論想查某個(gè)Sandbox里的文件,還是查看實(shí)時(shí)日志或者進(jìn)程狀態(tài),甚至想動(dòng)態(tài)改動(dòng)環(huán)境變量都沒問題。
這種調(diào)試體驗(yàn),既保留了單機(jī)開發(fā)的直觀,又實(shí)現(xiàn)了分布式的規(guī)模。
靈活部署與企業(yè)級(jí)穩(wěn)定
為了打通開發(fā)和生產(chǎn)那“最后一公里”,ROCK還設(shè)計(jì)了一套“一次編寫,隨處運(yùn)行”的方案。
在剛開始寫代碼的時(shí)候,你可以用本地獨(dú)立運(yùn)行模式。把它當(dāng)個(gè)純凈的“環(huán)境實(shí)驗(yàn)室”,跑跑單元測(cè)試,驗(yàn)證下你的Chrome瀏覽器裝沒裝好,文件系統(tǒng)能不能寫。
這時(shí)候不需要啟動(dòng)龐大的訓(xùn)練流程,先確保環(huán)境本身是健康的。
代碼寫差不多了,就可以進(jìn)行本地集成調(diào)試。用ROLL一鍵拉起ROCK Sandbox,跑通整個(gè)端到端鏈路。從發(fā)指令到收反饋,全流程“所見即所得”,不需要去集群上排隊(duì)等待。
等一切就緒,便能直接云端規(guī)模化部署。配置都不用改,ROCK幫你屏蔽掉底層的復(fù)雜度,自動(dòng)擴(kuò)展到成千上萬個(gè)實(shí)例。
這樣就能夠杜絕“在我電腦上能跑,上去就掛”的玄學(xué)問題。
對(duì)于動(dòng)輒運(yùn)行數(shù)小時(shí)甚至數(shù)天的Agent訓(xùn)練任務(wù)而言,環(huán)境的穩(wěn)定性也至關(guān)重要。
在這方面,ROCK也是按阿里內(nèi)部核心基礎(chǔ)設(shè)施的標(biāo)準(zhǔn)來的。
故障隔離做得非常死,每個(gè)Sandbox都關(guān)在自己的籠子里,一個(gè)崩了絕不會(huì)連累鄰居,更不會(huì)拖垮整個(gè)服務(wù)。
資源調(diào)度也非常精細(xì),消除了“吵鬧鄰居”帶來的資源爭(zhēng)搶。環(huán)境性能穩(wěn)定了,采集的數(shù)據(jù)質(zhì)量才高,模型收斂才能穩(wěn)。
狀態(tài)管理則主打一個(gè)快,環(huán)境掛了秒級(jí)拉起重置,保證訓(xùn)練流水線不中斷。
ModelService,解耦的神來之筆
在Agentic AI的開發(fā)與訓(xùn)練中,開發(fā)者長(zhǎng)期面臨一個(gè)棘手的矛盾。
Agent自己有一套業(yè)務(wù)邏輯(比如怎么拼Prompt,怎么管理對(duì)話歷史),而訓(xùn)練框架為了介入訓(xùn)練,又難免會(huì)插手這個(gè)過程。
以前的笨辦法是,訓(xùn)練框架把Agent的邏輯重寫一遍。結(jié)果就是兩邊代碼打架,Agent一改邏輯,訓(xùn)練代碼就得跟著改,維護(hù)過程極其繁瑣。
ROCK用ModelService做了一個(gè)“中間人”,完美實(shí)現(xiàn)了解耦。
ModelService本質(zhì)上是一個(gè)部署在ROCK內(nèi)部的智能模型代理。它通過“提問-攔截-回答”三步,讓Agent和ROLL各司其職,完美協(xié)同。
-
提問:Agent在Sandbox里,按自己的邏輯拼好Prompt,發(fā)起調(diào)用; -
攔截:ModelService把這個(gè)請(qǐng)求攔下來,它不直接調(diào)大模型,而是把這個(gè)“原汁原味”的Prompt通過反向通道傳遞給外面的ROLL; -
回答:ROLL拿到了Prompt,也就拿到了思考過程的控制權(quán)。它通過中心化的推理服務(wù),算獎(jiǎng)勵(lì)、做優(yōu)化,最后返回答案。
這一招至少帶來了四個(gè)好處:
-
徹底解耦:Agent只管問,ROLL只管答。兩邊代碼互不干擾; -
控制權(quán)在手:ROLL雖然不干涉Prompt怎么生成的,但它掌握了最終的Prompt,依然握著訓(xùn)練的主動(dòng)權(quán); -
節(jié)約成本:將昂貴的GPU資源集中用于ROLL的中心推理服務(wù),ROCK Sandbox在低成本的CPU實(shí)例上大規(guī)模運(yùn)行,極大降低了訓(xùn)練成本; -
兼容性強(qiáng):這種架構(gòu)天然開放,解耦的設(shè)計(jì)具有天然的泛化能力,能夠輕松支持任何自定義邏輯的Agent。
ModelService讓ROCK不僅僅是個(gè)執(zhí)行環(huán)境,更是一個(gè)懂訓(xùn)練的智能基礎(chǔ)設(shè)施。
推開Agentic AI規(guī)模化應(yīng)用的大門
隨著ROCK的開源,阿里在Agentic AI訓(xùn)練領(lǐng)域的版圖終于拼完了。
ROLL提供強(qiáng)大的訓(xùn)練引擎,ROCK則注入源源不斷的環(huán)境燃料。
這套組合從根本上解決了Agentic模型訓(xùn)練中的兩大核心挑戰(zhàn)——高效的學(xué)習(xí)算法和可規(guī)模化的環(huán)境服務(wù)。
現(xiàn)在,通過ROCK,開發(fā)者擁有了一套標(biāo)準(zhǔn)化的解法:
-
彈性擴(kuò)展:從1到10K,分鐘級(jí)拉起海量環(huán)境; -
無縫銜接:本地代碼直接上云,開發(fā)生產(chǎn)一氣呵成; -
極致穩(wěn)定:故障隔離,快速恢復(fù),性能可預(yù)期; -
架構(gòu)革新:ModelService讓業(yè)務(wù)邏輯和訓(xùn)練框架徹底分手。
ROCK與ROLL的協(xié)同,讓Agentic模型訓(xùn)練不再是少數(shù)頂尖團(tuán)隊(duì)的黑科技,而是變成了一套每個(gè)開發(fā)者都能上手的標(biāo)準(zhǔn)工業(yè)流程。
ROCK正式開源,并將持續(xù)更新,誠邀您加入這場(chǎng)AI革命。
不管你是想發(fā)頂會(huì)paper的研究員,還是想給公司搭自動(dòng)化系統(tǒng)的架構(gòu)師,或者是想自己搓個(gè)Agent玩玩的技術(shù)宅,ROCK都會(huì)是你繞不開的基礎(chǔ)設(shè)施。
感興趣的話,項(xiàng)目地址我們已經(jīng)替大家找好了:
https://github.com/alibaba/ROCK
https://github.com/alibaba/ROLL
快速開始文檔:5分鐘完成首個(gè)Agent訓(xùn)練
https://alibaba.github.io/ROCK/docs/Getting%20Started/rockroll/
- 14歲華人小孩,折個(gè)紙成美國天才少年2025-12-06
- 智能體A2A落地華為新旗艦,鴻蒙開發(fā)者新機(jī)遇來了2025-12-06
- 《三體》“宇宙閃爍”成真!免佩戴裸眼3D屏登Nature2025-12-06
- 國產(chǎn)手機(jī)賣到1萬6!華為新旗艦,搭載麒麟90302025-11-25




