ROCK & ROLL！阿里給智能體造了個(gè)實(shí)戰(zhàn)演練場(chǎng) | 開源

克雷西 2025-11-26 14:25:21 來源：量子位

構(gòu)成了完整的智能體訓(xùn)練閉環(huán)

克雷西發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

智能體終于擁有了可以海量復(fù)制的“實(shí)戰(zhàn)演練場(chǎng)”。

阿里此次開源的新項(xiàng)目ROCK，解決了無法在真實(shí)環(huán)境中規(guī)模化訓(xùn)練的難題。

有了ROCK，開發(fā)者想要訓(xùn)練AI執(zhí)行復(fù)雜任務(wù)時(shí)可以不在“手搓”環(huán)境，直接進(jìn)行標(biāo)準(zhǔn)化的一鍵部署。

它與阿里此前的RL訓(xùn)練框架ROLL形成了絕妙配合——

ROLL負(fù)責(zé)教AI怎么思考（訓(xùn)練算法），ROCK負(fù)責(zé)提供AI練習(xí)的場(chǎng)所（環(huán)境沙箱）。

兩者協(xié)同作戰(zhàn)，構(gòu)成了完整的智能體訓(xùn)練閉環(huán)。

這套組合打通了智能體訓(xùn)練的鏈路，讓開發(fā)者不再被底層基建困擾，實(shí)現(xiàn)從單機(jī)實(shí)驗(yàn)到集群大規(guī)模訓(xùn)練的跨越，推開了Agentic AI規(guī)模化應(yīng)用的大門。

環(huán)境服務(wù)，智能體進(jìn)化的缺失一環(huán)

當(dāng)下大語言模型正在經(jīng)歷一場(chǎng)深刻的范式轉(zhuǎn)變，最前沿的模型已經(jīng)進(jìn)化為能夠與外部環(huán)境深度交互的Agentic模型。

這種演化不僅僅是技術(shù)上的進(jìn)步，更代表了AI應(yīng)用場(chǎng)景的根本性擴(kuò)展。當(dāng)前幾乎所有的SOTA級(jí)模型都具備了多輪交互能力，能夠通過工具調(diào)用、代碼執(zhí)行、外部API調(diào)用等方式與環(huán)境進(jìn)行交互。

簡(jiǎn)單說就是，模型只是“能說”已經(jīng)無法滿足需求，現(xiàn)在還要會(huì)做，它們需要調(diào)用工具、跑代碼、調(diào)API，跟外部環(huán)境真刀真槍地交互。

從業(yè)務(wù)價(jià)值角度來看，這一轉(zhuǎn)變意義重大。許多企業(yè)的自動(dòng)化鏈路需要的不僅僅是文本建議或分析報(bào)告，而是能夠直接執(zhí)行的動(dòng)作。

不過要訓(xùn)練好這樣的Agent，光有聰明的大模型大腦只是基礎(chǔ)，后續(xù)還需要對(duì)模型進(jìn)行訓(xùn)練，讓模型學(xué)會(huì)在特定任務(wù)環(huán)境中規(guī)劃并執(zhí)行正確的決策序列。

這是一個(gè)系統(tǒng)工程，得湊齊四塊拼圖：大腦（LLM）、考卷（任務(wù)描述）、教練（RL框架），以及最容易被忽視的一塊——訓(xùn)練場(chǎng)（環(huán)境服務(wù)）。

很多從業(yè)者面臨的困境，往往就和這個(gè)“訓(xùn)練場(chǎng)”有關(guān)。

如果把RL框架比作發(fā)動(dòng)機(jī)，那么訓(xùn)練環(huán)境就是燃料。對(duì)于Agentic模型而言，環(huán)境服務(wù)的穩(wěn)定性和效率直接決定了模型的Scaling潛力，也就是能否通過大規(guī)模交互數(shù)據(jù)持續(xù)突破性能瓶頸。

一個(gè)高效穩(wěn)定的環(huán)境服務(wù)需要同時(shí)處理數(shù)千乃至數(shù)萬訓(xùn)練實(shí)例，需要毫秒級(jí)的快速反饋，需要可靠地維護(hù)、回溯和重置環(huán)境狀態(tài)，還需要適配多樣化任務(wù)類型與復(fù)雜度。

環(huán)境服務(wù)的性能瓶頸往往直接成為整個(gè)訓(xùn)練流程的“卡脖子”問題。

為突破這一制約，開發(fā)者需要雙軌并行——既要構(gòu)建高度可定制化與高性能的強(qiáng)化學(xué)習(xí)訓(xùn)練框架，也要建立高效穩(wěn)定、彈性伸縮的環(huán)境管理運(yùn)行體系，兩者協(xié)同才能釋放Agentic模型的真正潛力。

ROLL框架，高性能的驅(qū)動(dòng)引擎

ROLL基于Ray構(gòu)建，專門為了大規(guī)模LLM強(qiáng)化學(xué)習(xí)打造，覆蓋從小規(guī)模預(yù)研到數(shù)千卡百億參數(shù)生產(chǎn)環(huán)境的完整RL優(yōu)化流程。

ROLL提供了豐富的功能特性，涵蓋了強(qiáng)化學(xué)習(xí)訓(xùn)練的各個(gè)方面——

支持?jǐn)?shù)學(xué)、代碼、推理等多領(lǐng)域任務(wù)聯(lián)合訓(xùn)練；
原生支持Agentic RL，靈活適配游戲、多輪對(duì)話、工具調(diào)用、CodeAgent等多步?jīng)Q策場(chǎng)景；
深度集成Megatron-Core、Deepspeed等主流框架，支持先進(jìn)的5D并行策略；
具備樣本級(jí)生成管理、異步推理、異步訓(xùn)練加速等核心機(jī)制。

為了讓Agent訓(xùn)練得更快，ROLL專門搞了環(huán)境異步交互和冗余采樣。而且，它用了一套非常簡(jiǎn)潔的標(biāo)準(zhǔn)接口——GEM。

ROLL采用GEM通過極簡(jiǎn)的env.reset和env.step兩個(gè)核心方法，大幅簡(jiǎn)化了Agentic RL的交互過程。

這種簡(jiǎn)潔的設(shè)計(jì)使得任何新的業(yè)務(wù)應(yīng)用都能快速適配，無需復(fù)雜的接口轉(zhuǎn)換。

環(huán)境開發(fā)者只需實(shí)現(xiàn)標(biāo)準(zhǔn)的reset/step方法，即可無縫接入ROLL的訓(xùn)練體系，實(shí)現(xiàn)從簡(jiǎn)單游戲到復(fù)雜工具調(diào)用等各類Agentic任務(wù)的統(tǒng)一管理。

ROLL作為驅(qū)動(dòng)引擎，在Agentic RL訓(xùn)練過程中的Scaling能力對(duì)環(huán)境服務(wù)提出了極高的具體要求——

它能并發(fā)處理數(shù)萬個(gè)實(shí)例，這就要求環(huán)境服務(wù)得扛得住這么大的吞吐量；
它有容錯(cuò)機(jī)制，這就要求環(huán)境得有足夠的冗余；
它支持異步Rollout，這就要求環(huán)境拉起要快，生命周期管理要細(xì)。

現(xiàn)在，雖然訓(xùn)練引擎準(zhǔn)備好了，但環(huán)境還沒完善，就是在這個(gè)背景下，ROCK登場(chǎng)了。

打造智能體訓(xùn)練的標(biāo)準(zhǔn)化工廠

ROCK（Reinforcement Open Construction Kit），名字一聽就很硬核。

智能體訓(xùn)練輕松實(shí)現(xiàn)規(guī)模化

它的核心使命就一個(gè)詞——規(guī)模化。

一個(gè)聰明的Agent，其智能的廣度與深度，取決于它所能探索世界的規(guī)模與多樣性。

但傳統(tǒng)訓(xùn)練里，復(fù)雜的環(huán)境太吃資源了，單機(jī)跑幾個(gè)就滿載，成為了限制Agent訓(xùn)練規(guī)模的硬性天花板。

ROCK的誕生，正是為了擊碎這塊天花板。

它的底座也是Ray，這讓它能把一堆雜亂的計(jì)算集群，抽象成一個(gè)整齊劃一、彈性伸縮的“環(huán)境資源池”。

以前你要配置一套集群環(huán)境，可能得折騰好幾天。現(xiàn)在用ROCK，只需修改配置參數(shù)，就能在分鐘級(jí)別內(nèi)，自動(dòng)調(diào)度和拉起成千上萬個(gè)并行訓(xùn)練環(huán)境。

開發(fā)者不必再關(guān)心繁瑣的節(jié)點(diǎn)管理和資源分配，可以完全聚焦于算法本身。

而且它還支持前所未有的訓(xùn)練靈活性，支持在同一集群中，同時(shí)運(yùn)行同構(gòu)（來自同一鏡像）與異構(gòu)（來自不同鏡像）的環(huán)境。

這既滿足了大規(guī)模重復(fù)探索的需求，也為提升Agent在網(wǎng)頁瀏覽、代碼編寫等不同任務(wù)間的泛化能力提供了至關(guān)重要的保障。

告別環(huán)境“黑盒”

除了規(guī)模大，ROCK還解決了一個(gè)讓開發(fā)者抓狂的問題——環(huán)境是個(gè)“黑盒”。

Agent跑著跑著動(dòng)作變形了，到底是因?yàn)榄h(huán)境出bug了，還是Agent自身出現(xiàn)了問題？以前很難知道。

ROCK直接給開發(fā)者開了一個(gè)“上帝視角”——程序化的Bash交互能力。

它把Linux Shell的能力通過SDK和HTTP API開放了出來，讓開發(fā)者可以像操作本地終端一樣，與成百上千個(gè)遠(yuǎn)程Sandbox進(jìn)行深度交互。

不論想查某個(gè)Sandbox里的文件，還是查看實(shí)時(shí)日志或者進(jìn)程狀態(tài)，甚至想動(dòng)態(tài)改動(dòng)環(huán)境變量都沒問題。

這種調(diào)試體驗(yàn)，既保留了單機(jī)開發(fā)的直觀，又實(shí)現(xiàn)了分布式的規(guī)模。

靈活部署與企業(yè)級(jí)穩(wěn)定

為了打通開發(fā)和生產(chǎn)那“最后一公里”，ROCK還設(shè)計(jì)了一套“一次編寫，隨處運(yùn)行”的方案。

在剛開始寫代碼的時(shí)候，你可以用本地獨(dú)立運(yùn)行模式。把它當(dāng)個(gè)純凈的“環(huán)境實(shí)驗(yàn)室”，跑跑單元測(cè)試，驗(yàn)證下你的Chrome瀏覽器裝沒裝好，文件系統(tǒng)能不能寫。

這時(shí)候不需要啟動(dòng)龐大的訓(xùn)練流程，先確保環(huán)境本身是健康的。

代碼寫差不多了，就可以進(jìn)行本地集成調(diào)試。用ROLL一鍵拉起ROCK Sandbox，跑通整個(gè)端到端鏈路。從發(fā)指令到收反饋，全流程“所見即所得”，不需要去集群上排隊(duì)等待。

等一切就緒，便能直接云端規(guī)模化部署。配置都不用改，ROCK幫你屏蔽掉底層的復(fù)雜度，自動(dòng)擴(kuò)展到成千上萬個(gè)實(shí)例。

這樣就能夠杜絕“在我電腦上能跑，上去就掛”的玄學(xué)問題。

對(duì)于動(dòng)輒運(yùn)行數(shù)小時(shí)甚至數(shù)天的Agent訓(xùn)練任務(wù)而言，環(huán)境的穩(wěn)定性也至關(guān)重要。

在這方面，ROCK也是按阿里內(nèi)部核心基礎(chǔ)設(shè)施的標(biāo)準(zhǔn)來的。

故障隔離做得非常死，每個(gè)Sandbox都關(guān)在自己的籠子里，一個(gè)崩了絕不會(huì)連累鄰居，更不會(huì)拖垮整個(gè)服務(wù)。

資源調(diào)度也非常精細(xì)，消除了“吵鬧鄰居”帶來的資源爭(zhēng)搶。環(huán)境性能穩(wěn)定了，采集的數(shù)據(jù)質(zhì)量才高，模型收斂才能穩(wěn)。

狀態(tài)管理則主打一個(gè)快，環(huán)境掛了秒級(jí)拉起重置，保證訓(xùn)練流水線不中斷。

ModelService，解耦的神來之筆

在Agentic AI的開發(fā)與訓(xùn)練中，開發(fā)者長(zhǎng)期面臨一個(gè)棘手的矛盾。

Agent自己有一套業(yè)務(wù)邏輯（比如怎么拼Prompt，怎么管理對(duì)話歷史），而訓(xùn)練框架為了介入訓(xùn)練，又難免會(huì)插手這個(gè)過程。

以前的笨辦法是，訓(xùn)練框架把Agent的邏輯重寫一遍。結(jié)果就是兩邊代碼打架，Agent一改邏輯，訓(xùn)練代碼就得跟著改，維護(hù)過程極其繁瑣。

ROCK用ModelService做了一個(gè)“中間人”，完美實(shí)現(xiàn)了解耦。

ModelService本質(zhì)上是一個(gè)部署在ROCK內(nèi)部的智能模型代理。它通過“提問-攔截-回答”三步，讓Agent和ROLL各司其職，完美協(xié)同。

提問：Agent在Sandbox里，按自己的邏輯拼好Prompt，發(fā)起調(diào)用；
攔截：ModelService把這個(gè)請(qǐng)求攔下來，它不直接調(diào)大模型，而是把這個(gè)“原汁原味”的Prompt通過反向通道傳遞給外面的ROLL；
回答：ROLL拿到了Prompt，也就拿到了思考過程的控制權(quán)。它通過中心化的推理服務(wù)，算獎(jiǎng)勵(lì)、做優(yōu)化，最后返回答案。

這一招至少帶來了四個(gè)好處：

徹底解耦：Agent只管問，ROLL只管答。兩邊代碼互不干擾；
控制權(quán)在手：ROLL雖然不干涉Prompt怎么生成的，但它掌握了最終的Prompt，依然握著訓(xùn)練的主動(dòng)權(quán)；
節(jié)約成本：將昂貴的GPU資源集中用于ROLL的中心推理服務(wù)，ROCK Sandbox在低成本的CPU實(shí)例上大規(guī)模運(yùn)行，極大降低了訓(xùn)練成本；
兼容性強(qiáng)：這種架構(gòu)天然開放，解耦的設(shè)計(jì)具有天然的泛化能力，能夠輕松支持任何自定義邏輯的Agent。

ModelService讓ROCK不僅僅是個(gè)執(zhí)行環(huán)境，更是一個(gè)懂訓(xùn)練的智能基礎(chǔ)設(shè)施。

推開Agentic AI規(guī)模化應(yīng)用的大門

隨著ROCK的開源，阿里在Agentic AI訓(xùn)練領(lǐng)域的版圖終于拼完了。

ROLL提供強(qiáng)大的訓(xùn)練引擎，ROCK則注入源源不斷的環(huán)境燃料。

這套組合從根本上解決了Agentic模型訓(xùn)練中的兩大核心挑戰(zhàn)——高效的學(xué)習(xí)算法和可規(guī)模化的環(huán)境服務(wù)。

現(xiàn)在，通過ROCK，開發(fā)者擁有了一套標(biāo)準(zhǔn)化的解法：

彈性擴(kuò)展：從1到10K，分鐘級(jí)拉起海量環(huán)境；
無縫銜接：本地代碼直接上云，開發(fā)生產(chǎn)一氣呵成；
極致穩(wěn)定：故障隔離，快速恢復(fù)，性能可預(yù)期；
架構(gòu)革新：ModelService讓業(yè)務(wù)邏輯和訓(xùn)練框架徹底分手。

ROCK與ROLL的協(xié)同，讓Agentic模型訓(xùn)練不再是少數(shù)頂尖團(tuán)隊(duì)的黑科技，而是變成了一套每個(gè)開發(fā)者都能上手的標(biāo)準(zhǔn)工業(yè)流程。

ROCK正式開源，并將持續(xù)更新，誠邀您加入這場(chǎng)AI革命。

不管你是想發(fā)頂會(huì)paper的研究員，還是想給公司搭自動(dòng)化系統(tǒng)的架構(gòu)師，或者是想自己搓個(gè)Agent玩玩的技術(shù)宅，ROCK都會(huì)是你繞不開的基礎(chǔ)設(shè)施。

感興趣的話，項(xiàng)目地址我們已經(jīng)替大家找好了：
https://github.com/alibaba/ROCK
https://github.com/alibaba/ROLL

快速開始文檔：5分鐘完成首個(gè)Agent訓(xùn)練
https://alibaba.github.io/ROCK/docs/Getting%20Started/rockroll/

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

開源智能體阿里

克雷西

14歲華人小孩，折個(gè)紙成美國天才少年2025-12-06
智能體A2A落地華為新旗艦，鴻蒙開發(fā)者新機(jī)遇來了2025-12-06
《三體》“宇宙閃爍”成真！免佩戴裸眼3D屏登Nature2025-12-06
國產(chǎn)手機(jī)賣到1萬6！華為新旗艦，搭載麒麟90302025-11-25

ROCK & ROLL！阿里給智能體造了個(gè)實(shí)戰(zhàn)演練場(chǎng) | 開源

克雷西發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

環(huán)境服務(wù)，智能體進(jìn)化的缺失一環(huán)

ROLL框架，高性能的驅(qū)動(dòng)引擎

打造智能體訓(xùn)練的標(biāo)準(zhǔn)化工廠

智能體訓(xùn)練輕松實(shí)現(xiàn)規(guī)模化

告別環(huán)境“黑盒”

靈活部署與企業(yè)級(jí)穩(wěn)定

ModelService，解耦的神來之筆

推開Agentic AI規(guī)模化應(yīng)用的大門

相關(guān)閱讀

雙11背后的技術(shù)力量，阿里云神龍治愈云計(jì)算阿克琉斯之踵

AI繪圖模型不會(huì)寫字的難題，被阿里破解了

實(shí)測(cè)DeepSeek V3.1，不止拓展上下文長(zhǎng)度

路透社：阿里巴巴與中國移動(dòng)考慮向大華注資30億人民幣；大華回應(yīng)：不實(shí)消息

阿里賈揚(yáng)清：新一輪AI爆發(fā)的推動(dòng)機(jī)制是工程化和開源 | MEET2023

Python之父，現(xiàn)在成為微軟打工人

熱門文章

DeepSeek-V3.2系列開源，性能直接對(duì)標(biāo)Gemini-3.0-Pro

能講“悄悄話”的智能助理，瑞聲科技助力夸克AI眼鏡S1開創(chuàng) 語音交互新范式

商湯分拆了一家AI醫(yī)療公司，半年融資10億，劍指“醫(yī)療世界模型”

前端沒死，AI APP正在返祖

寧德時(shí)代給9萬+基層員工漲了薪！每月150元

ROCK & ROLL！阿里給智能體造了個(gè)實(shí)戰(zhàn)演練場(chǎng) | 開源

克雷西 發(fā)自 凹非寺 量子位 | 公眾號(hào) QbitAI

環(huán)境服務(wù)，智能體進(jìn)化的缺失一環(huán)

ROLL框架，高性能的驅(qū)動(dòng)引擎

打造智能體訓(xùn)練的標(biāo)準(zhǔn)化工廠

智能體訓(xùn)練輕松實(shí)現(xiàn)規(guī)模化

告別環(huán)境“黑盒”

靈活部署與企業(yè)級(jí)穩(wěn)定

ModelService，解耦的神來之筆

推開Agentic AI規(guī)模化應(yīng)用的大門

相關(guān)閱讀

雙11背后的技術(shù)力量，阿里云神龍治愈云計(jì)算阿克琉斯之踵

AI繪圖模型不會(huì)寫字的難題，被阿里破解了

實(shí)測(cè)DeepSeek V3.1，不止拓展上下文長(zhǎng)度

路透社：阿里巴巴與中國移動(dòng)考慮向大華注資30億人民幣；大華回應(yīng)：不實(shí)消息

阿里賈揚(yáng)清：新一輪AI爆發(fā)的推動(dòng)機(jī)制是工程化和開源 | MEET2023

Python之父，現(xiàn)在成為微軟打工人

熱門文章

DeepSeek-V3.2系列開源，性能直接對(duì)標(biāo)Gemini-3.0-Pro

能講“悄悄話”的智能助理，瑞聲科技助力夸克AI眼鏡S1開創(chuàng) 語音交互新范式

商湯分拆了一家AI醫(yī)療公司，半年融資10億，劍指“醫(yī)療世界模型”

前端沒死，AI APP正在返祖

寧德時(shí)代給9萬+基層員工漲了薪！每月150元

克雷西發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI