攻克強化學習「最慢一環」！交大字節聯手，RL訓練速度飆升2.6倍

鷺羽 2025-09-13 16:45:23 來源：量子位

精度無損

允中發自凹非寺

量子位 | 公眾號 QbitAI

強化學習的訓練效率，實在是太低了！

隨著DeepSeek、GPT-4o、Gemini等模型的激烈角逐，大模型“深度思考”能力的背后，強化學習（RL）無疑是那把最關鍵的密鑰。

然而，這場競賽的背后，一個巨大的瓶頸正悄然限制著所有玩家的速度——相較于預訓練和推理，RL訓練更像一個效率低下的“手工作坊”，投入巨大但產出緩慢。

其中，占據超過80%時間的Rollout（響應生成）階段，由于其內存帶寬限制和自回歸特性，成為了整個AI基礎設施中公認的阿喀琉斯之踵。

如何攻克這塊AI基建的最后高地？現在，上海交通大學與字節跳動研究團隊給出了一個全新的答案。

該團隊聯手推出的RhymeRL，從一個被忽視的現象入手，巧妙地將歷史數據變廢為寶，在不犧牲精度的前提下，將RL訓練吞吐量提升了2.6倍。

模型生成的答案存在兩大“歷史相似性”

該研究團隊深入分析了大量RL訓練過程，發現在相鄰的兩個訓練周期中，盡管模型權重已經更新，但對于同一個問題（Prompt），模型生成的答案（Rollout）存在兩大“歷史相似性”：

第一，序列相似性。

新答案“繼承”了舊答案的思路，高達95%的歷史Token都可以直接復用。

第二，長度分布相似性。

上一輪里，哪些問題讓模型“思來想去”，這一輪大概率依舊如此。響應長度的排序驚人地穩定。

該研究團隊認為，這種相似性，主要源于PPO/GRPO等主流RL算法為了保證訓練穩定而采用的梯度裁剪（Clipping）機制，它讓模型的進化變得平滑而有跡可循。

這就好比一個學生，雖然每天都在進步，但他解決同一類型問題的思考路徑和草稿篇幅，在短期內是高度相似的。

既然如此，歷史的舊草稿能否成為新一輪學習的模版？

針對Rollout階段的低效現狀，提出新框架RhymeRL

基于這一洞察，RhymeRL框架應運而生。

針對Rollout階段的低效現狀，它包含兩大核心利器：

HistoSpec和HistoPipe。

RhymeRL的核心設計示意圖

HistoSpec

傳統的Rollout，是一個Token一個Token往外蹦的自回歸過程，速度慢且GPU利用率較低。

而HistoSpec獨創性地將投機解碼（Speculative Decoding）技術引入RL，它不再需要一個額外的小模型來“猜”草稿，而是直接把上一輪的歷史響應作為“最佳劇本”。

這就像開卷考試，你提前拿到了去年的標準答案作為參考。

起草（Draft）：直接從歷史響應中巧妙地總結出樹狀草稿。
驗證（Verify）：將整段草稿一次性扔給大模型，通過單次前向傳播，并行驗證所有Token的正確性，然后“接收”所有匹配的部分。

由于歷史序列的超高相似性，草稿的接受率極高。

這使得計算過程從逐字生成變成了“批量驗證”，計算密度飆升，打破了內存帶寬的枷鎖，讓單個響應的生成速度實現了質的飛躍。

HistoSpec采用的基于樹的歷史響應管理，實現了草稿的高速、準確生成

HistoPipe

僅僅讓單個響應變快還不夠。

在批處理中，不同任務的響應長度不一，短任務總要等待長任務，導致大量GPU資源被閑置，產生了巨大的“空泡”（Bubble）。

HistoPipe是一位具有前瞻性的調度大師，它的目標是：

榨干每一滴GPU算力，實現無空泡的完美流水線。

基于“長度分布相似性”的洞察，HistoPipe不再強求單一步內實現負載均衡，而是玩起了“跨步互補”——在奇數步，讓所有GPU由短到長處理任務；在偶數步，則反過來，由長到短處理。

這樣一來，上一步因為處理長任務而拖慢的GPU，在下一步會優先處理短任務，完美填補了時間差。

通過這種巧妙的削峰填谷，HistoPipe將整個集群的資源浪費降至最低。

HistoPipe的流水線設計，通過跨步互補調度實現了無空泡調度

2.6倍加速，精度無損

當模板HistoSpec遇上調度大師HistoPipe，產生反應是驚人的——實驗結果表明，在數學、代碼等任務上，RhymeRL相比于基礎系統取得了大幅性能提升，端到端訓練吞吐量提升高達2.61倍。

這意味著，研究者和企業可以用更少的資源、在更短的時間內，完成更強大的模型訓練，極大地加速了AI技術迭代的步伐。

RhymeRL在不同模型大小和不同響應長度下都取得了顯著加速效果

RhymeRL的重要意義在于，它提出了一種新的強化學習范式——基于歷史信息來端到端地加速強化學習效率。

強化學習不是簡單的推理與訓練的拼接，通過深入剖析其任務特性，RhymeRL能夠充分發揮系統統籌調度能力與底層硬件的算力資源，同時無損地適配各種已有的訓練算法。

arXiv鏈接：
https://www.arxiv.org/abs/2508.18588

字節強化學習

鷺羽

知名數學家辭職投身AI創業：老板是00后華人女生2025-12-06
Runway Gen-4.5刷屏發布，把重量塵土和光影都做對了，網友：顛覆2025-12-02
靈光 “一閃”，330萬個“閃應用”已創建2025-12-02
AI也會被DDL逼瘋！正經研究發現：壓力越大，AI越危險2025-12-01

攻克強化學習「最慢一環」！交大字節聯手，RL訓練速度飆升2.6倍

模型生成的答案存在兩大“歷史相似性”