攻克強化學習「最慢一環」!交大字節聯手,RL訓練速度飆升2.6倍
精度無損
允中 發自 凹非寺
量子位 | 公眾號 QbitAI
強化學習的訓練效率,實在是太低了!
隨著DeepSeek、GPT-4o、Gemini等模型的激烈角逐,大模型“深度思考”能力的背后,強化學習(RL)無疑是那把最關鍵的密鑰。
然而,這場競賽的背后,一個巨大的瓶頸正悄然限制著所有玩家的速度——相較于預訓練和推理,RL訓練更像一個效率低下的“手工作坊”,投入巨大但產出緩慢。
其中,占據超過80%時間的Rollout(響應生成)階段,由于其內存帶寬限制和自回歸特性,成為了整個AI基礎設施中公認的阿喀琉斯之踵。
如何攻克這塊AI基建的最后高地?現在,上海交通大學與字節跳動研究團隊給出了一個全新的答案。
該團隊聯手推出的RhymeRL,從一個被忽視的現象入手,巧妙地將歷史數據變廢為寶,在不犧牲精度的前提下,將RL訓練吞吐量提升了2.6倍。
模型生成的答案存在兩大“歷史相似性”
該研究團隊深入分析了大量RL訓練過程,發現在相鄰的兩個訓練周期中,盡管模型權重已經更新,但對于同一個問題(Prompt),模型生成的答案(Rollout)存在兩大“歷史相似性”:
第一,序列相似性。
新答案“繼承”了舊答案的思路,高達95%的歷史Token都可以直接復用。
第二,長度分布相似性。
上一輪里,哪些問題讓模型“思來想去”,這一輪大概率依舊如此。響應長度的排序驚人地穩定。
該研究團隊認為,這種相似性,主要源于PPO/GRPO等主流RL算法為了保證訓練穩定而采用的梯度裁剪(Clipping)機制,它讓模型的進化變得平滑而有跡可循。
這就好比一個學生,雖然每天都在進步,但他解決同一類型問題的思考路徑和草稿篇幅,在短期內是高度相似的。
既然如此,歷史的舊草稿能否成為新一輪學習的模版?
針對Rollout階段的低效現狀,提出新框架RhymeRL
基于這一洞察,RhymeRL框架應運而生。
針對Rollout階段的低效現狀,它包含兩大核心利器:
HistoSpec和HistoPipe。
RhymeRL的核心設計示意圖
HistoSpec
傳統的Rollout,是一個Token一個Token往外蹦的自回歸過程,速度慢且GPU利用率較低。
而HistoSpec獨創性地將投機解碼(Speculative Decoding)技術引入RL,它不再需要一個額外的小模型來“猜”草稿,而是直接把上一輪的歷史響應作為“最佳劇本”。
這就像開卷考試,你提前拿到了去年的標準答案作為參考。
- 起草(Draft):直接從歷史響應中巧妙地總結出樹狀草稿。
- 驗證(Verify):將整段草稿一次性扔給大模型,通過單次前向傳播,并行驗證所有Token的正確性,然后“接收”所有匹配的部分。
由于歷史序列的超高相似性,草稿的接受率極高。
這使得計算過程從逐字生成變成了“批量驗證”,計算密度飆升,打破了內存帶寬的枷鎖,讓單個響應的生成速度實現了質的飛躍。
HistoSpec采用的基于樹的歷史響應管理,實現了草稿的高速、準確生成
HistoPipe
僅僅讓單個響應變快還不夠。
在批處理中,不同任務的響應長度不一,短任務總要等待長任務,導致大量GPU資源被閑置,產生了巨大的“空泡”(Bubble)。
HistoPipe是一位具有前瞻性的調度大師,它的目標是:
榨干每一滴GPU算力,實現無空泡的完美流水線。
基于“長度分布相似性”的洞察,HistoPipe不再強求單一步內實現負載均衡,而是玩起了“跨步互補”——在奇數步,讓所有GPU由短到長處理任務;在偶數步,則反過來,由長到短處理。
這樣一來,上一步因為處理長任務而拖慢的GPU,在下一步會優先處理短任務,完美填補了時間差。
通過這種巧妙的削峰填谷,HistoPipe將整個集群的資源浪費降至最低。
HistoPipe的流水線設計,通過跨步互補調度實現了無空泡調度
2.6倍加速,精度無損
當模板HistoSpec遇上調度大師HistoPipe,產生反應是驚人的——實驗結果表明,在數學、代碼等任務上,RhymeRL相比于基礎系統取得了大幅性能提升,端到端訓練吞吐量提升高達2.61倍。
這意味著,研究者和企業可以用更少的資源、在更短的時間內,完成更強大的模型訓練,極大地加速了AI技術迭代的步伐。
RhymeRL在不同模型大小和不同響應長度下都取得了顯著加速效果
RhymeRL的重要意義在于,它提出了一種新的強化學習范式——基于歷史信息來端到端地加速強化學習效率。
強化學習不是簡單的推理與訓練的拼接,通過深入剖析其任務特性,RhymeRL能夠充分發揮系統統籌調度能力與底層硬件的算力資源,同時無損地適配各種已有的訓練算法。
arXiv鏈接:
https://www.arxiv.org/abs/2508.18588
- 知名數學家辭職投身AI創業:老板是00后華人女生2025-12-06
- Runway Gen-4.5刷屏發布,把重量塵土和光影都做對了,網友:顛覆2025-12-02
- 靈光 “一閃”,330萬個“閃應用”已創建2025-12-02
- AI也會被DDL逼瘋!正經研究發現:壓力越大,AI越危險2025-12-01



