華為攻克AI推理「想太多」問題！新方法讓大模型推理提速60%，準確率還高了

聞樂 2025-05-30 15:11:27 來源：量子位

S-GRPO團隊投稿

量子位 | 公眾號 QbitAI

AI回答問題太慢太長且無用，有沒有能讓大模型提前停止思考的方法？

華為提出了首個在Qwen3上還有效的高效推理方法——S-GRPO，突破了思維鏈「冗余思考」瓶頸。

通過 “串行分組 + 衰減獎勵” 的設計，在保證推理準確性的前提下，讓模型學會提前終止思考，推理提速60%，生成更精確有用的答案。

S-GRPO適合作為當前Post Training（訓練后優化）范式中的最后一步，在確保模型預先存在的推理能力不受損害的情況下，使能模型在思維鏈的早期階段即可生成質量更高的推理路徑，并在思考充分后隱式地提前退出。

S-GRPO對單條完整推理路徑進行分段截斷

OpenAI o1, Deepseek-R1等推理模型依賴Test-Time Scaling law解決復雜的任務。

然而，過長的思維鏈序列的生成也顯著增加了計算負載和推理延遲，這提高了這些模型在實際應用中的部署門檻，且引入了很多冗余的思考。

S-GRPO的全稱為序列分組衰減獎勵策略優化（Serial-Group Decaying-Reward Policy Optimization），旨在提升大語言模型（LLM）的推理效率和準確性，解決冗余思考問題。

核心理念

傳統的推理優化方法，如GRPO（Group Reward Policy Optimization），采用并行生成多條完整推理路徑的方式（如下圖左側所示），并通過0/1獎勵機制對每條路徑的最終答案進行評價。

然而，這種方法未能充分利用推理過程中的中間信息，也未能有效提升推理效率。

S-GRPO的創新之處在于引入了“早退推理”的概念（如上圖右側所示）。

它通過對單條完整推理路徑進行分段截斷，生成多個“早退推理”分支（Serial Group），并通過一種指數衰減的獎勵機制對這些分支的答案進行評價。

具體來說：

早退推理路徑（Serial Group）
模型在推理過程中，可以在任意中間步驟停止推理并直接生成答案。這些不同位置的早退路徑被用于訓練模型，以評估在不同推理深度下的推理質量。
衰減獎勵策略（Decaying Reward Strategy）
對于每個早退路徑，如果答案正確，則根據其推理深度分配獎勵，越早退出推理的正確答案，獎勵越高（例如，獎勵值按照的規則遞減）；如果答案錯誤，則獎勵為0。這種機制不僅鼓勵模型盡早得出正確答案，還確保了推理的準確性。

方法

S-GRPO的訓練框架分為三個主要階段，如下圖所示：

完整推理展開（Full Thought Rollout）

模型首先生成一條完整的推理路徑（

），即從初始思考步驟（

）到最終的推理結束標志（

）和答案（

）。這一階段為后續的早退路徑生成提供了基礎。

早退推理展開（Early-exit Thought Rollout）

在完整推理路徑的基礎上，模型通過隨機截斷生成多個早退路徑（

）。

每條早退路徑在截斷點插入提示語“Time is limited, stop thinking and start answering. n</think>nn”，明確指示模型停止推理并生成答案（

）。

這些早退路徑形成了一個“序列分組”（Serial Group），用于訓練模型在不同推理深度下的表現。

獎勵計算與參數更新（Reward Computation and Parameter Update）

對于每條早退路徑，模型根據衰減獎勵策略計算獎勵值（

），并進一步計算優勢值（

）。

這些優勢值用于優化模型參數，最終使模型學會在合適的時機停止推理并生成高質量答案。

下圖直觀地展現了S-GRPO在訓練過程中如何采樣在不同位置提前退出的completions以及賦予獎勵。

對于第一個退出的位置，模型給出的中間答案錯誤，則將獎勵置為0。

對于后續給出正確答案的提前退出，則基于退出位置賦予衰減的正向獎勵值，越早退出收益越高，從而鼓勵模型探索簡潔且正確的思考。

實驗結果

為了驗證S-GRPO的表現，作者在5個挑戰性的推理benchmark上進行了測評，其中包含4個數學推理任務（GSM8K、MATH-500、AMC 2023、AIME 2024）、1個科學推理任務（GPQA Diamond）。

評估指標選用準確率和生成token數量兩維度評測。實驗選用了R1-Distill-Qwen系列模型（7B,14B）和Qwen3系列模型（8B, 14B）。

實驗結果表明S-GRPO顯著地超過了現有的baseline。

相較于vanilla的推理模型，S-GRPO平均提高了0.72到6.08個點準確率的同時降低了35.4%到61.1%的生成長度。

S-GRPO在訓練集域內（In Domain）的數學推理benchmark上（GSM8K、MATH-500、AMC 2023、AIME 2024）和訓練集域外（Out of Domain）的科學推理題目上（GPQA Diamond）都獲得了顯著的提升，充分證明了該方法的有效性和魯棒性。

相比于當前其它SOTA高效推理方法，S-GRPO最好的兼顧了正確性和效率。

相比于DEER，S-GRPO在困難問題與簡單問題上都能有效降低思考長度并維持精確度。

相比于原始GRPO，S-GRPO顯著降低了推理長度的同時有著相近的準確率。

而與其它的高效推理訓練方法相比，S-GRPO保持住了準確率，而它們均對回答的準確率性能有損害。

實驗還探究了S-GRPO在不同生成長度預算下的性能。

通過控制推理時的生成長度預算由短到長，比較S-GRPO與vaniila CoT在GSM8K和AIME 2024上準確率與實際生成長度的變化。

下圖中的實驗結果展現出在不同的預算下，S-GRPO都比vaniila CoT的準確率高且生成長度更短。

此外，實驗還表明，在長度預算少的情況下，S-GRPO相比vaniila CoT的準確率增益更顯著，實際生成長度相近；在長度預算高的情況下，S-GRPO相比vaniila CoT的實際生成長度更短，準確率略高。

S-GRPO相比vaniila CoT的兩個變化趨勢都更平緩。這表明S-GRPO只需要較低的長度預算就可以達到較高的準確率，反映出S-GRPO可以生成簡潔且正確的思考路徑。

為了驗證S-GRPO中每個設計的有效性，實驗設置了三個不同的消融實驗。

下表的實驗結果表明僅保留two-time rollouts中采樣的最短且正確的completion的設置雖然進一步縮短了推理長度，但是會損害模型的推理正確性。

消去對短輸出提供高回報的設計，即所有對正確的采樣結果都給予高回報，會導致模型推理依舊冗長，這是由于更長的推理更容易取得正確的結果，模型會收斂到探索長序列推理的方向。

移除掉Serial-Group Generation的設計后，S-GRPO退化成GRPO，模型在準確率和推理長度上取得了與w/o. Decaying（All 1）相近的表現，這說明作為S-GRPO中不可或缺的一環，Serial-Group Generation的設計本身不會損害模型在RL中的探索能力。

上圖中對比了S-GRPO與vanilla推理過程以及相同thinking budget下硬截斷迫使模型給出結論的輸出內容對比。

盡管同樣給出了正確的答案，S-GRPO僅使用了一半不到的思考budget，證明了S-GRPO有效解決了overthinking問題。

假如直接對原始推理內容在相同thinking budget處截斷，模型無法基于已有的思考內容得到正確的結論，這說明S-GRPO更精確地定位到了準確的解題思路。

這樣就有效地幫助模型向簡潔且正確的思考路徑收斂，避免了對于每個解題路徑淺嘗輒止的underthinking問題。

感興趣的朋友可到原文查看更多細節。

論文標題：S-GRPO: Early Exit via Reinforcement Learning in Reasoning Models
論文鏈接：https://arxiv.org/abs/2505.07686

— 完 —

LLM

聞樂

又一高管棄庫克而去！蘋果UI設計負責人轉投Meta2025-12-04
萬卡集群要上天？中國硬核企業打造太空超算！2025-11-29
學生3年投稿6次被拒，于是吳恩達親手搓了個評審Agent2025-11-25
波士頓動力前CTO加盟DeepMind，Gemini要做機器人界的安卓2025-11-25

華為攻克AI推理「想太多」問題！新方法讓大模型推理提速60%，準確率還高了

S-GRPO對單條完整推理路徑進行分段截斷

核心理念

方法

實驗結果

相關閱讀

打臉！GPT-4o輸出長度8k都勉強，陳丹琦團隊新基準測試：所有模型輸出都低于標稱長度

別跟LLM太交心！斯坦福新研究：AI不能完全取代人類心理治療師

開源標桿！最強中英雙語大模型來了，340億參數，超越 Llama2-70B等所有開源模型

只因一個“：”，大模型全軍覆沒

阿里通義發布并行計算新策略：1.6B等效4.4B，內存消耗驟降95%

IDEA研究院張家興入局大模型創業，沈向洋任顧問，首輪估值20億

熱門文章

云計算一哥10分鐘發了25個新品！Kimi和MiniMax首次上桌

GPT5.5代號“蒜你狠”曝光！OpenAI拉響紅色警報加班趕制新模型，最快下周就發

英偉達巧用8B模型秒掉GPT-5，開源了

“豆包手機”在二手市場價格都翻倍了……

DeepSeekV3.2技術報告還是老外看得細