色综合中文综合网_性猛交娇小69hd_久久精品99久久久久久_欧美日韩精品一区二区三区四区 _97视频色精品_国产高清精品久久久久_日日鲁鲁鲁夜夜爽爽狠狠视频97 _国产成人免费视频精品含羞草妖精 _熟女少妇在线视频播放_精品人妻一区二区三区麻豆91 _久久女同性恋中文字幕_一区二区福利视频

華為攻克AI推理「想太多」問題!新方法讓大模型推理提速60%,準確率還高了

S-GRPO團隊 投稿

量子位 | 公眾號 QbitAI

AI回答問題太慢太長且無用,有沒有能讓大模型提前停止思考的方法?

華為提出了首個在Qwen3上還有效的高效推理方法——S-GRPO,突破了思維鏈「冗余思考」瓶頸。

通過 “串行分組 + 衰減獎勵” 的設計,在保證推理準確性的前提下,讓模型學會提前終止思考,推理提速60%,生成更精確有用的答案。

S-GRPO適合作為當前Post Training(訓練后優化)范式中的最后一步,在確保模型預先存在的推理能力不受損害的情況下,使能模型在思維鏈的早期階段即可生成質量更高的推理路徑,并在思考充分后隱式地提前退出

華為攻克AI推理「想太多」問題!新方法讓大模型推理提速60%,準確率還高了

S-GRPO對單條完整推理路徑進行分段截斷

OpenAI o1, Deepseek-R1等推理模型依賴Test-Time Scaling law解決復雜的任務。

然而,過長的思維鏈序列的生成也顯著增加了計算負載和推理延遲,這提高了這些模型在實際應用中的部署門檻,且引入了很多冗余的思考。

S-GRPO的全稱為序列分組衰減獎勵策略優化(Serial-Group Decaying-Reward Policy Optimization),旨在提升大語言模型(LLM)的推理效率和準確性,解決冗余思考問題。

核心理念

傳統的推理優化方法,如GRPO(Group Reward Policy Optimization),采用并行生成多條完整推理路徑的方式(如下圖左側所示),并通過0/1獎勵機制對每條路徑的最終答案進行評價。

然而,這種方法未能充分利用推理過程中的中間信息,也未能有效提升推理效率。

華為攻克AI推理「想太多」問題!新方法讓大模型推理提速60%,準確率還高了

S-GRPO的創新之處在于引入了“早退推理”的概念(如上圖右側所示)。

它通過對單條完整推理路徑進行分段截斷,生成多個“早退推理”分支(Serial Group),并通過一種指數衰減的獎勵機制對這些分支的答案進行評價。

具體來說:

  • 早退推理路徑(Serial Group)
  • 模型在推理過程中,可以在任意中間步驟停止推理并直接生成答案。這些不同位置的早退路徑被用于訓練模型,以評估在不同推理深度下的推理質量。
  • 衰減獎勵策略(Decaying Reward Strategy)
  • 對于每個早退路徑,如果答案正確,則根據其推理深度分配獎勵,越早退出推理的正確答案,獎勵越高(例如,獎勵值按照 的規則遞減);如果答案錯誤,則獎勵為0。這種機制不僅鼓勵模型盡早得出正確答案,還確保了推理的準確性。

方法

S-GRPO的訓練框架分為三個主要階段,如下圖所示:

華為攻克AI推理「想太多」問題!新方法讓大模型推理提速60%,準確率還高了
  • 完整推理展開(Full Thought Rollout)

模型首先生成一條完整的推理路徑(

華為攻克AI推理「想太多」問題!新方法讓大模型推理提速60%,準確率還高了

),即從初始思考步驟(

華為攻克AI推理「想太多」問題!新方法讓大模型推理提速60%,準確率還高了

)到最終的推理結束標志(

華為攻克AI推理「想太多」問題!新方法讓大模型推理提速60%,準確率還高了

) 和答案(

華為攻克AI推理「想太多」問題!新方法讓大模型推理提速60%,準確率還高了

)。這一階段為后續的早退路徑生成提供了基礎。

  • 早退推理展開(Early-exit Thought Rollout)

在完整推理路徑的基礎上,模型通過隨機截斷生成多個早退路徑(

華為攻克AI推理「想太多」問題!新方法讓大模型推理提速60%,準確率還高了

)。

每條早退路徑在截斷點插入提示語“Time is limited, stop thinking and start answering. n</think>nn”,明確指示模型停止推理并生成答案(

華為攻克AI推理「想太多」問題!新方法讓大模型推理提速60%,準確率還高了

)。

這些早退路徑形成了一個“序列分組”(Serial Group),用于訓練模型在不同推理深度下的表現。

  • 獎勵計算與參數更新(Reward Computation and Parameter Update)

對于每條早退路徑,模型根據衰減獎勵策略計算獎勵值(

華為攻克AI推理「想太多」問題!新方法讓大模型推理提速60%,準確率還高了

),并進一步計算優勢值(

華為攻克AI推理「想太多」問題!新方法讓大模型推理提速60%,準確率還高了

)。

這些優勢值用于優化模型參數,最終使模型學會在合適的時機停止推理并生成高質量答案。

下圖直觀地展現了S-GRPO在訓練過程中如何采樣在不同位置提前退出的completions以及賦予獎勵。

華為攻克AI推理「想太多」問題!新方法讓大模型推理提速60%,準確率還高了

對于第一個退出的位置,模型給出的中間答案錯誤,則將獎勵置為0。

對于后續給出正確答案的提前退出,則基于退出位置賦予衰減的正向獎勵值,越早退出收益越高,從而鼓勵模型探索簡潔且正確的思考。

實驗結果

為了驗證S-GRPO的表現,作者在5個挑戰性的推理benchmark上進行了測評,其中包含4個數學推理任務(GSM8K、MATH-500、AMC 2023、AIME 2024)、1個科學推理任務(GPQA Diamond)。

評估指標選用準確率和生成token數量兩維度評測。實驗選用了R1-Distill-Qwen系列模型(7B,14B)和Qwen3系列模型(8B, 14B)。

華為攻克AI推理「想太多」問題!新方法讓大模型推理提速60%,準確率還高了

實驗結果表明S-GRPO顯著地超過了現有的baseline。

相較于vanilla的推理模型,S-GRPO平均提高了0.72到6.08個點準確率的同時降低了35.4%到61.1%的生成長度

S-GRPO在訓練集域內(In Domain)的數學推理benchmark上(GSM8K、MATH-500、AMC 2023、AIME 2024)和訓練集域外(Out of Domain)的科學推理題目上(GPQA Diamond)都獲得了顯著的提升,充分證明了該方法的有效性和魯棒性。

相比于當前其它SOTA高效推理方法,S-GRPO最好的兼顧了正確性和效率。

相比于DEER,S-GRPO在困難問題與簡單問題上都能有效降低思考長度并維持精確度。

相比于原始GRPO,S-GRPO顯著降低了推理長度的同時有著相近的準確率。

而與其它的高效推理訓練方法相比,S-GRPO保持住了準確率,而它們均對回答的準確率性能有損害。

實驗還探究了S-GRPO在不同生成長度預算下的性能

通過控制推理時的生成長度預算由短到長,比較S-GRPO與vaniila CoT在GSM8K和AIME 2024上準確率與實際生成長度的變化。

下圖中的實驗結果展現出在不同的預算下,S-GRPO都比vaniila CoT的準確率高且生成長度更短。

華為攻克AI推理「想太多」問題!新方法讓大模型推理提速60%,準確率還高了

此外,實驗還表明,在長度預算少的情況下,S-GRPO相比vaniila CoT的準確率增益更顯著,實際生成長度相近;在長度預算高的情況下,S-GRPO相比vaniila CoT的實際生成長度更短,準確率略高。

S-GRPO相比vaniila CoT的兩個變化趨勢都更平緩。這表明S-GRPO只需要較低的長度預算就可以達到較高的準確率,反映出S-GRPO可以生成簡潔且正確的思考路徑。

為了驗證S-GRPO中每個設計的有效性,實驗設置了三個不同的消融實驗。

下表的實驗結果表明僅保留two-time rollouts中采樣的最短且正確的completion的設置雖然進一步縮短了推理長度,但是會損害模型的推理正確性。

華為攻克AI推理「想太多」問題!新方法讓大模型推理提速60%,準確率還高了

消去對短輸出提供高回報的設計,即所有對正確的采樣結果都給予高回報,會導致模型推理依舊冗長,這是由于更長的推理更容易取得正確的結果,模型會收斂到探索長序列推理的方向。

移除掉Serial-Group Generation的設計后,S-GRPO退化成GRPO,模型在準確率和推理長度上取得了與w/o. Decaying(All 1)相近的表現,這說明作為S-GRPO中不可或缺的一環,Serial-Group Generation的設計本身不會損害模型在RL中的探索能力。

華為攻克AI推理「想太多」問題!新方法讓大模型推理提速60%,準確率還高了

上圖中對比了S-GRPO與vanilla推理過程以及相同thinking budget下硬截斷迫使模型給出結論的輸出內容對比。

盡管同樣給出了正確的答案,S-GRPO僅使用了一半不到的思考budget,證明了S-GRPO有效解決了overthinking問題。

假如直接對原始推理內容在相同thinking budget處截斷,模型無法基于已有的思考內容得到正確的結論,這說明S-GRPO更精確地定位到了準確的解題思路。

這樣就有效地幫助模型向簡潔且正確的思考路徑收斂,避免了對于每個解題路徑淺嘗輒止的underthinking問題。

感興趣的朋友可到原文查看更多細節。

論文標題:S-GRPO: Early Exit via Reinforcement Learning in Reasoning Models
論文鏈接:https://arxiv.org/abs/2505.07686

— 完 —

版權所有,未經授權不得以任何形式轉載及使用,違者必究。
久久精品成人欧美大片古装| 欧美日韩亚洲国产一区| 国产a级一级片| 一区二区三区成人| 国产免费一区二区三区最新6| 精品成人a区在线观看| 草视频在线观看| 午夜精品一区二区三区在线视频 | 毛片av在线播放| 亚洲在线视频免费观看| 黄色在线观看av| 精品国产视频在线| 日本黄色一区二区三区| 色姑娘综合网| 亚洲自拍偷拍综合| 国产手机在线观看| 欧美成人四级hd版| 日韩电影免费在线观看网站| 亚洲欧美日产图| 亚洲一区二区综合| 蜜桃视频最新网址| 欧洲中文字幕国产精品| 国产**成人网毛片九色 | 国产精品久久久久久久av电影| 精品午夜久久福利影院| 免费国产a级片| 欧美精选一区二区| 久久久免费高清视频| 成人免费激情视频| 久久这里只有精品视频网| 亚洲一区二区三区四区精品| 亚洲欧美资源在线| 天堂在线视频免费观看| 黄网站色视频免费观看| 欧美一区二区三区在线电影| 波多野结衣电影在线播放| 国产女人水真多18毛片18精品| 一色屋精品亚洲香蕉网站| 麻豆av免费观看| 欧美亚洲国产视频小说| 99国产精品国产精品毛片| 超碰人人cao| 欧美国产日韩一区| 成人黄色在线视频| 永久免费未满蜜桃| 91av在线网站| 久久这里只有精品6| 特级西西人体4444xxxx| 久久免费视频网| 成人黄色av电影| youjizz.com国产| 国内免费久久久久久久久久久| 粉嫩一区二区三区在线看| 免费黄视频在线观看| 欧美国产日韩精品| 2020国产精品久久精品美国| 久久精品无码一区| 成人黄在线观看| 一区二区视频在线看| 精品午夜福利在线观看| 狠狠色综合网站久久久久久久| 动漫精品一区二区| www.亚洲激情| 91免费国产精品| 亚洲女人初尝黑人巨大| 精品一二线国产| 中文字幕一区二区三区人妻在线视频 | 狠狠狠色丁香婷婷综合激情| 国产91在线免费观看| 国内精品一区二区三区| 国产精品视频线看| 久久久一二三区| 日韩一区二区三区资源| 日韩午夜在线观看| 日韩精品每日更新| 日韩在线一区视频| 日本在线观看天堂男亚洲| 亚洲色图制服诱惑| 久久久国产高清| 中文字幕一区二区三区精彩视频 | 国产欧美日韩网站| 中文字幕亚洲字幕| 91理论电影在线观看| 青青青视频在线免费观看| 国产一区二区在线网站| 88在线观看91蜜桃国自产| 少妇人妻精品一区二区三区| 中文字幕中文在线| 国产精品电影网| 色综合激情五月| 内射无码专区久久亚洲| 亚洲精品无码久久久久久久| 国产成人涩涩涩视频在线观看| 亚洲综合激情另类小说区| 在线观看中文字幕2021| 三年中国国语在线播放免费| 午夜精品视频在线| 亚州成人在线电影| 国产 欧美 精品| 初高中福利视频网站| 亚洲综合在线播放| 日韩欧美美女一区二区三区| 国产一区在线精品| 91免费公开视频| 国产精品无码乱伦| 久久国产天堂福利天堂| 国产精品久久久久久久岛一牛影视| 日本va欧美va国产激情| 国模无码视频一区二区三区| 国产69精品久久久久9| 午夜精品一区二区三区电影天堂| 亚洲成a人片77777精品| 中文字幕在线观看91| 高清视频一区二区三区| 日韩免费高清av| 不卡视频在线看| 国产手机在线视频| 日韩精品一区中文字幕| 国产日产久久高清欧美一区| 91.成人天堂一区| 成人性视频网站| 日韩 欧美 综合| 在线免费观看av的网站| 91九色国产在线| 亚洲第一区第一页| 国产嫩草影院久久久久| 97视频免费在线| 在线精品视频播放| 午夜精品一区二区在线观看| 欧美成人免费在线视频| 色老汉一区二区三区| 久久精品国产**网站演员| 极品久久久久久| 国产免费成人在线| 97人妻精品一区二区三区视频| 国产精品视频久久久| 国产成人精品久久| 91极品视频在线观看| 午夜精品国产精品大乳美女| 96精品视频在线| 亚洲欧美日韩在线高清直播| 一级黄色大片视频| 日本女人性视频| 91九色在线免费视频| 亚洲精品写真福利| 91蜜桃视频在线观看| 日韩欧美精品一区二区| 久久中文字幕国产| 国产成人无码精品| 亚洲一区二区久久久久久久| 91精品国产综合久久福利软件 | 国产麻豆免费视频| 99精品在线免费视频| 五月天国产精品| 午夜精品久久久久久久91蜜桃| 538任你躁在线精品免费| 三级在线免费观看| 日本亚洲自拍| 97精品国产91久久久久久| 91精品国产欧美日韩| 狠狠v欧美v日韩v亚洲ⅴ| 水蜜桃色314在线观看| 在线看欧美日韩| 国产精品入口麻豆九色| 麻豆天美蜜桃91| 69久久夜色精品国产69| 26uuu久久天堂性欧美| 国产又粗又猛又爽| 一级黄色大片网站| a级片一区二区| 91在线精品观看| 欧美午夜精品久久久久久孕妇 | 免费人成视频在线播放| www.av欧美| 老湿机69福利| 亚洲色图欧美色| 91嫩草丨国产丨精品| 日韩欧美在线播放视频| 91亚洲va在线va天堂va国 | 欧美日韩一区二区三区免费看| 久久一区中文字幕| www.xxx麻豆| 欧美精品在线网站| 韩国19禁主播vip福利视频| 91精品福利视频| 国产一区二区三区免费播放| 99久热在线精品996热是什么| 欧美二区在线看| 亚洲国产精品成人av| 亚洲六月丁香色婷婷综合久久 | 国产精品三级久久久久久电影| 国产日韩欧美综合一区| 精品人妻伦一二三区久久| 亚洲av成人精品一区二区三区| 欧美裸体网站| 亚洲成av人影院在线观看网| 国产精品视频在线观看免费 | 欧美喷潮久久久xxxxx| k8久久久一区二区三区| 人妻少妇精品无码专区| 久久三级视频| 亚洲精品蜜桃久久久久久| 国产在线不卡精品| 国产97免费视| 午夜精品久久久久久久男人的天堂| 久久免费的精品国产v∧| 国产精品萝li| 欧美一级精品大片| 韩国精品美女www爽爽爽视频| 欧洲一区二区在线| 色乱码一区二区三区在线| 日本一二三区在线观看| av免费在线不卡| 一级全黄裸体免费视频| 五月天婷婷色综合| 夫妻性生活毛片| 欧美激情 一区| 亚洲ⅴ国产v天堂a无码二区| 亚洲精品自在在线观看| 欧美另类69精品久久久久9999| 亚洲午夜免费电影| 日韩精品视频观看| 国产精品丝袜一区二区三区| 精品国产污污免费网站入口 | 久久免费视频网| 欧美理论片在线| 国产电影一区二区三区| 国产精品伦理一区二区| 国产日韩欧美激情| 亚洲色图.com| 久久久久久久久久久网站| 国产av麻豆mag剧集| 可以免费在线观看的av| 成人性生交大合| 6080yy午夜一二三区久久| 9191国产精品| 日韩欧美国产一区二区在线播放 | 无限资源日本好片| 亚洲综合第一| 5566av亚洲| 好吊色欧美一区二区三区| 国产av国片精品| 激情图片qvod| 日本美女视频一区| 妺妺窝人体色WWW精品| 国产黑丝在线观看| 最新国产黄色网址| 国产三级精品三级在线观看| 国产一区二区三区久久悠悠色av| 色婷婷一区二区三区四区| 国产精品高潮呻吟久久av黑人| 亚洲最大成人网站| 国产亚洲婷婷免费| 欧美激情成人在线视频| 国产不卡一区二区视频| av小说在线观看| wwwav国产| 久久久久久久9999| 日韩精品亚洲专区| 中文字幕不卡在线观看| 色婷婷久久久综合中文字幕| 日韩一级大片在线观看| 欧美日韩中文另类| 亚洲国产成人在线视频| 欧美亚洲国产视频小说| 久久久久无码国产精品一区李宗瑞| 91porny九色| 国产精品一区二区你懂的| 欧美性欧美巨大黑白大战| 91国产一区在线| 日韩精品一区在线观看| 国产成人久久精品| 国产精品一色哟哟| 亚洲av无码国产精品麻豆天美| 高清不卡在线观看| 国产欧美精品久久久| 99久久精品免费视频| 久久久99精品免费观看不卡| 欧美一级大片在线免费观看| 秋霞欧美一区二区三区视频免费 | 久久66热这里只有精品| 成人无码www在线看免费| 国产农村妇女毛片精品| 婷婷激情综合网| 2024亚洲男人天堂| 99国产超薄丝袜足j在线观看 | 国产福利精品导航| 一区二区三区黄色| 337p粉嫩大胆噜噜噜鲁| 久久久精品毛片| 日韩欧亚中文在线| 中文字幕亚洲一区在线观看| 欧美亚洲国产日本| aaa一级黄色片| 91麻豆精品在线观看| 欧美大码xxxx| 在线免费看黄视频| 日韩一区二区精品在线观看| 五月天婷婷影视| 亚洲精品国产第一综合99久久| 神马影院午夜我不卡影院| 国产又大又黑又粗| 精品国产a毛片| 亚洲精品第一区二区三区| 国产成人精品一区二区色戒| 成人深夜在线观看| 亚洲欧美成人网| 亚洲 欧美 综合 另类 中字| 国产情侣免费视频| 国产精品无遮挡| 久久国产精品99国产精| 视频在线观看免费高清| 日韩影院免费视频| 国产精品美女网站| 少妇伦子伦精品无吗| 久久久无码精品亚洲日韩按摩| 国产精品久久久久77777| 校园春色 亚洲| 欧美一级淫片aaaaaa| 一区二区在线观看不卡| 日本免费在线视频观看| 成人激情四射网| 午夜精品三级视频福利| 亚洲天堂一区在线| 欧美激情乱人伦一区| 91麻豆成人精品国产| 成人黄色网免费| 婷婷伊人综合中文字幕| 亚洲一区二区三区成人在线视频精品 | 神马一区二区三区| 国产一区二区三区网站| 人妻 日韩 欧美 综合 制服| 婷婷国产v国产偷v亚洲高清| 国产精品久久久久久久久久小说| 色欲无码人妻久久精品| 波多野结衣视频一区| 国内精品久久国产| 国产91丝袜在线观看| 国产欧美日韩中文字幕在线| 日韩av电影在线观看| 手机av在线免费观看| 国产精品高精视频免费| 手机免费观看av| 成人免费视频一区二区| 精品一区二区国产| 久久精品国产亚洲高清剧情介绍| 欧美成人免费在线视频| 欧美成人综合色| 国产99视频精品免视看7| 999久久久久| 日本免费久久高清视频| 国产成人手机在线| 国产精品久久久久久久久久久不卡| 免费观看成人毛片| 欧美三级视频在线观看| 久久精品国产sm调教网站演员| 国产福利精品一区| 久久久久资源| 高清久久久久久| 欧美最猛性xxxx| 清纯粉嫩极品夜夜嗨av| 日韩精品免费看| 妺妺窝人体色WWW精品| 亚洲欧美国产高清va在线播| 精品自拍偷拍视频| 国产精品久久久久久超碰| 日韩精品91亚洲二区在线观看| 欧美一级成年大片在线观看| 在线观看亚洲国产| 国产精品高潮在线| 中文字幕在线观看免费视频| 91精品福利在线| 一区二区三区伦理片| 一区二区三区视频免费在线观看 | 精品处破女学生| 久久乐国产精品| 麻豆一区二区三| 亚洲免费在线精品一区| 大陆成人av片| 亚洲国产精品久久久久婷婷老年| 国内精品视频666| 日韩中文字幕在线免费| 亚洲444eee在线观看| 欧美xxxxx精品| 精品国产伦一区二区三区观看方式 | 在线观看成人黄色| 国产后入清纯学生妹| 国产经典一区二区三区| 天天影视网天天综合色在线播放| 每日在线观看av| 在线观看精品一区| 特黄视频免费看| 国产98在线|日韩| 国内成人精品2018免费看| 日本精品视频网站| av成人免费在线观看| 中文字幕在线视频一区二区| 日韩精品免费在线视频观看| 国产亚洲欧美日韩高清| 久久国产精品网| 欧美成人精品激情在线观看| 成人黄色大片在线观看| 少妇按摩一区二区三区| 国产欧美精品日韩| 欧美一区二区在线观看| 麻豆视频一区二区| 欧美视频在线免费播放| 日韩免费观看高清完整版 | 91免费观看视频| 中国毛片在线观看|