色综合中文综合网_性猛交娇小69hd_久久精品99久久久久久_欧美日韩精品一区二区三区四区 _97视频色精品_国产高清精品久久久久_日日鲁鲁鲁夜夜爽爽狠狠视频97 _国产成人免费视频精品含羞草妖精 _熟女少妇在线视频播放_精品人妻一区二区三区麻豆91 _久久女同性恋中文字幕_一区二区福利视频

字節(jié)&MAP重塑大模型推理算法優(yōu)化重點(diǎn),強(qiáng)化學(xué)習(xí)重在高效探索助力LLM提升上限

老方法,大用場(chǎng)

字節(jié)&MAP團(tuán)隊(duì)投稿 發(fā)自 凹非寺

量子位 | 公眾號(hào) QbitAI

強(qiáng)化學(xué)習(xí)(RL)范式雖然顯著提升了大語(yǔ)言模型(LLM)在復(fù)雜任務(wù)中的表現(xiàn),但其在實(shí)際應(yīng)用中仍面臨傳統(tǒng)RL框架下固有的探索難題。

一個(gè)普遍存在的現(xiàn)象是:在訓(xùn)練過(guò)程中,模型的熵值迅速下降,推理路徑趨于固化,導(dǎo)致“利用(exploitation)”遠(yuǎn)超“探索(exploration)”,嚴(yán)重失衡。

這種過(guò)早收斂不僅削弱了模型的多樣性生成能力,也限制了其性能上限的進(jìn)一步突破。

受OpenAI經(jīng)典論文《First Return, Then Explore》中“先返回,再探索”思想的啟發(fā),來(lái)自字節(jié)跳動(dòng)、MAP,曼徹斯特大學(xué)的聯(lián)合團(tuán)隊(duì)提出了一種全新的結(jié)構(gòu)化探索框架:First Return, Entropy-Eliciting Explore(FR3E)。

字節(jié)&MAP重塑大模型推理算法優(yōu)化重點(diǎn),強(qiáng)化學(xué)習(xí)重在高效探索助力LLM提升上限

該方法通過(guò)識(shí)別推理軌跡中具有高不確定性的關(guān)鍵token,并以此為錨點(diǎn)引導(dǎo)后續(xù)的多樣化展開(kāi),系統(tǒng)性地重建了LLM在強(qiáng)化學(xué)習(xí)中的探索機(jī)制,旨在實(shí)現(xiàn)利用與探索之間的動(dòng)態(tài)平衡,從而釋放RL訓(xùn)練的更高潛力。

值得一提的是,F(xiàn)R3E發(fā)布后,《First Return, Then Explore》的作者之一Jeff Clune還在X(原 Twitter)上轉(zhuǎn)發(fā)了這篇文章。

字節(jié)&MAP重塑大模型推理算法優(yōu)化重點(diǎn),強(qiáng)化學(xué)習(xí)重在高效探索助力LLM提升上限

算法框架

FR3E的算法框架分為兩個(gè)階段:

第一階段:First Return

字節(jié)&MAP重塑大模型推理算法優(yōu)化重點(diǎn),強(qiáng)化學(xué)習(xí)重在高效探索助力LLM提升上限

在該階段,模型對(duì)每條prompt進(jìn)行多次rollout,自由探索可能的解題路徑,并收集相應(yīng)的軌跡及其獎(jiǎng)勵(lì)信號(hào)。

隨后,采用拒絕采樣(rejection sampling)策略過(guò)濾掉全正確的樣本(避免對(duì)已掌握知識(shí)的重復(fù)學(xué)習(xí)),并針對(duì)剩余樣本構(gòu)建基準(zhǔn)路徑:對(duì)于存在部分正確結(jié)果的prompt,選取其中一條正確軌跡作為基準(zhǔn);

對(duì)于全部錯(cuò)誤的prompt,則隨機(jī)選取一條作為參考路徑。

在此基礎(chǔ)上,計(jì)算基準(zhǔn)路徑中每個(gè)token的生成熵,篩選出top-n個(gè)高熵token作為關(guān)鍵決策點(diǎn)。

這些關(guān)鍵點(diǎn)將整條軌跡劃分為n+1個(gè)partial rollout。通過(guò)將原始prompt與前n個(gè)partial rollout依次拼接(最后一個(gè)包含答案的部分被排除),形成n+1個(gè)中間狀態(tài)(state),初始狀態(tài)即為原始prompt本身。

第二階段:Entropy-Eliciting Explore

字節(jié)&MAP重塑大模型推理算法優(yōu)化重點(diǎn),強(qiáng)化學(xué)習(xí)重在高效探索助力LLM提升上限

基于構(gòu)建的多狀態(tài)prompt組,F(xiàn)R3E在GRPO++(融合了拒絕采樣與Clip-Higher機(jī)制的GRPO變體)的基礎(chǔ)上,進(jìn)一步引入動(dòng)態(tài)優(yōu)勢(shì)調(diào)制機(jī)制,以更精細(xì)地調(diào)控學(xué)習(xí)信號(hào)。具體而言,通過(guò)引入了一個(gè)優(yōu)勢(shì)調(diào)制因子,它基于從上一個(gè)狀態(tài)到當(dāng)前狀態(tài)的價(jià)值邊際改善來(lái)縮放學(xué)習(xí)信號(hào)。

優(yōu)勢(shì)調(diào)制因子定義為:

字節(jié)&MAP重塑大模型推理算法優(yōu)化重點(diǎn),強(qiáng)化學(xué)習(xí)重在高效探索助力LLM提升上限

調(diào)控后的Advantage定義為:

字節(jié)&MAP重塑大模型推理算法優(yōu)化重點(diǎn),強(qiáng)化學(xué)習(xí)重在高效探索助力LLM提升上限

當(dāng)

字節(jié)&MAP重塑大模型推理算法優(yōu)化重點(diǎn),強(qiáng)化學(xué)習(xí)重在高效探索助力LLM提升上限

表示當(dāng)前state prompt中的partial rollout部分對(duì)最終答案有正向影響,此時(shí)需要適當(dāng)降低它的advantage,防止模型過(guò)早鎖定當(dāng)前推理路徑,保留探索空間。

反之,當(dāng)

字節(jié)&MAP重塑大模型推理算法優(yōu)化重點(diǎn),強(qiáng)化學(xué)習(xí)重在高效探索助力LLM提升上限

則意味著當(dāng)前state prompt中的partial rollout部分對(duì)思考過(guò)程沒(méi)有或有負(fù)向影響,需要放大其優(yōu)勢(shì)信號(hào),激勵(lì)模型在該節(jié)點(diǎn)進(jìn)行更積極的探索,以突破推理瓶頸。

在數(shù)據(jù)構(gòu)建方面,團(tuán)隊(duì)采用雙難度混合策略:低難度數(shù)據(jù)來(lái)自DeepScaler,用于穩(wěn)定訓(xùn)練初期的收斂過(guò)程;

高難度數(shù)據(jù)則取自SimpleRL中難度等級(jí)為3–5的樣本,旨在激發(fā)模型的深層推理能力。這種組合既保障了訓(xùn)練穩(wěn)定性,又提供了足夠的挑戰(zhàn)性以推動(dòng)能力躍遷。

實(shí)驗(yàn)結(jié)果

為全面評(píng)估FR3E的有效性,團(tuán)隊(duì)在多個(gè)權(quán)威數(shù)學(xué)推理基準(zhǔn)上進(jìn)行了實(shí)驗(yàn),包括GSM8K、Math500、Minerva Math、Gaokao2023en、OlympiadBench、College Math以及AIME24。并在Qwen2.5-7B、Qwen2.5-Math-7B和Qwen2.5-32B三種模型上進(jìn)行了評(píng)測(cè)。

字節(jié)&MAP重塑大模型推理算法優(yōu)化重點(diǎn),強(qiáng)化學(xué)習(xí)重在高效探索助力LLM提升上限

實(shí)驗(yàn)結(jié)果表明,F(xiàn)R3E在多個(gè)基準(zhǔn)上均顯著優(yōu)于強(qiáng)基線GRPO++,展現(xiàn)出更強(qiáng)的泛化與推理能力。

字節(jié)&MAP重塑大模型推理算法優(yōu)化重點(diǎn),強(qiáng)化學(xué)習(xí)重在高效探索助力LLM提升上限

尤其值得注意的是,在訓(xùn)練動(dòng)態(tài)分析中,F(xiàn)R3E展現(xiàn)出更持久的探索行為:其熵值衰減更緩慢,響應(yīng)長(zhǎng)度更長(zhǎng),特別是在Qwen2.5-Math-7B這類已微調(diào)模型上,成功突破了傳統(tǒng)方法中熵值長(zhǎng)期處于低位的“僵化”困境,實(shí)現(xiàn)了探索能力的再激活。

字節(jié)&MAP重塑大模型推理算法優(yōu)化重點(diǎn),強(qiáng)化學(xué)習(xí)重在高效探索助力LLM提升上限

此外,通過(guò)對(duì)多次rollout結(jié)果的統(tǒng)計(jì)監(jiān)控,團(tuán)隊(duì)發(fā)現(xiàn)FR3E顯著提升了“全正確”軌跡的數(shù)量,同時(shí)大幅降低了“全錯(cuò)誤”軌跡的比例。

這表明,原本僅能部分解出或完全失敗的問(wèn)題,在FR3E的訓(xùn)練機(jī)制下,逐步演化為穩(wěn)定、完整的正確解答路徑,真正實(shí)現(xiàn)了從“部分成功”到“全面突破”的躍遷。

綜上所述,F(xiàn)R3E提出了一種新穎且高效的結(jié)構(gòu)化探索范式,直面LLM在強(qiáng)化學(xué)習(xí)中“探索不足”的核心瓶頸。

通過(guò)“先返回、再探索”的兩階段設(shè)計(jì),結(jié)合高熵錨點(diǎn)識(shí)別與動(dòng)態(tài)優(yōu)勢(shì)調(diào)制機(jī)制,F(xiàn)R3E不僅有效延緩了模型的過(guò)早收斂,更顯著提升了復(fù)雜推理任務(wù)中的性能上限。

實(shí)驗(yàn)充分驗(yàn)證了FR3E在多個(gè)數(shù)學(xué)推理基準(zhǔn)上的優(yōu)越性,尤其在提升探索多樣性、增強(qiáng)長(zhǎng)程推理穩(wěn)定性方面表現(xiàn)突出。

更重要的是,該方法所體現(xiàn)的“結(jié)構(gòu)化反饋 + 自適應(yīng)調(diào)節(jié)”思想,具備良好的可擴(kuò)展性。團(tuán)隊(duì)期待FR3E所倡導(dǎo)的探索機(jī)制,能夠?yàn)槲磥?lái)大模型的強(qiáng)化學(xué)習(xí)訓(xùn)練提供新的范式參考。

論文地址:https://arxiv.org/pdf/2507.07017

— 完 —

量子位 QbitAI · 頭條號(hào)簽約

關(guān)注我們,第一時(shí)間獲知前沿科技動(dòng)態(tài)

版權(quán)所有,未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用,違者必究。
成人毛片视频网站| 亚洲欧美一区二区三区四区| 欧美一区免费看| 97久久人人超碰caoprom欧美| 国产中文字字幕乱码无限| 成人激情免费在线| 久久精品一区蜜桃臀影院| 91亚洲免费视频| 欧美插天视频在线播放| 99re热这里只有精品免费视频| 中文字幕第六页| 久久69精品久久久久久久电影好| 国产精品影音先锋| 久久久午夜精品福利内容| 国产成人精品免费久久久久| 国产日韩欧美高清在线| 精人妻一区二区三区| 日韩免费中文字幕| 午夜精品福利一区二区三区av | 在线播放日韩精品| 日韩精品欧美激情| 中文字幕制服丝袜成人av| 国产麻豆剧传媒精品国产av| 欧美乱人伦中文字幕在线| 久久在线免费观看| 久久久久久国产精品免费播放| 91精品综合视频| 亚洲成av人片一区二区三区| 久久久久久在线观看| av网站手机在线观看| 中文字幕亚洲一区二区三区| 337p粉嫩大胆色噜噜噜噜亚洲| 国产精品19乱码一区二区三区| 中文字幕99页| 91精品一区二区三区四区| 国内精品中文字幕| 日韩美女在线视频| 久久99九九99精品| 国产传媒在线看| 日韩精品一区二区三区电影| 精品国内二区三区| 成人毛片老司机大片| 男人的天堂久久久| 能在线观看的av| 成人欧美一区二区三区在线湿哒哒| 欧美性xxxx极品hd满灌| 日韩电影在线观看网站| 精品国产无码在线观看| 国产免费xxx| 日韩有码在线电影| 亚洲乱码国产乱码精品精的特点| 日韩精品一区不卡| 黄色一级视频播放| 日韩免费观看网站| 欧美mv和日韩mv的网站| 国产精品乱人伦一区二区| 日本国产在线观看| 国精品人伦一区二区三区蜜桃| 26uuu成人| 8090成年在线看片午夜| 欧美色视频日本高清在线观看| 久久精品国产在热久久| 久久免费激情视频| 在线观看亚洲免费视频| 久久亚洲精品无码va白人极品| 国产精品成人aaaaa网站| 精品国产3级a| 欧美日韩美女视频| 国内一区二区在线| 91蜜桃视频在线观看| 又色又爽又黄18网站| 国产精品美女在线播放| 97人人澡人人爽| 69久久夜色精品国产69乱青草| 亚洲精品二三区| 亚洲欧美另类在线| 国产在线播精品第三| 国产99久久久久久免费看| 国产制服丝袜在线| 一女二男3p波多野结衣| 中文字幕久久综合| 国产视频一区二区不卡| 日本韩国欧美精品大片卡二| 亚洲精品福利免费在线观看| 亚洲国产精品自拍| 国产一区二区三区久久久| 亚洲av综合色区无码一区爱av | 在线观看亚洲一区| 亚洲黄色在线视频| 成人福利视频网站| 色哟哟国产精品色哟哟| 一级黄色片视频| 黄色大全在线观看| 久久夜靖品2区| 唐朝av高清盛宴| 国产真人真事毛片视频| 看全色黄大色黄女片18| 婷婷丁香激情网| 黄色片网址在线观看| 亚洲永久激情精品| 国产一区免费| 91精品视频免费观看| 国产精品久久久久av| 国产精品久久综合av爱欲tv| 欧美一区在线直播| 国产精品高潮呻吟久久av无限| 欧洲美女7788成人免费视频| 久久6精品影院| 在线精品高清中文字幕| 青青草一区二区| 欧美黄色片在线观看| 这里只有精品电影| 日韩视频在线观看一区二区| 日韩美女在线视频| 亚洲欧洲激情在线| 日韩中文理论片| 日韩网站在线观看| 欧美成人亚洲成人| 欧美xxxx综合视频| 欧美激情亚洲自拍| 国产精品嫩草视频| 午夜欧美性电影| 亚洲精品无码久久久久久| www.日日操| 乳色吐息在线观看| 爱爱的免费视频| 亚洲一区二区自偷自拍| 亚洲精品国产精品国自| 日本五十路女优| 国产精品一品二区三区的使用体验| 午夜性色福利影院| 国产成人综合自拍| 国产精品―色哟哟| 色综合久久综合中文综合网| 91精品国产一区二区| 尤物99国产成人精品视频| 日韩小视频在线| 欧美极品欧美精品欧美视频| 亚洲精品日韩av| 国产一区 在线播放| 中文字幕一二三| 538任你躁在线精品视频网站| av毛片在线免费观看| 日本国产在线观看| caoporen国产精品视频| 亚洲欧洲日韩一区二区三区| 欧美日韩视频第一区| 原创国产精品91| 国产精品网站大全| 日韩第一页在线观看| 一级做a免费视频| 久久久精品少妇| www.我爱av| av爱爱亚洲一区| 欧美日韩国产片| 欧美在线视频网| 中文字幕日韩精品无码内射| 99re久久精品国产| 中文区中文字幕免费看| 国产69精品一区二区亚洲孕妇| 亚洲香肠在线观看| 亚洲人成电影在线播放| 亚洲aaaaaa| 91香蕉视频污版| 不卡的免费av| 久久99久久久久久久久久久| 伊人色综合久久天天| 日韩欧美一区电影| 91九色综合久久| 国内国产精品天干天干| 免费黄色一级大片| 久久婷婷色综合| 亚洲第一免费网站| 91免费福利视频| 国产h视频在线播放| 国产免费av一区二区| 国产日韩欧美高清| 在线观看欧美www| 一级全黄肉体裸体全过程| 中文字幕精品亚洲| 久久国产精品99久久人人澡| 亚洲成av人片观看| 国产精品白丝jk喷水视频一区| 美女在线视频一区二区| 国产精品视频在线观看免费| 亚洲综合免费观看高清完整版在线| 久久久精品亚洲| 少妇一晚三次一区二区三区| 乱h高h女3p含苞待放| 久久精品无码一区二区三区| 亚洲午夜av电影| 日韩人妻精品一区二区三区| 久久精品女人毛片国产| 欧美高清一级片在线观看| xxxxx成人.com| 久久免费视频3| 色窝窝无码一区二区三区| 欧美乱妇一区二区三区不卡视频| 91免费高清视频| 老鸭窝一区二区| 国产一区二区精品久久| 色视频www在线播放国产成人| 国产亚洲黄色片| 精品人妻伦一区二区三区久久| 日韩欧美aⅴ综合网站发布| 国产精品一区二区女厕厕| 懂色av粉嫩av蜜乳av| www.欧美日韩| 欧美专区在线观看| 亚洲观看黄色网| 久久亚洲一区二区三区四区| 91精品成人久久| 91欧美一区二区三区| 日韩精品午夜视频| 自拍偷拍亚洲欧美| 亚洲一区二区三区观看| 石原莉奈在线亚洲三区| 亚洲欧美国内爽妇网| 国产日韩亚洲欧美在线| 国产精品热久久| 欧美色电影在线| www亚洲国产| 中文字幕日本视频| 精品五月天久久| 在线播放免费视频| av一区二区三区在线| 国产精品欧美日韩一区二区| 国产精品国产精品88| 亚洲国产视频在线| 欧美一进一出视频| 在线免费观看视频网站| 亚洲女同精品视频| 美女被爆操网站| 中文一区在线播放| 久久99精品国产一区二区三区 | 国产精品一区av| 黄瓜视频在线免费观看| 精品免费视频.| 欧美特级aaa| 国产日韩亚洲欧美综合| 麻豆av一区二区| 日韩电影免费一区| 国产欧美精品在线| 亚洲国产无线乱码在线观看| 亚洲国产高清高潮精品美女| 91网址在线观看精品| 午夜久久久久久久久| 国产树林野战在线播放| 国产综合久久久久影院| 91九色单男在线观看| 91久久久久国产一区二区| 久久久www成人免费精品| 久久亚洲AV无码专区成人国产| 亚洲综合激情网| 欧美国产视频一区| 国产成人在线免费观看| 精品蜜桃一区二区三区| 日韩一区免费视频| 国产精品第二页| 国产乱淫a∨片免费观看| 欧美大尺度激情区在线播放| 东方伊人免费在线观看| 欧美日韩精品一区二区三区| 亚洲第一狼人区| 亚洲一线二线三线视频| 亚洲天堂国产视频| 欧美色播在线播放| wwwxxx黄色片| 亚洲一区二区不卡免费| 五月天婷婷亚洲| 欧美性生活久久| 日本护士做爰视频| 777亚洲妇女| 岛国精品一区二区三区| 欧美一区二区三区视频| 九九热免费在线| 亚洲欧美激情另类校园| 一区二区在线观看免费视频| 亚洲欧美中文另类| 国内免费精品视频| 97avcom| 亚洲国产精品欧美久久 | 国产综合久久久久久| 秋霞av亚洲一区二区三| 狠狠色综合网站久久久久久久| 9色porny自拍视频一区二区| 天堂精品视频| 亚洲欧美另类在线| 久久精品国产99久久99久久久| 91精品国产一区二区三区| 国产熟妇搡bbbb搡bbbb| 亚洲美女在线观看| 中国老头性行为xxxx| 91久久偷偷做嫩草影院| 国产精品888| 免费视频爱爱太爽了| 在线欧美日韩国产| 91浏览器在线观看| 91久久极品少妇xxxxⅹ软件| av中文字幕不卡| 国产精品黄页免费高清在线观看| 激情欧美一区二区三区在线观看| 丝袜人妻一区二区三区| 欧美日韩国产首页在线观看| 久久亚洲AV无码| 国产在线日韩在线| 26uuu色噜噜精品一区二区| 亚洲一级免费在线观看| 欧美日韩久久一区二区| x88av在线| 欧美激情视频免费观看| 无码精品黑人一区二区三区| 在线观看成人av| 91福利视频久久久久| 久久久久无码国产精品不卡| 97免费视频在线播放| 成人av一区二区三区| 免费看涩涩视频| 亚洲欧美国产另类| 卡一卡二国产精品 | 李宗瑞91在线正在播放| 美女国内精品自产拍在线播放| 678五月天丁香亚洲综合网| 免费看污片的网站| 77777亚洲午夜久久多人| 99国产精品一区| 激情文学亚洲色图| 色av中文字幕一区| 国内精品免费**视频| 亚洲一区二区中文字幕在线观看| 亚洲一区999| 极品尤物av久久免费看| 中文字幕一二三区| 7777kkkk成人观看| 亚洲欧洲日产国码二区| 日本熟伦人妇xxxx| 日韩精品一区二区三区四区五区| 欧美日韩精品一区二区| 天天操天天射天天| 国产精品自在自线| 1769国产精品| 成人91在线观看| 疯狂撞击丝袜人妻| 日韩欧美视频一区二区三区四区| 欧美久久久一区| 老牛影视一区二区三区| 欧美体内she精高潮| 国产成人精品日本亚洲| 亚洲综合色婷婷| 国产精品人人爽| 三区视频在线观看| 国产精品电影在线观看| 福利视频第一区| 午夜精品一区二区三| 国产老头和老头xxxx×| 91久色国产| 日韩欧美视频一区| 国产成人精品免费在线| 国产亚洲成人精品| 国产精品333| 国产精品久久久久久久久久三级| 色哦色哦哦色天天综合| 国产精品久久久视频| av电影一区二区三区| 久久久精品日本| 久久久精品日韩欧美| 亚洲最新av网站| 中文字幕中文字幕99| 亚洲国产小视频在线观看| 久久这里只有精品首页| 国产精品人人人人| 欧洲美女亚洲激情| 麻豆成人av| 欧美大胆在线视频| 欧美手机在线视频| 9l国产精品久久久久麻豆| 91精品国产高清一区二区三密臀| 热久久精品国产| 成人久久18免费网站漫画| 日韩一区二区久久久| 日韩欧美中文字幕在线观看| 国产综合久久久久久鬼色| 国产女主播喷水视频在线观看| 又黄又爽又色的视频| 欧美在线播放一区二区| 久久久久久久久久国产精品| 欧美群妇大交群的观看方式| 国产精品五月天| 麻豆国产欧美一区二区三区| 日韩中文字幕高清| 国产激情视频网站| 日韩网站在线免费观看| 九九九九精品九九九九| 性视频1819p久久| 精品在线小视频| 日本高清成人免费播放| 久久―日本道色综合久久| 亚洲h视频在线观看| 国产视频91在线| 女人又爽又黄免费女仆| 岛国毛片在线播放| 欧美日韩在线一区二区三区| 欧美激情日韩图片| 亚洲第一福利网站| 亚洲一卡二卡三卡四卡| 久久综合九色综合欧美亚洲| 久久97超碰色| 日韩二区在线观看| 欧美一级淫片aaaaaa| 国产绿帽刺激高潮对白|