色综合中文综合网_性猛交娇小69hd_久久精品99久久久久久_欧美日韩精品一区二区三区四区 _97视频色精品_国产高清精品久久久久_日日鲁鲁鲁夜夜爽爽狠狠视频97 _国产成人免费视频精品含羞草妖精 _熟女少妇在线视频播放_精品人妻一区二区三区麻豆91 _久久女同性恋中文字幕_一区二区福利视频

1.5B刷新數學代碼SOTA!快手&清華精細化Token管理,LLM推理能力飆升

“怎么學”可能比“學了多少”更重要

Archer團隊 投稿

量子位 | 公眾號 QbitAI

當大模型在數學題和代碼任務里“卷”參數規模時,一支來自快手和清華的團隊給出了不同答案——

他們用1.5B參數的小模型,在多個推理基準上干過了同量級SOTA。

秘密在于給模型的“學習過程”做了精細化管理:讓該記牢的知識穩住,讓該靈活的推理放開。

在多個挑戰性的數學、代碼評測基準上,該團隊提出的Archer方法都展現出了強大的實力。

1.5B刷新數學代碼SOTA!快手&清華精細化Token管理,LLM推理能力飆升

目前,Archer的代碼已開源,詳細鏈接可見文末。

1.5B刷新數學代碼SOTA!快手&清華精細化Token管理,LLM推理能力飆升

“兩難”:知識和推理難兼顧

通過預訓練,LLM能記住海量的知識。但要讓這些知識轉化為解決數學題、寫復雜代碼的推理能力,還得靠后續的強化學習(RL)優化。

其中,帶可驗證獎勵的強化學習(RLVR)是當前的主流方法——簡單地說,就是讓模型不斷嘗試解題,通過“是否做對”的反饋調整行為,有點像人類“做題糾錯”。

但問題來了:模型輸出的內容里,有些是“知識型”的(比如“1+1=2”這類事實),有些是“推理型”的(比如“先算括號里,再算乘除”這類邏輯規劃步驟)

過去的RLVR方法要么“一視同仁”,給所有內容用一樣的訓練信號;要么“粗暴分割”,用梯度屏蔽把兩類內容拆開訓練。

結果往往是:要么知識逐漸變差(比如把公式記錯),要么推理放不開(比如總用老套思路解題)

快手和清華團隊發現:這兩類內容在模型里其實有明顯特征:

  • 低熵Token
  • (確定性高):比如“3.14”、“def函數”,對應事實性知識,訓練時不能亂改;
  • 高熵Token
  • (不確定性高):比如“因此”、“接下來”、“循環條件”,對應邏輯推理,需要多嘗試。

但關鍵在于,這兩類Token在句子里是“綁在一起”的——比如解數學題時,“因為2+3=5(低熵),所以下一步算5×4(高熵)”,拆開會破壞語義邏輯。

Archer:給Token“差異化訓練”

團隊提出的Archer方法,核心是“雙Token約束”——不拆分Token,而是給它們定制不同的訓練規則。

簡單說就是兩步:

1.先給Token“貼標簽”:用熵值分類型

通過計算每個Token的熵值(不確定性),自動區分“知識型”和“推理型”:

  • 高熵Token:比如數學推理里的“接下來”、“綜上”,代碼里的“循環”、“判斷”,是邏輯轉折點;
  • 低熵Token:比如“123”、“print”,是必須準確的事實性內容。

團隊用“句子級熵統計”替代傳統的“批次級統計”——比如同一道數學題,不同解法的Token熵分布不同,按句子單獨劃分,避免把“關鍵推理Token”誤判成“知識Token”。

2.再給訓練“定規矩”:差異化約束

對貼好標簽的Token,用不同的規則訓練:

  • 推理型(高熵)Token:松約束。用更高的裁剪閾值(允許更大幅度調整)和更弱的KL正則(減少對原始策略的依賴),鼓勵模型多嘗試不同推理路徑;
  • 知識型(低熵)Token:緊約束。用更低的裁剪閾值和更強的KL正則,讓模型“死死記住”正確知識,避免越訓越錯。

這樣一來,知識和推理既能同步更新,又不互相干擾——就像老師教學生:基礎公式要背牢,解題思路可以大膽試。

從數學到代碼:全面碾壓同量級模型

在最考驗推理能力的數學和代碼任務上,Archer的表現都很出色。

數學推理:解題正確率大幅提升

1.5B刷新數學代碼SOTA!快手&清華精細化Token管理,LLM推理能力飆升

在AIME 2024/2025、Minerva等硬核數學基準上:

  • 相比同基座的原始模型,Archer在AIME24上正確率提升18.1%,AIME25提升10.3%;
  • 對比當前SOTA方法DAPO,Archer在AIME24上多對6.6%的題,AIME25多對5.2%;
  • 1.5B參數的Archer-Math,直接超過了FastCuRL、Nemotron等同量級SOTA模型,平均正確率登頂

代碼生成:刷題能力顯著增強

1.5B刷新數學代碼SOTA!快手&清華精細化Token管理,LLM推理能力飆升

在LiveCodeBench(主流代碼生成基準)v5/v6上:

  • 相比DAPO,Archer在v5上正確率提升3.4%,v6提升2.6%;
  • 超過了專門優化代碼的DeepCoder-1.5B,成為同量級最佳代碼生成模型之一。
1.5B刷新數學代碼SOTA!快手&清華精細化Token管理,LLM推理能力飆升

效率方面,Archer只用單階段訓練、1900?H800 GPU小時(對比Nemotron的16000 H100小時),就實現了這些提升。

沒有復雜的多輪訓練,達到了“花小錢辦大事”的效果。

關鍵在“平衡”

Archer的核心洞察是:LLM推理能力不是“死記硬背”或“盲目試錯”,而是知識穩定性和推理探索性的平衡

團隊通過實驗驗證了這種平衡的重要性:

1.5B刷新數學代碼SOTA!快手&清華精細化Token管理,LLM推理能力飆升
1.5B刷新數學代碼SOTA!快手&清華精細化Token管理,LLM推理能力飆升
  • 若不給低熵Token加約束(KL=0),模型會很快“記混知識”,輸出重復內容,性能崩塌;
  • 若給高熵Token加嚴約束(裁剪閾值太小),模型推理“放不開”,學不到新方法;
  • 只有讓知識Token“”、推理Token“”,才能既不丟基礎,又能提升邏輯能力。

這種思路也解釋了為什么小模型能逆襲——大模型的參數優勢能堆出更多知識,但如果訓練時“管不好”知識和推理的關系,能力提升反而受限。

Archer用精細化的Token管理,讓小模型的每一個參數都用在刀刃上,學會如何更好的組織使用已有的知識。

論文鏈接:http://arxiv.org/abs/2507.15778
GitHub:https://github.com/wizard-III/ArcherCodeR

版權所有,未經授權不得以任何形式轉載及使用,違者必究。
www.av麻豆| 在线观看欧美成人| 免费黄色一级大片| 中文字幕a在线观看| 男女激烈动态图| 国产免费一区二区三区在线能观看 | 亚洲国产精品专区久久| 国产日韩av一区二区| 99中文字幕| 蜜桃狠狠色伊人亚洲综合网站| 在线免费黄色小视频| 国产精品探花视频| 亚洲成人av一区二区三区| 久久久免费精品视频| a在线视频观看| 91精品国产乱码久久久久| 欧美日韩国产精品专区| 成人一区二区电影| 欧美黄色激情视频| 国产视频一区在线播放| 91国产精品视频在线| 五月天视频在线观看| 美女www一区二区| 亚洲免费伊人电影在线观看av| 亚洲一区二区自拍偷拍| 日干夜干天天干| 国产精品久久久久久久久免费相片| 欧美精品videos| 成人三级做爰av| 国产iv一区二区三区| 久久精品国产久精国产思思| 日韩一级片播放| 日韩在线观看视频网站| 亚洲精品xxxx| 波多野结衣家庭教师在线| www.黄色片| 欧美岛国在线观看| 国产福利不卡| 欧美三级午夜理伦| 欧洲精品一区二区三区在线观看| 欧美lavv| 一卡二卡三卡在线| 日韩亚洲欧美一区二区三区| 一级黄色录像免费看| a片在线免费观看| 欧美在线三级电影| 国产精品国产三级国产aⅴ9色 | 久久久久久久久久久久久国产| xxxx.国产| 91黄色激情网站| 91色精品视频在线| 永久免费看黄网站| 欧美日韩国产在线| 欧洲精品国产| 国产在线精品国自产拍免费| 国产清纯白嫩初高生在线观看91| 欧美中文字幕一区| 男女激情视频一区| 亚洲成人精品一区| 欧美高清性xxxxhdvideosex| 欧美大喷水吹潮合集在线观看| 91资源在线播放| 日韩电影免费一区| 久久精品国产69国产精品亚洲| 国产精品久久婷婷六月丁香| 亚洲成年人影院在线| 欧美在线欧美在线| 国产人妖伪娘一区91| 日本www在线视频| 手机av在线网| 四虎精品一区二区三区| 高跟丝袜欧美一区| 久久久国产视频91| 国产在线欧美日韩| 在线免费视频a| 男人日女人下面视频| 中文字幕成人在线视频| 精品无码av在线| 国产成年人在线观看| 91香蕉亚洲精品| 日韩精品视频在线观看视频 | 91色视频在线| 亚洲国产成人91精品| 精品久久蜜桃| 国产视频99| 一级二级黄色片| 美女爽到高潮91| 日韩午夜在线影院| 高清视频欧美一级| 免费在线观看你懂的| 黄色日韩网站视频| 欧美性猛交xxxx乱大交| 国产精品久久久久久av下载红粉| 中文字幕乱码日本亚洲一区二区| 91av在线播放视频| 日韩一级片大全| 91国模大尺度私拍在线视频| 久久在线中文字幕| 国产成人午夜精品5599| 成人激情黄色网| 欧美另类videoxo高潮| 国产精品国产三级国产aⅴ无密码 国产精品国产三级国产aⅴ原创 | 国产精品国模在线| 刘亦菲国产毛片bd| 国产精品福利一区| 国产精品大全| 91超碰中文字幕久久精品| 3d蒂法精品啪啪一区二区免费| 日本黄色大片在线观看| 国产精品电影院| 久久综合给合久久狠狠色| 99re只有精品| 中文字幕超清在线免费观看| 免费在线观看a视频| 国产精品素人一区二区| 成年人三级视频| 成人在线视频一区二区| 韩国成人一区| 久久99在线观看| 成人在线观看网址| 极品少妇xxxx精品少妇偷拍| 久久偷看各类wc女厕嘘嘘偷窃 | 日韩www在线| 成人av网站在线观看| 久久男人资源站| 91丨九色丨蝌蚪丨老版| 日韩免费在线观看av| 国产日产欧产精品推荐色| 91在线免费看片| 男人天堂网在线视频| 91在线|亚洲| 成人福利视频在线| 蜜臀av无码一区二区三区| 亚洲女同女同女同女同女同69| 涩涩涩999| 久久久久国产一区二区| 国产三级精品三级| 国产美女视频免费| 久久精品欧美一区二区三区麻豆| 天堂av免费看| 亚洲一区二区三区四区五区中文| aaaaaa亚洲| 欧美视频国产精品| 日批视频免费看| 在线不卡一区二区| 日本免费www| 亚洲品质视频自拍网| www五月婷婷| 亚洲香蕉中文网| 亚洲天堂av高清| 免费精品视频在线| 国产亚洲二区| 欧美一卡二卡在线| 玖玖精品视频| 国产精品自产拍高潮在线观看| 国产日韩欧美麻豆| 亚洲精品久久久久久久久久 | 国产精品美女www爽爽爽视频| 亚洲一区二区免费视频| 人成网站在线观看| 亚洲黄色成人久久久| 一本色道a无线码一区v| 国产精品久久久久久久av| 视频一区二区三区在线观看| www.欧美免费| 日韩精品一区二区三区四区 | 国产激情视频一区二区三区欧美 | 欧亚一区二区三区| 中国极品少妇videossexhd| 日韩在线视频网站| 黄色av小说在线观看| 女人被男人躁得好爽免费视频| 91在线观看免费高清| 亚洲视频专区在线| 久草手机视频在线观看| 成 人 黄 色 小说网站 s色| 国产精品二区在线观看| 高清视频一区| 免费亚洲精品视频| 在线不卡国产精品| 亚洲综合视频网| 国产一区二区小视频| 欧美日韩黄色一级片| 久久99亚洲精品| 91久久线看在观草草青青| 激情网站在线观看| 国产精品一区二区三区成人| 91年精品国产| 亚洲av永久无码精品| www.亚洲天堂| 亚洲福利视频久久| 亚洲欧美视频在线观看视频| 欧美h在线观看| 中国美女乱淫免费看视频| 一本色道久久88亚洲精品综合| 国产综合久久久久久鬼色| 中文字幕在线播放一区| 久久久视频6r| www..com国产| 一级片在线免费播放| 亚洲乱码国产一区三区| 国产精品免费在线| 久久久久久91| 日韩欧美亚洲国产另类| 激情小说亚洲一区| av中文字幕第一页| 蜜桃av免费观看| 亚洲欧洲精品在线| 国产成人小视频在线观看| 精品少妇一区二区三区| 国产精品三级视频| 999免费视频| 亚洲午夜精品一区二区三区| 欧美大肚乱孕交hd孕妇| 激情偷乱视频一区二区三区| 亚洲AV成人无码网站天堂久久| 九九九九免费视频| 91在线视频观看免费| 性欧美videossex精品| 欧美日韩国产高清视频| 亚洲乱码一区二区三区三上悠亚| 亚洲最大av网站| 国产精品老女人视频| 久久成人精品视频| 久久91精品国产91久久跳| 亚洲精品国产成人| 青草av.久久免费一区| 韩国一级黄色录像| 欧美 日韩 国产 高清| **欧美日韩vr在线| 欧美老人xxxx18| 欧美videossexotv100| 欧美成人免费网站| 日韩欧美大尺度| 宅男在线国产精品| 亚洲奶大毛多的老太婆| 日本精品免费观看| 欧美视频免费看欧美视频| 国产人妻精品一区二区三区不卡 | 91偷拍与自偷拍精品| 亚洲最大成人综合网| 亚洲色图27p| 欧美丰满熟妇bbbbbb| 国精品人伦一区二区三区蜜桃| 人妻少妇精品一区二区三区| 国产成人精品亚洲男人的天堂| 天天操天天操天天操天天| 中文字幕在线观看第三页| 任我爽在线视频精品一| 久久久久久成人精品| 欧美一级高清片| 五月天中文字幕一区二区| 欧美日韩大陆一区二区| 亚洲乱码国产乱码精品精天堂| 欧美亚洲国产bt| 在线一区二区三区四区五区 | 91久久久在线| 五月婷婷深爱五月| 精品国产乱码久久久久久蜜臀网站| 日日夜夜免费精品视频| 国产一区二区美女诱惑| a一级免费视频| 日韩av在线播| 国产精品无码白浆高潮| 99精品久久只有精品| 亚洲二区在线观看| 久久精品国产亚洲一区二区三区 | 国产精品视频自在线| 91精品国产高清久久久久久91 | 亚洲第一区av| 可以免费看不卡的av网站| 黄色资源网久久资源365| 国产精品色婷婷久久58| 亚洲性生活视频| 色呦呦网站入口| 国产超碰人人爽人人做人人爱| 午夜电影网一区| 91免费人成网站在线观看18| 亚洲 国产 欧美一区| 免费无码一区二区三区| 久久久美女视频| 久久一区二区三区四区五区| 亚洲欧美一区二区三区久本道91 | 97久久精品在线| 日本精品一区二区三区在线播放视频 | 五月天婷婷色综合| 中文字幕福利视频| 男女男精品视频| 欧美伊人久久大香线蕉综合69| 91po在线观看91精品国产性色 | 国产精品热久久| 久久国产精品露脸对白| 99这里只有精品| 67194成人在线观看| 国产精品av在线| 黄色一级在线视频| 91欧美一区二区三区| 成人美女在线观看| 国产精品成人一区| 中文字幕av网址| 97人妻精品一区二区三区| 日韩国产精品久久| 日韩午夜电影av| 九九热这里只有精品免费看| 国产精品美女久久久久av福利| 一区二区三区日韩在线观看| 无码国产精品一区二区高潮| 在线免费观看亚洲视频| 免费高清在线视频一区·| 成人av在线播放观看| 中文字幕a在线观看| 69成人免费视频| 亚洲伦理在线观看| 国产成人精品一区二区三区网站观看| 国产亚洲欧洲997久久综合 | 色视频成人在线观看免| 91精品国产色综合久久ai换脸| 欧美精品videosex牲欧美| 国产精品中文久久久久久久| 亚洲三区在线观看| 日韩在线第三页| 亚洲精品第二页| 亚洲天堂国产精品| 国产精品国模大尺度视频| 精品香蕉一区二区三区| 久久本道综合色狠狠五月| 一级特黄性色生活片| 99精品中文字幕| 精品毛片一区二区三区| 一区二区三区影院| 欧美激情一区二区三区在线视频观看| 91免费在线视频| 婷婷无套内射影院| 丰满少妇乱子伦精品看片| 激情久久五月天| 日韩高清有码在线| 先锋影音一区二区三区| 熟女高潮一区二区三区| 国产精品人妻一区二区三区| 亚洲成人免费在线| 久久成人国产精品| 一区二区在线高清视频| av在线天堂网| 日韩国产精品91| 国产视频久久久久久久| 亚洲国产一区二区三区在线| 91精品国产高潮对白| 久久久国产午夜精品| 色哟哟亚洲精品一区二区| 奇米视频7777| 国产成人精品免费| 亚洲美女又黄又爽在线观看| www.桃色.com| 中文字幕一区av| 男人j进女人j| 国产精品亚洲第一| 国产精品日韩欧美| 波多野结衣黄色网址| 中文字幕精品一区二区精品| 亚洲一区二区在线免费| 亚洲精品国产成人久久av盗摄 | 成人国产在线视频| 中国特黄一级片| 国产精品久久久久久亚洲毛片| 欧美黄色成人网| 国产精品久久国产精麻豆96堂| 亚洲日穴在线视频| 精品综合在线| 日韩在线视频不卡| 亚瑟在线精品视频| 亚洲自拍偷拍视频| 懂色av蜜臀av粉嫩av永久| 久久久噜噜噜久久人人看 | 欧美最顶级丰满的aⅴ艳星| 国产探花视频在线| 亚洲成人动漫一区| 亚洲激情一区二区三区| 国产精品成人免费一区二区视频| 亚洲黄网站在线观看| 亚洲一区二区自拍偷拍| 免费人成网站在线观看欧美高清| 日韩av电影手机在线| 女人黄色一级片| 日韩欧美成人免费视频| 91人人澡人人爽人人精品| 国产成人在线影院| 精品国产免费人成电影在线观...| 丰满熟女一区二区三区| 亚洲天堂成人在线视频| 波多野结衣 在线| 欧美一区二区视频网站| 日本少妇xxxx| 欧美日韩一区二区三区在线| 免费高清一区二区三区| 国产综合久久久久久鬼色| 国产精品中文字幕在线观看| 天堂av资源网| 国产专区一区二区三区| 人禽交欧美网站| 久久久久国产精品视频| 国产成人免费在线视频| 在线视频91| 中文字幕一区二区三区在线观看| 国产精品v欧美精品v日韩精品| 亚洲视频在线观看一区二区| 国产精品热视频| 久久66热偷产精品| 先锋影音男人资源| 中文字幕欧美日韩一区| 男人的天堂最新网址|