色综合中文综合网_性猛交娇小69hd_久久精品99久久久久久_欧美日韩精品一区二区三区四区 _97视频色精品_国产高清精品久久久久_日日鲁鲁鲁夜夜爽爽狠狠视频97 _国产成人免费视频精品含羞草妖精 _熟女少妇在线视频播放_精品人妻一区二区三区麻豆91 _久久女同性恋中文字幕_一区二区福利视频

NeurIPS唯一滿分論文曝光,來自清華上交

給強化學習降溫

四個審稿人全給6分,NeurIPS唯一滿分論文炸了!

之所以說它炸,主要是論文給出的結論實在太出人意料了——

真正決定推理上限的是基座模型本身而非強化學習,且蒸餾比強化學習更有望實現大模型自我進化。

好家伙,這無異于給正炙手可熱的RLVR(可驗證獎勵的強化學習)迎面潑下一盆冷水~

NuerIPS唯一滿分論文曝光,來自清華上交

RLVR,自大模型推理范式開啟后就成為一眾主流模型(如OpenAI-o1、DeepSeek-R1)的核心驅動力。

由于無需人工標注,通過自動驗證獎勵優化模型,它一度被視為實現模型自我進化、逼近更高推理能力的終極路徑。

但來自清華上交的這篇論文,卻讓風向陡然生變——

如果進化的鑰匙不在強化學習,那當前圍繞RLVR的巨額投入與探索,意義何在?

NuerIPS唯一滿分論文曝光,來自清華上交

真正能突破推理上限:蒸餾而非強化學習

這篇論文題目為《Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? 》,“獲NeurIPS唯一滿分”的結論由PaperCopilot(非官方論文分析平臺)統計得出。

同時它還榮獲ICML 2025 AI4Math Workshop最佳論文獎,并入選NeurIPS 2025大會口頭報告。

NuerIPS唯一滿分論文曝光,來自清華上交

之所以提出這項研究,主要是近年來RLVR在大語言模型中被廣泛應用于提升數學、編程、視覺推理等任務的表現。

隨之而來的是,AI圈普遍假設——

RLVR不但能提升推理效率,還可能擴展模型的推理能力,即讓模型學會底層基礎模型本來不會的新推理路徑。

但問題是,這一結論真的成立嗎?

NuerIPS唯一滿分論文曝光,來自清華上交

于是帶著疑問,來自清華上交的研究團隊核心想要弄清一個問題:

RLVR是否真的讓大語言模型超越其“底模”推理能力邊界,還是只是優化已有能力?

而通過一系列實驗,團隊得出以下最新結論:

  • RLVR主要是在“強化”底模已有的路徑,而不是“發現”底模沒有的路徑。
  • RL訓練后的模型在低采樣次數(如pass@1)表現更好,但隨著采樣次數增加(pass@64、pass@256…),底模反而能超過RL模型,這說明底模隱藏的推理能力被低估了。
  • 多種RL算法(如PPO、GRPO、Reinforce++等)在提升采樣效率方面差異不大,且與“理論上底模最大能力”相比,仍有明顯差距,這說明想靠RL突破底模上限還不夠。
  • 蒸餾方法更有可能“擴展”模型的推理能力范圍,因為其接收來自教師模型的新推理模式,而RLVR更受限于底模。
NuerIPS唯一滿分論文曝光,來自清華上交

換句話說,與普遍認知相反,RLVR的實際作用很可能被嚴重高估了。

NuerIPS唯一滿分論文曝光,來自清華上交

關鍵評估指標:pass@k

而為了得出上述結論,他們采用了pass@k這一關鍵評估指標。

所謂pass@k,是指衡量一個模型在多次嘗試中,至少成功一次的幾率。

相比一些傳統指標(如greedy decoding準確率)僅反映平均表現,它通過多輪采樣揭示模型的推理邊界,能更精準判斷模型是否“有能力”解決問題,而非“大概率”解決問題。

具體來說,他們主要把底模、RL模型放在同一批題目上反復測試,來看模型是“真的變聰明”還是只是“更會挑答案”。

為避免實驗結果的局限性,團隊選取了大語言模型推理能力的三大典型應用領域,并搭配權威基準數據集,確保測試的全面性和代表性。

  • 數學推理(GSM8K、MATH500等6個基準)
  • 代碼生成(LiveCodeBench等3個基準)
  • 視覺推理(MathVista等2個基準)

模型則以主流大語言模型家族為基礎,包括Qwen2.5系列(70億、140億、320億參數)和LLaMA-3.1-80億參數模型等,并構建“基礎模型 vs RLVR訓練模型”的對照組合。

其中RLVR訓練模型是指,分別用PPO、GRPO、Reinforce++等6種主流RLVR算法訓練后的版本,形成多組平行對照。這樣既能對比RLVR與基礎模型的差異,也能橫向比較不同RLVR算法的效果。

NuerIPS唯一滿分論文曝光,來自清華上交

然后就是對不同模型在各基準任務上的pass@k指標進行多維度采集與分析。

針對每個測試樣本,分別讓基礎模型和RLVR模型進行不同次數的采樣(k值從1逐步提升至1024),記錄每次采樣中“至少出現一個正確結果”的概率。

隨后團隊重點分析兩個關鍵規律:

一是同一k值下,RLVR模型與基礎模型的pass@k差異;二是隨著k值增大,兩類模型pass@k曲線的變化趨勢。

同時,結合模型輸出的推理路徑困惑度分析(perplexity)、可解問題子集比對等輔助手段,最終形成對RLVR能力的全面判斷。

論文作者介紹

值得一提的是,這項研究還是出自咱們國內研究人員之手。

一共8位,7位來自清華大學LeapLab,1位來自上海交通大學。

項目負責人Yang Yue (樂洋),清華大學自動化系四年級博士生。

研究方向為強化學習、世界模型、多模態大模型和具身智能,之前曾在顏水成創辦的新加坡Sea AI Lab和字節跳動 Seed團隊實習過。

雖然還是學生,但發表或參與發表的多篇論文均入選頂會。這當中,他以核心作者身份發表的論文《How Far is Video Generation from World Model: A Physical Law Perspective》,因探索視頻模型能否學會物理規律,還被國內外眾多大佬Yan Lecun,xie saining,Kevin Murphy等轉發。

NuerIPS唯一滿分論文曝光,來自清華上交

另一位和他貢獻相同的作者Zhiqi Chen,目前為清華大學自動化工程系大三學生。

研究方向為推理密集型大語言模型的強化學習,在校期間多次獲得國家獎學金。

NuerIPS唯一滿分論文曝光,來自清華上交

通訊作者Gao Huang(黃高),清華大學自動化系副教授、博士生導師, LeapLab負責人。

他最知名的工作之一就是發表了論文《Densely Connected Convolutional Networks》,其中提出了經典卷積架構模型DenseNet。

該論文不僅榮獲CVPR2017最佳論文,而且被編入多本深度學習著作,單篇引用量接近6萬次。

NuerIPS唯一滿分論文曝光,來自清華上交

其他作者中,來自清華的還有:

  • Rui Lu(盧睿),清華大學自動化系四年級博士生,本科畢業于姚班。
  • Andrew Zhao(趙啟晨),清華大學自動化系博士生,本碩畢業于加拿大哥倫比亞大學和南加州大學。
  • Shiji Song,清華大學自動化系教授,與黃高一起負責指導本項研究。
  • Yang Yue (樂陽)?,和項目負責人名字同音,但由于相對低調網上暫無太多公開資料。

以及唯一來自交大的Zhaokai Wang(王肇凱),目前是上海交通大學四年級博士生。

本科畢業于北京航空航天大學,同一時期還拿到了北大經濟學學士學位,當前也在上海人工智能實驗室通用視覺團隊(OpenGVLab)實習。

對于這項研究,團隊作者特意在論文主頁強調:這并不是說強化學習無用了。實際上,它在一些低采樣場景仍舊非常實用。

NuerIPS唯一滿分論文曝光,來自清華上交

以及有網友發現,有意思的是,DeepSeek在一年前的一篇論文中也提到了相關現象。

……這些發現表明,強化學習通過使輸出分布更加魯棒來提升模型的整體表現,換言之,性能的提升似乎源于促進了正確答案出現在TopK結果中,而非源于基礎能力的增強。

NuerIPS唯一滿分論文曝光,來自清華上交

而這一次,結論被用論文完整論證了。

論文:
https://limit-of-rlvr.github.io/

版權所有,未經授權不得以任何形式轉載及使用,違者必究。
久久久久网站| 97在线免费观看| 欧美成人官网二区| 国产精品永久免费在线| 国产精品成人国产乱| 欧美激情一区二区在线| 91精品国产高清自在线| 精品免费日产一区一区三区免费| 性色av一区二区三区红粉影视| 91高跟黑色丝袜呻吟在线观看| 熟女熟妇伦久久影院毛片一区二区| 91精品久久香蕉国产线看观看| 国产美女精彩久久| www.99热| 精人妻无码一区二区三区| 久久国产乱子精品免费女| 午夜精品一区在线观看| 久久精品视频2| 亚洲免费三区一区二区| 国产精品丝袜白浆摸在线| 性欧美长视频免费观看不卡| 国产精品久久久久久久久免费樱桃| 国产成+人+综合+亚洲欧洲 | 国产精品乱码一区二区三区| 亚洲欧美日韩区| 中文字幕av一区二区三区高| 亚洲一线二线三线久久久| 亚洲色图25p| 欧美午夜宅男影院在线观看| 91一区二区在线| 亚洲GV成人无码久久精品| 欧美日韩在线播放一区二区| 成人做爽爽免费视频| 私密视频在线观看| 麻豆国产精品官网| 亚洲三级免费看| 日本十八禁视频无遮挡| 精品亚洲欧美一区| 91产国在线观看动作片喷水| 精品国产乱码一区二区| 欧美成人一区二区| 性欧美videossex精品| 另类小说一区二区三区| 亚洲国产日韩欧美在线99| 精品久久久三级| 亚洲欧美在线不卡| 久久久久久久欧美精品| 国产一区二区黄| 日韩免费视频播放| 免费看黄色一级视频| 精品视频免费在线| 国产精品色婷婷视频| 黄色av网址在线观看| 国产一级二级视频| 免费一级欧美片在线观看| 欧美日韩国产另类一区| 国产乱码精品一区二区三区卡 | 久久精品福利视频| 中文字幕中文字幕99| 91视频最新网址| 久久久久久久久99精品| 欧美日产国产成人免费图片| 爆乳熟妇一区二区三区霸乳| 黄色小视频免费在线观看| 欧美日本精品一区二区三区| 久久国产一区二区| www.av日韩| 亚洲午夜久久久久久久久电影院| 91精品国产高清久久久久久91| 911福利视频| 日本免费色视频| 日韩精品视频一区二区| 国产精品久久福利| 亚洲色图.com| 欧美亚洲综合在线| 久久久久久午夜| 超碰中文字幕在线观看| 日本a在线观看| 亚洲乱码国产乱码精品精98午夜| 欧美在线日韩在线| 懂色av粉嫩av蜜乳av| 成人亚洲精品久久久久软件| 欧美高清不卡在线| 强迫凌虐淫辱の牝奴在线观看| 波多野结衣精品在线| 2019亚洲日韩新视频| 一区二区黄色片| 成人欧美一区二区三区小说 | 在线播放国产一区二区三区| www.超碰com| 国产呦精品一区二区三区网站| 久久视频免费在线播放| 国产成人av片| 国产女人18毛片水真多成人如厕| 国产日本欧美一区| 日韩成人高清视频| 欧美日本韩国一区二区三区视频| 无码粉嫩虎白一线天在线观看| 日本怡春院一区二区| 色综合五月天导航| 精品一区二区三孕妇视频| 亚洲一区二区三区四区五区中文| 欧美日韩日本网| 亚洲第一精品网站| 日韩中文字幕在线视频| 日韩 中文字幕| 欧美视频国产视频| 日韩亚洲欧美成人| 久久久久亚洲av无码麻豆| 91在线精品一区二区三区| 国产精品久久久久久久久久免费| fc2ppv在线播放| 色狠狠桃花综合| 成人免费视频91| 国产 日韩 欧美大片| 国产精品视频区| 黄色在线免费观看| 日韩毛片在线看| 久久久精品人妻一区二区三区| 国产精品高潮久久久久无| 国产欧美一区二区三区不卡高清| 91成年人视频| 美女黄色丝袜一区| 中国毛片直接看| 日韩视频在线永久播放| 深爱五月综合网| 亚洲精品高清在线| 日韩精品免费一区| 风流少妇一区二区| 91黄色精品| 午夜久久久久久噜噜噜噜| 色综合久久中文字幕综合网小说| 777777国产7777777| 日韩欧美在线观看一区二区三区| 久久久久中文字幕亚洲精品| 香蕉加勒比综合久久| 国产老熟妇精品观看| 久久久久久一级片| 在线码字幕一区| 成人免费福利片| 日本不卡久久| 福利电影一区二区| 国精产品99永久一区一区| 视频一区视频二区中文字幕| 成人xxxx视频| 亚洲欧美日韩免费| 成人午夜在线观看| 久久精品二区三区| 91成人免费视频| 久久99深爱久久99精品| 精品国产第一页| 国产福利一区在线| 亚洲精品一区二区三| 91丨九色丨蝌蚪丨老版| 在线综合视频网站| 久久精品亚洲国产奇米99| 免费看日本黄色| 亚洲精品精品亚洲| 免费看涩涩视频| 色狠狠色噜噜噜综合网| 手机免费看av片| 精品久久久久av影院| 久久高清内射无套| 大量国产精品视频| 亚洲一卡二卡在线| 国产免费一区二区三区在线观看| 久久一区二区三区四区五区| 精品日韩美女| 久久久久国产一区二区三区四区| 欧美深夜福利视频| 午夜精品久久久久久久久| 少妇性l交大片7724com| 欧美一级电影网站| 高h视频免费观看| 久久这里有精品| 国产乱淫a∨片免费观看| 国产免费一区二区三区在线观看| 麻豆精品一区二区三区| 中文字幕中文字幕一区三区| 一区二区三区在线观看动漫| 日本一区二区在线观看视频| 日韩高清免费在线| 免费视频久久久| 国产精品99久久久久久久久| 久久99精品久久久久久国产越南| 在线观看日韩羞羞视频| 亚洲狼人国产精品| 亚州av综合色区无码一区| 亚洲性生活视频| 国产又大又黄的视频| 久久精品久久精品国产大片| 国产精品成人在线观看| 中国特级黄色片| 自拍偷拍亚洲欧美| 亚洲大尺度网站| 亚洲永久一区二区三区在线| 午夜久久久久久久久久一区二区| free性中国hd国语露脸| 大量国产精品视频| 日韩av午夜在线观看| 黄色特一级视频| 欧美绝品在线观看成人午夜影视 | 国精产品99永久一区一区| 国产精品丝袜91| 搡老熟女老女人一区二区| 久久69精品久久久久久国产越南| 视频一区二区不卡| 欧美视频在线观看网站| 日韩美女在线视频| 亚洲在线免费观看视频| 日韩av不卡在线播放| 精品女厕一区二区三区| 免费在线观看a级片| 国产精品私拍pans大尺度在线| 99久久婷婷国产精品综合| 三大队在线观看| 欧美激情精品久久久久| 丁香激情综合五月| 九色91porny| 国产综合在线看| av午夜精品一区二区三区| 亚洲一区二区三区三州| 久久精品国产久精国产一老狼| 日韩av不卡在线观看| 九热视频在线观看| 最近2019中文字幕mv免费看 | 欧美在线视频免费播放| 91香蕉国产在线观看软件| 成人免费看片载| 91av在线不卡| 欧美国产一区二区在线观看| 国产三级黄色片| 91精品免费| 日韩欧美在线网址| 国产成人精品一区二区色戒| 一区二区高清视频| 日韩你懂的在线播放| 日本精品久久久久| 网站一区二区三区| 久精品免费视频| 国产亚洲一区二区三区四区| 四虎精品免费视频| 精品一区二区国产| 717成人午夜免费福利电影| 99久久久国产精品无码免费| 青青草国产精品视频| 日韩在线视频线视频免费网站| 成人美女视频在线看| 这里只有久久精品| 国产精品一区二区三区免费| 欧美日韩一区中文字幕| 亚洲精品一区二区三区不卡| 欧美午夜性生活| 亚洲2020天天堂在线观看| 最新热久久免费视频| 国产尤物在线视频| 白白操在线视频| 视频在线观看99| 国产亚洲精品免费| 久久一区二区三| 大桥未久一区二区| 日韩中文字幕在线免费观看| 国产欧美日韩不卡| 五月天综合激情网| 9久久9毛片又大又硬又粗| 欧美成人免费大片| 亚洲日本韩国一区| 97成人在线观看| 中文字幕久久av| 91久久精品日日躁夜夜躁国产| 欧美午夜不卡在线观看免费| 奇米精品一区二区三区四区| 亚洲欧洲久久久| 久久综合九色综合久99| 亚洲免费av电影| 国产精品欧美一区喷水| 午夜一级黄色片| 亚洲怡红院在线| 96精品久久久久中文字幕| 91麻豆精品国产91久久久使用方法| 蜜桃精品视频在线| 国产极品美女在线| 国产91视频一区| 日韩av不卡在线| 久国内精品在线| 欧美日韩一区在线观看视频| 一本一道久久a久久精品综合蜜臀| 久久精品一级爱片| 亚洲一区二区成人在线观看| 五月天网站亚洲| www.亚洲人.com| 中文字幕日韩专区| 久久久亚洲精选| 国产精品视频1区| 成人免费毛片播放| 人妻人人澡人人添人人爽| 69xxxx国产| 国产精品久久久久影院亚瑟| 日韩一区二区欧美| 最新国产成人av网站网址麻豆| 中文字幕精品国产| 97国产超碰| 久久久久久香蕉| 国产精品毛片久久久久久久av| 欧美日韩国产精品一区二区三区四区 | 国产人妻精品一区二区三区 | 国产成人h网站| 亚洲视频在线观看三级| 久久不射热爱视频精品| 日韩久久久久久久| 久久久久久九九九九九| 中文字幕在线观看欧美| 欧美aa在线视频| 亚洲综合清纯丝袜自拍| 精品成人免费观看| 日韩欧美三级电影| 国产精品每日更新| 久久久国产影院| 欧美日韩综合精品| 91免费公开视频| 亚洲成人动漫在线观看| 欧美日韩国产色站一区二区三区| 欧美精品视频www在线观看| 92看片淫黄大片欧美看国产片| 年下总裁被打光屁股sp| 最近2019年中文视频免费在线观看| 久久在线精品| 亚洲三级免费电影| 欧美激情亚洲国产| 青青青免费在线| 网站黄在线观看| 欧美视频三区在线播放| 久久国产天堂福利天堂| 日本一区网站| 西西444www无码大胆| 久久久一区二区三区| 人人澡人人澡人人看欧美| 国产免费一区二区三区最新6| 波多野结衣一区二区三区 | 亚洲高清精品视频| 亚洲大胆美女视频| 国产精品v欧美精品v日韩| 久久久久久欧美精品se一二三四| 最近日韩中文字幕| 国产在线观看一区二区三区| 欧美在线观看不卡| 一区二区欧美国产| 国产精品爽爽爽| 91九色蝌蚪porny| 国产a视频精品免费观看| 色琪琪综合男人的天堂aⅴ视频| 国产主播在线看| 人妻一区二区三区免费| 国产一区二区在线看| 色狠狠av一区二区三区香蕉蜜桃| 精品久久久无码人妻字幂| 亚洲欧美自偷自拍| 国产色婷婷国产综合在线理论片a| 日本一级片在线播放| 日韩美女啊v在线免费观看| 人禽交欧美网站免费| 天堂蜜桃91精品| 国产精品盗摄一区二区三区| 国产一区二区三区在线播放免费观看| 99九九精品视频| 久久精品999| 日韩h在线观看| 国产精品一级久久久| 日韩在线视频第一页| 国产一区玩具在线观看| 亚洲a视频在线| 国产在线不卡精品| 国产伦精品一区二区三区免费 | 亚洲成人久久一区| 日本高清不卡一区二区三| 波多野结衣一二区| 欧美视频一区二区三区| 国产精品成久久久久三级| 黄色手机在线视频| 日韩在线视频观看免费| 一本在线高清不卡dvd| 国产精品永久免费在线| 三级影片在线看| 国产美女视频一区| 亚洲欧洲日本专区| 久久久成人精品一区二区三区| 91在线看视频| 亚洲精品大尺度| 手机在线视频你懂的| 小泽玛利亚一区二区三区视频| 欧美一级久久久久久久大片| 欧美中文字幕在线观看视频| 亚洲第一成年人网站| 亚洲另类激情图| 久草福利视频在线| 成人性生交大片免费看中文| 成人av蜜桃| 午夜视频网站在线观看| 国产精自产拍久久久久久| 久久精品国产亚洲av高清色欲| 日韩欧美电影一区| 日本泡妞xxxx免费视频软件| 欧美日韩激情网| 日韩免费高清在线| 亚洲欧美电影一区二区| 日韩中文字幕三区| 亚洲成年人网站在线观看| 男女私大尺度视频| ㊣最新国产の精品bt伙计久久| 黄色成人在线看|