挑戰強化學習后訓練霸權！全新無監督方法僅需1條數據+10步優化

魚羊 2025-06-01 12:57:36 來源：量子位

無需標注、拋棄復雜獎勵設計

Ubiquant團隊投稿

量子位 | 公眾號 QbitAI

無需標注數據、無需繁瑣獎勵設計，只用10步就能見效——「熵最小化」或許比強化學習更適合大語言模型快速升級。

強化學習（RL）近年來在大語言模型（LLM）的微調中大獲成功，但高昂的數據標注成本、復雜的獎勵設計和漫長的訓練周期，成為制約RL進一步應用的瓶頸。

Ubiquant研究團隊提出了一種極為簡單有效的無監督方法——One Shot熵最小化（Entropy Minimization，EM），僅用一條無標簽數據，訓練10步內即可顯著提升LLM性能，甚至超過使用成千上萬數據的RL方法。

一、從RL到EM：LLM微調的困境與新思路

當前，大語言模型（LLM）在經過海量數據預訓練后，展現出了驚人的通用能力。然而，要讓模型在特定、復雜的推理任務（例如數學、物理或編程）上達到頂尖水平，后訓練（post-training）主流后訓練方法是采用強化學習（RL），特別是結合可驗證獎勵的強化學習（RLVR）。

盡管基于RL的微調在提升模型性能上取得了顯著進展，但其過程卻面臨著一系列明顯的弊端，使得這種方法成本巨大且過程繁瑣。

RL，特別是RLVR，對大規模高質量標注數據的依賴性極強。其次，RL方法的成功在很大程度上取決于復雜且精心的獎勵函數設計。

這需要專家知識來最大化優勢信號并防止模型“獎勵作弊”。此外，許多常用的RL算法（如PPO）需要額外的獎勵模型，這不僅增加了算法復雜性，并且大量的大量的訓練步驟和漫長的采樣過程帶來了巨額的計算開銷。

相較之下，熵最小化（EM）提出了一種全新的思路。EM的核心理念是無需任何標注數據或外部監督來訓練模型。它僅依賴模型自身預測分布的熵（entropy）進行優化。

具體而言，EM訓練模型將其概率質量更多地集中在其最自信的輸出上。EM背后的核心思想基于一個關鍵假設和一個簡單直覺：如果一個模型本身足夠有能力，那么當它對其預測結果更“自信”時，它也更有可能是正確的。

換句話說，正確答案通常比錯誤答案具有更低的熵值。通過優化目標來降低模型生成序列的熵，EM促使模型變得更加“自信”，從而強化其在預訓練階段已經獲得的能力

二、熵最小化（EM）到底怎么做？

具體來說，熵最小化方法的核心公式為：

設表示一個預訓練自回歸語言模型pθ的詞匯表，該模型由參數θ定義。給定一個輸入提示x（例如一個問題或問題描述），模型根據其當前策略自回歸地生成一個響應序列 y=(y1,y2,…,yT)

其中T是生成序列的長度。核心思想是通過在每一步生成時最小化標記級別的熵，來減少模型對其自身預測的不確定性。時間步t的條件熵定義為：

單個輸入x的總體EM損失由以下公式給出：

簡單而言，這個損失函數鼓勵模型提高對自身預測的信心，無需依賴外部監督信號或獎勵函數。由于其完全依賴于模型本身而非外部信號，和預訓練目標完全兼容，在有效簡化優化過程的同時可能帶來潛在對于模型內一致性的破壞。

三、為何只用一條示例就足夠？

熵最小化的成功高度依賴示例的選擇。熵最小化（EM）依賴于模型的預測不確定性可以作為有意義的訓練信號。

然而，并非所有輸入提示在這方面都同樣具有信息量。

因而研究者采用了一種基于模型表現方差的示例篩選方法：通過計算模型多次生成結果的準確性方差，挑選那些模型表現不穩定的示例進行訓練。

這種方差量化了模型對給定輸入的預測不一致性。低方差意味著要么對正確性有高度信心（接近完美的成功），要么對失敗有高度信心（完全錯誤）。

相反，表現方差大的示例更能有效驅動模型降低熵值、明確決策邊界。這也是為何只用一條高質量示例，就能快速推動模型的推理性能。

研究人員使用的唯一一條樣本如下：

Problem: The pressure P exerted by wind?on?a sail varies jointly as the area A of the sail and the cube of the wind’s velocity V. When the velocity is?8?miles per hour, the pressure?on?a sail of?2?square feet is?4?pounds. Find the wind velocity when the pressure?on?4?square feet of sail is?32?pounds.
Solution:?12.8

四、實驗結果：以小博大，性能媲美甚至超越RL

研究人員在多個數學推理任務上測試了熵最小化（EM）的效果。結果顯示，僅一條示例、10步訓練，EM方法即大幅提高了Qwen2.5-Math-7B的性能：

MATH500測試集：
準確率從53%提升到78.8%，提升25.8個百分點；
Minerva Math測試集：
準確率從11%提升到35.3%，提升24.3個百分點；
AMC23測試集：
準確率從44.1%提升到70.3%，提升26.2個百分點。

更令人矚目的是，即使只使用一個示例和極少的訓練步驟（僅僅10步），EM方法極大地縮小了Qwen2.5-Math-7B與Prime-Zero-7B和RLVR-GRPO等先進的基于RL的模型之間的差距。

特別是在AMC23基準測試中，經過EM增強的Qwen2.5-Math-7B達到了具有競爭力的70.3分，逼近領先的RL模型這些結果清晰地表明，熵最小化（EM），盡管比典型的強化學習方法更簡單、數據效率更高，但在增強基礎語言模型在數學推理任務上的性能方面，具有巨大的潛力。那么為什么熵最小化能這么有效果呢？熵在模型的訓練和推理過程中起到什么樣的作用呢？

五、EM vs. RL：深入分析“置信度”與“Logits偏移”

大語言模型在生成每個token時，會先產生一組未經歸一化的分數，稱為Logits。這些Logits隨后通過 Softmax 函數轉換為概率分布，決定了下一個token的選擇。

因此，Logits的分布形態直接反映了模型對其預測的“置信度”和對不同token的偏好。這項研究通過對模型Logits分布的深入分析發現，熵最小化（EM）和強化學習（RL）對模型內部置信度的影響方向截然相反。

EM：向右偏移，強化自身自信

研究表明，經過EM訓練的模型，其Logits分布會顯著地向右偏移。這種右移意味著模型在生成過程中，會反復強化自身的預測置信度。模型將更多的概率質量集中在少數它認為“確定”的token上，使得原本高概率的區域進一步向高分區間擴展。

直觀來說，這讓模型對其最看好的答案變得更加“自信”。

在生成和采樣時，這種向右的 Logits 偏移是有益的。它增加了高概率的候選 token 數量，擴展了模型能夠遵循的“高概率路徑”，從而潛在地增強了模型的整體生成能力。

實驗中，EM 訓練后的模型在評估時表現出與采樣溫度的相反趨勢：隨著溫度升高，性能下降。這可以用貪婪解碼（即總是選擇概率最高的token）來解釋——因為 EM 訓練將概率質量高度集中在少數確定性token上，貪婪解碼在這種分布下變得非常有效。

RL：向左偏移，受真實信號引導

與EM不同，經過RL訓練的模型則表現出Logits分布向左偏移的趨勢。研究者推測，這是受到訓練過程中“真實”（ground-truth）信號的影響2。

RL通過外部獎勵函數來調整模型的行為，它會懲罰那些模型預測概率很高但與地面真實不符的token。

通過對這些高概率但不正確的token進行降權（reranking），RL降低了它們的排序，從而導致整體Logits分布向左偏移。RL 訓練后，即使經過 reranking，這些原本低概率的token往往只占據概率分布中的中間位置，需要更高的采樣溫度才能被選中。

因此，RL訓練的模型表現出與EM相反的趨勢：性能隨著采樣溫度的升高而提升。

雖然RL的目標是提升模型性能，但其導致的Logits左移被認為對大語言模型的生成過程有害，因為它減少了采樣時的高概率路徑數量，可能會削弱模型的整體性能。

這種Logits偏移的差異，通過分析Logits分布的偏度（Skewness）得以量化。

EM訓練顯著提高了Logits分布的偏度，呈現右偏；而RL訓練則顯著降低了偏度，甚至導致左偏。即使在EM后再進行RL訓練，Logits分布的偏度也會從EM后的高值有所下降，遵循RL的趨勢。

這樣的差異和塑造了EM和RL完全不同的推理采樣策略。

在評估階段，隨著采樣溫度的升高，EM模型在四個數學推理基準測試上的平均表現持續下降。

這一趨勢與上圖中展示的經過強化學習（RL）訓練的模型形成鮮明對比，后者在更高的采樣溫度下往往表現更佳。EM更像是一個分布塑造工具（distribution shaping tool），通過強化模型自身的內在一致性來提升置信度，從而重塑了現有知識的分布。

六、“過度自信”的陷阱與隨機性

研究也揭示了這種高效性背后隱藏的“陷阱”——即“過度自信”現象。

訓練初期，EM訓練損失迅速下降，模型的數學推理性能也隨之提升然而，大約在訓練進行到10步左右時，模型的性能達到了頂峰。令人意外的是，即使EM訓練損失繼續下降，模型的數學推理性能反而開始下降。

這種“過度自信”被認為是由于持續的EM訓練過度放大了模型在推理過程中對其自身生成token的置信度。持續的EM訓練可能會過度強化模型已有的先驗偏差，導致輸出結果過度集中于狹窄、過度自信的token分布，從而加劇算法偏差并導致輸出顯著偏離正確路徑，最終損害了模型的實際推理性能。

熵最小化的不穩定性和過度自信的損害也體現在訓練時的溫度上。經過EM訓練的模型在四個數學推理基準上的平均性能隨著生成溫度的升高總體呈現上升趨勢。

平均性能的最大值最初增加，隨后在溫度約為0.5時開始下降。較高的溫度帶來更好的平均推理能力，而適中的溫度（如0.5）則導致更大的性能波動，從而為更高的峰值性能創造了機會。

EM訓練同時展現出顯著的隨機性，即便設置完全相同，四個數學推理基準測試的平均得分也會因種子不同而相差高達兩倍。

七、EM適合哪些場景？

研究表明，熵最小化（EM）尤其適合：

尚未進行大量RL調優的基礎模型或僅經過SFT的模型：

研究在多個不同的基礎模型上評估了One-shot EM的效果，結果表明，僅通過單個示例和極少的訓練步數，EM能夠持續且顯著地提升這些模型在數學推理基準測試上的性能。

然而，研究也發現，當應用于已經過大量RL廣泛微調的模型（如 SimpleRL-Zoo）時，One-shot EM反而可能導致性能下降5。這與在RL之后應用EM可能鎖定狹窄、過度自信的輸出模式并損害性能的發現一致。

需要快速部署、沒有充足標注數據或資源有限的場景。

EM的核心優勢在于其極高的效率和對數據的極低需求，研究發現，One-shot EM實際上比Multi-shot EM表現出更好的性能和更強的泛化能力。

盡管Multi-shot使用了更多的示例，但One-shot EM通過單個示例實現了更穩定和細致的優化。有效減少了樣本偏差并縮小了輸出方差。這進一步強化了 EM 在數據極度稀缺場景下的吸引力。

無代價能力增強：

熵最小化（EM）可以作為現有后訓練范式的有力補充甚至起點。將EM 應用在RL之前能夠帶來有效增益，使其成為RL的有效“啟用基礎”。

EM 通過其獨特的Logits 右偏移效應提升模型的自信度，增強模型的推理能力，并可能促進后續 RL 訓練的更快收斂和更穩定優化。

對于已經深度調優過的RL模型，再使用EM反而可能帶來性能的下降。

八、行業前景與未來研究

One-shot EM的成功，不僅在于其驚人的數據和計算效率，還在于它為LLM后訓練提供了一種完全無監督的、可落地的替代方案，它不需要人工標注數據，不需要構建復雜的獎勵模型，極大地降低了后訓練的門檻和成本。這項研究同樣為未來的探索打開了廣闊的空間：

訓練穩定性與魯棒性：

One-shot EM雖然高效，但也伴隨超參數敏感性和一定的訓練不穩定性。研究發現，持續的EM訓練可能會導致模型“過度自信”，反而損害性能。未來的工作需要探索早停標準或自適應調度機制，以及減少訓練的隨機性，以進一步穩定和提升EM的效果。

泛化能力與跨領域應用：

EM在數學推理任務上表現出色，但它能否泛化到對話、摘要、代碼生成等其他領域？這需要進一步的實驗驗證。同時，當前EM在Token級別操作，未來的研究可以探索在序列或語義單元上應用結構化熵，或引入任務特定先驗知識和自適應熵正則化，以釋放更多潛力。

與現有技術的融合：

EM作為一種分布塑造工具，與SFT、RLHF等現有后訓練技術概念上正交。研究發現，在RL之前應用EM可以帶來有益的對數分布偏移。

未來的工作可以系統地研究不同的EM與RL結合的時間表、課程策略及其相互作用，探索構建更強大混合方法的可能性。EM甚至可以作為SFT或RLHF過程中的一種正則化策略，或作為現有模型的“信心壓縮”層。

研究人員對置信度校準的深入研究結果還暗示，EM通過強化高概率推理路徑來增強模型的置信度。

這表明EM可能是一種輕量級的信心校準方法。未來的研究需要開發更精確的評估協議來量化EM的校準效應，深入理解其背后的機制。

（本文內容參考自論文《One-shot Entropy Minimization》，詳細實驗與數據參見原文。）

— 完 —

強化學習無監督

魚羊

挑戰強化學習后訓練霸權！全新無監督方法僅需1條數據+10步優化

一、從RL到EM：LLM微調的困境與新思路

二、熵最小化（EM）到底怎么做？

三、為何只用一條示例就足夠？

四、實驗結果：以小博大，性能媲美甚至超越RL

五、EM vs. RL：深入分析“置信度”與“Logits偏移”

六、“過度自信”的陷阱與隨機性

七、EM適合哪些場景？

八、行業前景與未來研究

相關閱讀

重現當年AlphaGo神來之筆！DeepMind新AI發現提速70%排序算法，十年都沒更的C++庫更新了

機器人懂點「常識」后，找東西方便多了：CMU打造新型語義導航AI機器人

首屆“開悟AI+游戲高校大賽”啟動，18所名校學霸要教AI打王者榮耀

用上強化學習和博弈論，EA開發的測試AI成精了

中國AI足球隊勇奪世界冠軍，騰訊出品

獎勵模型也能Scaling！上海AI Lab突破強化學習短板，提出策略判別學習新范式

熱門文章

英偉達巧用8B模型秒掉GPT-5，開源了

“豆包手機”在二手市場價格都翻倍了……

DeepSeekV3.2技術報告還是老外看得細

谷歌新架構突破Transformer超長上下文瓶頸！Hinton靈魂拷問：后悔Open嗎？

SpaceX估值8000億美元超OpenAI，IPO就在明年