OpenAI出手解決GPT-4數學推理:做對一步立刻獎勵!論文數據集全開放,直接拿下SOTA
還得是step by step
明敏 西風 發自 凹非寺
量子位 | 公眾號 QbitAI
OpenAI一個簡單的動作,讓大模型數學能力直接達到SOTA。
而且直接開源論文數據集,包含80萬個人類反饋標簽!
這就是OpenAI的最新研究。基于GPT-4,他們微調了幾個模型,分別采用不同的監督方法。
一種是傳統的結果監督,只對最終正確答案進行獎勵。
另一種則是過程監督,區別在于獎勵增加,對每一個正確的推理步驟進行獎勵。
結果這一點改變,讓采用過程監督的模型Process Reward Model(PRM),可以解決MATH測試集代表子集中78%的問題,達到SOTA。

英偉達AI科學家Jim Fan大膽預測說,下一步OpenAI大概會用這種方法微調GPT-4。

OpenAI表示:
我們認為探索過程監督在數學之外領域的表現非常重要。如果這些結果具有普遍性,那意味著過程監督將成為比結果監督更有效的方法。
獎勵增多、效果變好
話不多說,先看OpenAI給出的具體例子。
比如這樣一道三角函數的題:

用過程監督的模型來算,效果會是這樣的:


OpenAI表示,這道題對于大模型來說還是比較有挑戰性的,GPT-4也不太能搞定(只有0.1%的情況生成結果完全沒問題)。而使用過程獎勵是可以算出正確答案的。
這也是目前大語言模型比較飽受詬病的問題,容易產生邏輯錯誤,也被稱為“幻覺”。
表現最明顯的領域就是數學。
即便是先進如GPT-4,這類問題也難以避免。
而降低幻覺的出現,又被視為走向AGI的關鍵一步。
此前為檢測幻覺所使用的是結果監督,基于最終結果提供反饋,僅僅獎勵最終正確的答案。
但效果顯然還不太行,所以OpenAI想了個新招,把這種獎勵增加會怎么樣?
于是他們提出了過程監督方法,針對思維鏈中的每個步驟提供反饋,獎勵每個正確的推理步驟。

結果表明,用MATH數據集進行測試后:
過程監督模型能夠解決MATH測試集代表子集的78%的問題。效果優于結果監督。
而且隨著每個問題考慮的解決方案的數量增加,性能差距也逐漸增大,也說明了過程監督的獎勵模型更加可靠。
△縱軸表示的是已解決問題百分比,紅色線代表過程監督獎勵模型(ORM),藍色線代表結果監督獎勵模型(PRM)
在測試中,過程監督有一個明顯的優勢:
可以準確指出解決問題的步驟中哪些是正確的,并且給出錯誤步驟的具體位置。
而這點在結果監督中,是具有挑戰性的。
因此,在過程監督中,信用分配(credit assignment)更加容易。
而且在對齊方面,過程監督也優于結果監督。
因為過程監督會直接獎勵模型,按照對齊的思維鏈進行操作,每個步驟都會更精確。
產生的結果可解釋性也更高,因為它鼓勵模型遵循經過人類批準的過程。
相比之下,基于結果的監督可能會出現獎勵不對齊的過程,而且通常更難進行審查。
此外,大模型還經常遇到一個問題叫做對齊稅(alignment tax)。也就是想讓模型輸出更安全,那性能就會有所下降。
而過程獎勵,在數學領域能讓這個對齊稅,變成負的,即模型安全性和性能都保障。
總之,過程獎勵這個小竅門,一次性解決了大模型數學推理方面的多個問題。
在實驗結果方面,OpenAI還給出了多個實例。
比如有一些情況,GPT-4會出錯,但是基于過程獎勵的PRM能揪出問題。
最近有30名學生參加了一次考試。如果有20名學生考了80分,8名學生考了90分,2名學生得分為100分,那么這次考試的班級平均分是多少?

下面是模型的作答結果:

前面的作答沒有問題,但是在第7步中,GPT-4試圖對表達式進行簡化,出現了錯誤。
而獎勵模型卻察覺到了這個錯誤。
當然也有都不成功的例子,比如下面這道題GPT-4和PRM都被迷惑了:

來看一下模型的回答:


在第4步中,GPT-4錯誤地認為該序列每12項循環一次,而事實上是每10項循環一次。
而這種計數錯誤也迷惑到了獎勵模型。
此外,OpenAI共給出了10個問題和解決方案。
可以看出,基于過程監督的獎勵模型在一些問題上也會被迷惑住,但是在整體上明顯表現得更好。
網友:再也不用做數學證明題了
很快,OpenAI的最新工作在各個平臺上都引發了熱烈討論。
有人評價:
如果這個方法在非數學領域也能奏效,我們現在或許正處于游戲規則即將改變的時刻。

還有人說,這項工作如果用在互動、教育方面,會非常令人興奮,尤其是數學領域。

這不,有人就說,看來以后不用再做數學家庭作業和證明題了(doge)。

用一張圖來總結,大概就是醬嬸兒的:

也有人提出了自己的擔心:這種密集的獎勵信號是否會導致模型更容易陷入局部最小值。
但是如果能夠足夠隨機化、全局搜索,或許模型的魯棒性更高。

值得一提的是,這種step by step的方法,不止一次在提升大模型性能上奏效。
之前,東京大學和谷歌的研究人員發現,只要在對話中加一句“Let’s think step by step”,GPT-3就能回答出以前不會的問題。
比如提問:
16個球中有一半是高爾夫球,這些高爾夫球中有一半是藍色的,一共有幾個藍色的高爾夫球?

(問題不難,但要注意這是零樣本學習,也就是說AI訓練階段從沒見過同類問題。)
如果要求GPT-3直接寫出“答案是幾”,它會給出錯誤答案:8。
但加上讓我們一步一步地思考這句“咒語”后,GPT-3就會先輸出思考的步驟,最后給出正確答案:4!
而與之相呼應的是,這回OpenAI最新研究的論文題目就叫做《Let’s Verify Step by Step》。

論文地址:
https://openai.com/research/improving-mathematical-reasoning-with-process-supervision
數據集:
https://github.com/openai/prm800k
參考鏈接:
[1]https://twitter.com/OpenAI/status/1663957407184347136
[2]https://twitter.com/DrJimFan/status/1663972818160332800
[3]https://twitter.com/_akhaliq/status/1663981726647894027
- DeepSeek-V3.2-Exp第一時間上線華為云2025-09-29
- 你的AI助手更萬能了!天禧合作字節扣子,解鎖無限新功能2025-09-26
- 你的最快安卓芯片發布了!全面為Agent鋪路2025-09-26
- 任少卿在中科大招生了!碩博都可,推免學生下周一緊急面試2025-09-20




