GPT-5.2果然反超谷歌Gemini 3 Pro!北大數(shù)院校友核心貢獻(xiàn)
紅色警報(bào)解除了?
夢(mèng)晨 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
紅色警報(bào)拉響,OpenAI是真急了:
30天,GPT-5.2系列緊接著GPT-5.1而來(lái),這次還專門強(qiáng)化了打工能力。
這是GPT-5.1 Thinking和GPT-5.2 Thinking做人力資源表格的對(duì)比:

雖然版本號(hào)只加了0.1,但是在多個(gè)實(shí)用領(lǐng)域都更強(qiáng)了:做表格、做PPT、寫(xiě)代碼、理解長(zhǎng)文檔、調(diào)用工具、處理復(fù)雜多步驟項(xiàng)目……
視覺(jué)理解能力也大幅提升,GPT-5.2能準(zhǔn)確標(biāo)記出更多主板上的元件。

這是GPT-5.2做的網(wǎng)頁(yè)版波浪模擬器:

如果你遇到航班延誤、又錯(cuò)過(guò)轉(zhuǎn)機(jī)、需要當(dāng)?shù)剡^(guò)夜以及需要特殊醫(yī)療座位,聽(tīng)起來(lái)就很頭疼。
但GPT-5.2安排好了一切:重新訂機(jī)票、安排特殊座位和賠償。

ARC-AGI也在第一時(shí)間發(fā)布了測(cè)試結(jié)果。
一年前的o3 (High) 在ARC-AGI-1測(cè)試中得分88%,平均每項(xiàng)任務(wù)成本為4500美元。
今天的GPT-5.2 Pro (X-High) ,最新SOTA得分為90.5%,平均任務(wù)成本僅為11.64美元,在一年內(nèi)效率提高了約390倍。
同時(shí)超過(guò)了谷歌Gemini 3 Pro的對(duì)應(yīng)版本(綠色點(diǎn)),也算扳回一局。

拆解GPT-5.2各項(xiàng)能力
高經(jīng)濟(jì)價(jià)值任務(wù)
在GDPval測(cè)試中,涵蓋美國(guó)GDP前九大產(chǎn)業(yè)中的44個(gè)職業(yè)領(lǐng)域,完成人類需要4-8小時(shí)才能完成的任務(wù)。
在人類評(píng)委打分下,GPT-5.2 Thinking與人類專家相比有71%的勝率,GPT-5.2 Pro還能更高一些。
而且速度是人類專家的11倍以上,成本不到人類專家的1%。

在投行分析師的電子表格建模任務(wù)上,GPT-5.2 Thinking平均每項(xiàng)任務(wù)得分相比GPT-5.1提升了9.3%,從59.1%上升到68.4%。這些任務(wù)包括為財(cái)富500強(qiáng)公司搭建三表聯(lián)動(dòng)模型、構(gòu)建杠桿收購(gòu)模型等。

提示:您是一名投資銀行分析師,剛剛接到一項(xiàng)任務(wù),需要完成一份瀑布式分析,以了解創(chuàng)始人及現(xiàn)有投資者的所有權(quán)和回報(bào)情況。您的客戶是一家正在考慮 C 輪融資的初創(chuàng)公司。
請(qǐng)查收附件中的模板,您需要對(duì)其進(jìn)行修改。我在 G 列中添加了必要的假設(shè)。C 列的名稱在普通股部分重復(fù)出現(xiàn),以便于索引。假設(shè)包括退出時(shí)的股權(quán)、系列投資金額、基金所有權(quán)、認(rèn)股權(quán)證、清算優(yōu)先權(quán)、轉(zhuǎn)換價(jià)格、普通股稀釋后股份數(shù)和行權(quán)價(jià)格。假設(shè)種子輪、A 輪和 B 輪均為同等權(quán)益的非參與性優(yōu)先股(即,這些輪次的投資者享有同等待遇;對(duì)借款人的資產(chǎn)擁有同等的索償權(quán))
在審查一份特別優(yōu)秀的成果時(shí),一位GDPval評(píng)委表示:
在輸出質(zhì)量上令人興奮且顯著的飛躍……[它]看起來(lái)像是由一家專業(yè)公司的員工完成的,兩份交付成果的布局設(shè)計(jì)和建議都出人意料地出色,盡管其中一份仍存在一些小錯(cuò)誤需要糾正。
要在ChatGPT中使用新的做表格和PPT能力,需要充值Plus、Pro、Business或 Enterprise套餐,選擇GPT-5.2 Thinking或Pro版本 。生成復(fù)雜的內(nèi)容可能需要幾分鐘時(shí)間。
代碼能力
GPT-5.2代碼能力同樣刷新紀(jì)錄,在SWE-bench Verified上,得分達(dá)到80%。
在SWE-Bench Pro這個(gè)更難的軟件工程評(píng)測(cè)上,GPT-5.2 Thinking拿下55.6%的新高。
這個(gè)評(píng)測(cè)不止測(cè)Python,還包括JavaScript、TypeScript和Go,更貼近真實(shí)工業(yè)場(chǎng)景。
早期測(cè)試者特別提到,GPT-5.2在前端開(kāi)發(fā)和復(fù)雜UI工作上明顯更強(qiáng),尤其是涉及3D元素的場(chǎng)景。

長(zhǎng)上下文
長(zhǎng)文檔處理是這次升級(jí)的重頭戲。
在OpenAI自制的大海撈針MRCRv2評(píng)測(cè)中,GPT-5.2 Thinking成為首個(gè)在256k 上下文長(zhǎng)的4針版(4-needle variant)上達(dá)到接近100%準(zhǔn)確率的模型。

不過(guò)8針版性能還是會(huì)隨上下文長(zhǎng)度明顯下降。

對(duì)于需要超越最大上下文窗口進(jìn)行思考的任務(wù),GPT-5.2 Thinking兼容簡(jiǎn)潔回復(fù)模式,能夠處理更多工具密集型、長(zhǎng)時(shí)間運(yùn)行的工作流。
視覺(jué)理解
視覺(jué)能力的提升同樣顯著。
在科學(xué)論文圖表理解上,GPT-5.2 Thinking的錯(cuò)誤率大約降低了一半。

更關(guān)鍵的是,它對(duì)圖像中元素的空間位置有了更強(qiáng)的把握。
在高分辨率圖形面屏幕截圖推理測(cè)試中,配合Python工具得分達(dá)到86.3%。

如果禁用Python工具得分會(huì)低很多,OpenAI建議在這樣的視覺(jué)任務(wù)中通通啟用工具。
工具調(diào)用
工具調(diào)用能力同樣達(dá)到新高度,在Tau2-bench Telecom多輪交互電話客服場(chǎng)景評(píng)測(cè)上,GPT-5.2 Thinking取得98.7%的成績(jī)。
Tau2-bench Retail零售場(chǎng)景也達(dá)到82%。

這些成績(jī)意味著更強(qiáng)大的端到端工作流程,例如解決客戶支持案例、從多個(gè)系統(tǒng)中提取數(shù)據(jù)、運(yùn)行分析以及生成最終輸出,且各步驟之間的故障更少。
科學(xué)能力
OpenAI一直希望AI能加速科學(xué)研究,這次他們相信GPT-5.2 Pro和GPT-5.2 Thinking是目前世界上最適合輔助科學(xué)家的模型。
在GPQA Diamond研究生水平的問(wèn)答評(píng)測(cè)上,GPT-5.2 Pro拿下93.2%,GPT-5.2 Thinking緊隨其后達(dá)到92.4%。

在專家級(jí)數(shù)學(xué)評(píng)測(cè)FrontierMath(Tier 1-3)上,GPT-5.2 Thinking以40.3%的解題率創(chuàng)下新紀(jì)錄。

官方還透露了一個(gè)實(shí)際案例:
研究人員使用GPT-5.2 Pro探索了統(tǒng)計(jì)學(xué)習(xí)理論中的一個(gè)開(kāi)放問(wèn)題,在一個(gè)狹窄、明確的設(shè)定下,模型提出了一個(gè)證明,隨后被作者驗(yàn)證并經(jīng)過(guò)同行評(píng)審。

事實(shí)準(zhǔn)確性方面,GPT-5.2 Thinking的幻覺(jué)問(wèn)題相比GPT-5.1從8.8%減少到6.2%。
不過(guò)OpenAI也提示模型仍不完美,關(guān)鍵內(nèi)容還是需要人工復(fù)核。

One More Thing
自從Meta瘋狂挖人以來(lái),OpenAI都很少在研究進(jìn)展文章后面附上貢獻(xiàn)者列表了,直接統(tǒng)一署名OpenAI了事。

不過(guò)從開(kāi)發(fā)者相互祝賀的推文中,還是可以挖出GPT-5.2的幾位核心團(tuán)隊(duì)成員:多為2024年之后加入OpenAI的新面孔,而且多是數(shù)學(xué)專業(yè)出身。
Yu Bai:北大數(shù)院校友、斯坦福統(tǒng)計(jì)學(xué)博士,2024年5月加入OpenAI。

Yaodong Yu:UC伯克利博士畢業(yè),2024年9月加入OpenAI。

Yufeng Zhang:本科中科大數(shù)學(xué)系、西北大學(xué)博士、字節(jié)前研究員,2024年底加入OpenAI

梅松:北大數(shù)院校友、斯坦福計(jì)算與數(shù)學(xué)工程博士、UC伯克利助理教授,2025年5月暫離學(xué)校加入OpenAI。

Ofir Nachum:MIT CS碩士畢業(yè),前谷歌大腦研究員,2023年加入OpenAI。

每當(dāng)外界覺(jué)得OpenAI進(jìn)展不及預(yù)期的時(shí)候,總有新的人才帶來(lái)新的驚喜。
參考鏈接:
[1]https://openai.com/zh-Hans-CN/index/introducing-gpt-5-2/




