GPT-5.2果然反超谷歌Gemini 3 Pro！北大數(shù)院校友核心貢獻(xiàn)

夢(mèng)晨 2025-12-12 14:39:11 來(lái)源：量子位

紅色警報(bào)解除了？

夢(mèng)晨發(fā)自凹非寺
量子位 | 公眾號(hào) QbitAI

紅色警報(bào)拉響，OpenAI是真急了：

30天，GPT-5.2系列緊接著GPT-5.1而來(lái)，這次還專門強(qiáng)化了打工能力。

這是GPT-5.1 Thinking和GPT-5.2 Thinking做人力資源表格的對(duì)比：

GPT-5.2果然反超谷歌Gemini 3 Pro！北大數(shù)院校友核心貢獻(xiàn)

雖然版本號(hào)只加了0.1，但是在多個(gè)實(shí)用領(lǐng)域都更強(qiáng)了：做表格、做PPT、寫(xiě)代碼、理解長(zhǎng)文檔、調(diào)用工具、處理復(fù)雜多步驟項(xiàng)目……

視覺(jué)理解能力也大幅提升，GPT-5.2能準(zhǔn)確標(biāo)記出更多主板上的元件。

這是GPT-5.2做的網(wǎng)頁(yè)版波浪模擬器：

如果你遇到航班延誤、又錯(cuò)過(guò)轉(zhuǎn)機(jī)、需要當(dāng)?shù)剡^(guò)夜以及需要特殊醫(yī)療座位，聽(tīng)起來(lái)就很頭疼。

但GPT-5.2安排好了一切：重新訂機(jī)票、安排特殊座位和賠償。

ARC-AGI也在第一時(shí)間發(fā)布了測(cè)試結(jié)果。

一年前的o3 (High) 在ARC-AGI-1測(cè)試中得分88%，平均每項(xiàng)任務(wù)成本為4500美元。

今天的GPT-5.2 Pro (X-High) ，最新SOTA得分為90.5%，平均任務(wù)成本僅為11.64美元，在一年內(nèi)效率提高了約390倍。

同時(shí)超過(guò)了谷歌Gemini 3 Pro的對(duì)應(yīng)版本（綠色點(diǎn)），也算扳回一局。

拆解GPT-5.2各項(xiàng)能力

高經(jīng)濟(jì)價(jià)值任務(wù)

在GDPval測(cè)試中，涵蓋美國(guó)GDP前九大產(chǎn)業(yè)中的44個(gè)職業(yè)領(lǐng)域，完成人類需要4-8小時(shí)才能完成的任務(wù)。

在人類評(píng)委打分下，GPT-5.2 Thinking與人類專家相比有71%的勝率，GPT-5.2 Pro還能更高一些。

而且速度是人類專家的11倍以上，成本不到人類專家的1%。

在投行分析師的電子表格建模任務(wù)上，GPT-5.2 Thinking平均每項(xiàng)任務(wù)得分相比GPT-5.1提升了9.3%，從59.1%上升到68.4%。這些任務(wù)包括為財(cái)富500強(qiáng)公司搭建三表聯(lián)動(dòng)模型、構(gòu)建杠桿收購(gòu)模型等。

提示：您是一名投資銀行分析師，剛剛接到一項(xiàng)任務(wù)，需要完成一份瀑布式分析，以了解創(chuàng)始人及現(xiàn)有投資者的所有權(quán)和回報(bào)情況。您的客戶是一家正在考慮 C 輪融資的初創(chuàng)公司。

請(qǐng)查收附件中的模板，您需要對(duì)其進(jìn)行修改。我在 G 列中添加了必要的假設(shè)。C 列的名稱在普通股部分重復(fù)出現(xiàn)，以便于索引。假設(shè)包括退出時(shí)的股權(quán)、系列投資金額、基金所有權(quán)、認(rèn)股權(quán)證、清算優(yōu)先權(quán)、轉(zhuǎn)換價(jià)格、普通股稀釋后股份數(shù)和行權(quán)價(jià)格。假設(shè)種子輪、A 輪和 B 輪均為同等權(quán)益的非參與性優(yōu)先股（即，這些輪次的投資者享有同等待遇；對(duì)借款人的資產(chǎn)擁有同等的索償權(quán)）

在審查一份特別優(yōu)秀的成果時(shí)，一位GDPval評(píng)委表示：

在輸出質(zhì)量上令人興奮且顯著的飛躍……[它]看起來(lái)像是由一家專業(yè)公司的員工完成的，兩份交付成果的布局設(shè)計(jì)和建議都出人意料地出色，盡管其中一份仍存在一些小錯(cuò)誤需要糾正。

要在ChatGPT中使用新的做表格和PPT能力，需要充值Plus、Pro、Business或 Enterprise套餐，選擇GPT-5.2 Thinking或Pro版本。生成復(fù)雜的內(nèi)容可能需要幾分鐘時(shí)間。

代碼能力

GPT-5.2代碼能力同樣刷新紀(jì)錄，在SWE-bench Verified上，得分達(dá)到80%。

在SWE-Bench Pro這個(gè)更難的軟件工程評(píng)測(cè)上，GPT-5.2 Thinking拿下55.6%的新高。

這個(gè)評(píng)測(cè)不止測(cè)Python，還包括JavaScript、TypeScript和Go，更貼近真實(shí)工業(yè)場(chǎng)景。

早期測(cè)試者特別提到，GPT-5.2在前端開(kāi)發(fā)和復(fù)雜UI工作上明顯更強(qiáng)，尤其是涉及3D元素的場(chǎng)景。

長(zhǎng)上下文

長(zhǎng)文檔處理是這次升級(jí)的重頭戲。

在OpenAI自制的大海撈針MRCRv2評(píng)測(cè)中，GPT-5.2 Thinking成為首個(gè)在256k 上下文長(zhǎng)的4針版（4-needle variant）上達(dá)到接近100%準(zhǔn)確率的模型。

不過(guò)8針版性能還是會(huì)隨上下文長(zhǎng)度明顯下降。

對(duì)于需要超越最大上下文窗口進(jìn)行思考的任務(wù)，GPT-5.2 Thinking兼容簡(jiǎn)潔回復(fù)模式，能夠處理更多工具密集型、長(zhǎng)時(shí)間運(yùn)行的工作流。

視覺(jué)理解

視覺(jué)能力的提升同樣顯著。

在科學(xué)論文圖表理解上，GPT-5.2 Thinking的錯(cuò)誤率大約降低了一半。

更關(guān)鍵的是，它對(duì)圖像中元素的空間位置有了更強(qiáng)的把握。

在高分辨率圖形面屏幕截圖推理測(cè)試中，配合Python工具得分達(dá)到86.3%。

如果禁用Python工具得分會(huì)低很多，OpenAI建議在這樣的視覺(jué)任務(wù)中通通啟用工具。

工具調(diào)用

工具調(diào)用能力同樣達(dá)到新高度，在Tau2-bench Telecom多輪交互電話客服場(chǎng)景評(píng)測(cè)上，GPT-5.2 Thinking取得98.7%的成績(jī)。

Tau2-bench Retail零售場(chǎng)景也達(dá)到82%。

這些成績(jī)意味著更強(qiáng)大的端到端工作流程，例如解決客戶支持案例、從多個(gè)系統(tǒng)中提取數(shù)據(jù)、運(yùn)行分析以及生成最終輸出，且各步驟之間的故障更少。

科學(xué)能力

OpenAI一直希望AI能加速科學(xué)研究，這次他們相信GPT-5.2 Pro和GPT-5.2 Thinking是目前世界上最適合輔助科學(xué)家的模型。

在GPQA Diamond研究生水平的問(wèn)答評(píng)測(cè)上，GPT-5.2 Pro拿下93.2%，GPT-5.2 Thinking緊隨其后達(dá)到92.4%。

在專家級(jí)數(shù)學(xué)評(píng)測(cè)FrontierMath（Tier 1-3）上，GPT-5.2 Thinking以40.3%的解題率創(chuàng)下新紀(jì)錄。

官方還透露了一個(gè)實(shí)際案例：

研究人員使用GPT-5.2 Pro探索了統(tǒng)計(jì)學(xué)習(xí)理論中的一個(gè)開(kāi)放問(wèn)題，在一個(gè)狹窄、明確的設(shè)定下，模型提出了一個(gè)證明，隨后被作者驗(yàn)證并經(jīng)過(guò)同行評(píng)審。

事實(shí)準(zhǔn)確性方面，GPT-5.2 Thinking的幻覺(jué)問(wèn)題相比GPT-5.1從8.8%減少到6.2%。

不過(guò)OpenAI也提示模型仍不完美，關(guān)鍵內(nèi)容還是需要人工復(fù)核。

One More Thing

自從Meta瘋狂挖人以來(lái)，OpenAI都很少在研究進(jìn)展文章后面附上貢獻(xiàn)者列表了，直接統(tǒng)一署名OpenAI了事。

不過(guò)從開(kāi)發(fā)者相互祝賀的推文中，還是可以挖出GPT-5.2的幾位核心團(tuán)隊(duì)成員：多為2024年之后加入OpenAI的新面孔，而且多是數(shù)學(xué)專業(yè)出身。

Yu Bai：北大數(shù)院校友、斯坦福統(tǒng)計(jì)學(xué)博士，2024年5月加入OpenAI。

Yaodong Yu：UC伯克利博士畢業(yè)，2024年9月加入OpenAI。

Yufeng Zhang：本科中科大數(shù)學(xué)系、西北大學(xué)博士、字節(jié)前研究員，2024年底加入OpenAI

梅松：北大數(shù)院校友、斯坦福計(jì)算與數(shù)學(xué)工程博士、UC伯克利助理教授，2025年5月暫離學(xué)校加入OpenAI。

Ofir Nachum：MIT CS碩士畢業(yè)，前谷歌大腦研究員，2023年加入OpenAI。

每當(dāng)外界覺(jué)得OpenAI進(jìn)展不及預(yù)期的時(shí)候，總有新的人才帶來(lái)新的驚喜。

參考鏈接：
[1]https://openai.com/zh-Hans-CN/index/introducing-gpt-5-2/

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

夢(mèng)晨

GPT-5.2果然反超谷歌Gemini 3 Pro！北大數(shù)院校友核心貢獻(xiàn)

拆解GPT-5.2各項(xiàng)能力

高經(jīng)濟(jì)價(jià)值任務(wù)

代碼能力

長(zhǎng)上下文

視覺(jué)理解

工具調(diào)用

科學(xué)能力

One More Thing

相關(guān)閱讀

ChatGPT開(kāi)學(xué)大禮包：官方教師使用指南正式上線

OpenAI被曝幫蘋果Siri換腦，微軟急了：CEO約談奧特曼

o1滿血版最鮮測(cè)！這￥1500花得值嗎？

馬斯克怒斥蘋果接入ChatGPT：真敢集成就在全公司禁用

OpenAI強(qiáng)硬回?fù)赳R斯克竊密訴訟！xAI被指惡意人肉離職員工

OpenAI奧特曼：能被ChatGPT消滅的工作不是真正的工作

熱門文章

“豆包手機(jī)”在二手市場(chǎng)價(jià)格都翻倍了……

英偉達(dá)巧用8B模型秒掉GPT-5，開(kāi)源了

谷歌新架構(gòu)突破Transformer超長(zhǎng)上下文瓶頸！Hinton靈魂拷問(wèn)：后悔Open嗎？

SpaceX估值8000億美元超OpenAI，IPO就在明年

Ilya剛預(yù)言完，世界首個(gè)原生多模態(tài)架構(gòu)NEO就來(lái)了：視覺(jué)和語(yǔ)言徹底被焊死