o3來了!編程能力躋身人類全球前200,破解陶哲軒說難的數學測試,北大校友任泓宇現身直播間
“AGI重要里程碑”
夢晨 西風 發自 凹非寺
量子位 | 公眾號 QbitAI
OpenAI公布下一代模型,o1之后直接o3!
“雙12”直播活動最后一天,終于來了個大的,奧特曼本人也再次現身直播間。
o3相比o1最突出的成績,一是頂尖程序員競賽CodeForces分數超過2700,人類超過這個分數的目前只有不到200個。

二是在為AGI準備的測試ARC-AGI上分數從32%躍升到了75.7%、87.5%。
為什么有兩個成績呢?
因為o3有低思考程度和高思考程度兩種設置。

ARC-AGI是Keras之父Fran?ois Chollet發起的測試基準,典型題目為圖形邏輯推理。

另一項最難數學測試EpochAI Frontier Math,包含最新未公開前沿題目。
此前陶哲軒對這項測試的第一印象是“可能難住AI好幾年”。

o3比之前SOTA從2分提升到25分。
人類專業數學家解決其中一道題目也要花費數小時到數天,現在o3只需要思考幾分鐘。

這次還公布了o3-mini,支持低中高三種思考程度設置。
主要展示了代碼能力,低設置下o3-mini和o1-mini差不多,高設置已經超過了o1正式版。

參與o3-mini研究的北大校友任泓宇,現場展示了新模型的編程能力。

他使用了特殊版本的ChatGPT,稱為ChatGPT α。
任務如下:
寫一個Python腳本,在本地為一個帶有大文本框的HTML文件啟動服務器。當我在該框中輸入文本并按下提交時,它應該將該代碼請求發送到OpenAl o3-mini API ,使用medium reasoning_effort ,獲取生成的代碼,將其保存到桌面上的臨時文件中,然后在新的Python終端中執行該文件。還有一些細節:
可以在~/api_key中找到我的API密鑰
請在向API的請求中添加一些額外的提示,指定它只應返回沒有任何格式或Markdown的原始代碼
你將在Mac筆記本電腦環境運行
o3-mini的思考過程用了38秒,然后代碼秒出,一次運行成功。


這個演示可能不太直觀,但是看得沒去現場的另一位OpenAI研究員Aidan Clark直出汗。

總結一下,就是o3-mini用38秒給自己寫了一個UI,通過API調用“自己”。
后續演示中,任泓宇要求o3-mini在這個UI中編寫并執行一個腳本,來評估“它自己”在低思考程度下、在GPQA數據集上的表現。

腳本正確運行了評估,返回結果數值61.62%,與正式評估結果基本一致。

是不是有一點科幻的感覺了。

可惜吶~ o3和o3-mini目前都是早期預覽狀態,只給看不給玩。
安全研究者可以在OpenAI官網申請早期訪問權限。
北大校友、GPT-4o核心開發者現身直播間
這場直播中另外值得關注的,就是新出場的北大校友任泓宇了(最左邊)。
他去年剛加入OpenAI擔任研究科學家,主要負責語言模型訓練,是GPT-4o的核心開發者、GPT-Next項目組成員。

直播中最新透露,九月份的o1-mini他也有參與,證實了此前傳聞中o1-mini主要由三位華人負責(另兩位是Kevin Lu和Jiahui Yu)。
任泓宇博士畢業于斯坦福大學。加入OpenAI之前,他在Apple、Google、NVIDIA 和Microsoft均有大量研究實習經歷。

One More Thing
笑死,最后一天頂著圣誕帽的“青蛙”直接被擺到了最前面:

其實,之前每一場它們都在,不過是被擺在了后面的架子上,而且數量隨直播天數增加。
昨天是直播第11天,圣誕帽“青蛙”是醬嬸兒的:

你數出來有多少圣誕“青蛙”了嗎?
- 商湯分拆了一家AI醫療公司,半年融資10億,劍指“醫療世界模型”2025-12-02
- “豆包手機”在二手市場價格都翻倍了……2025-12-05
- OpenAI首席研究員Mark Chen長訪談:小扎親手端湯來公司挖人,氣得我們端著湯去了Meta2025-12-03
- 讓大模型學會“高維找茬”,中國聯通新研究解決長文本圖像檢索痛點|AAAI 2026 Oral2025-12-01




