奧特曼:點名表揚兩個波蘭人,OpenAI還沒遇到過他們解決不了的問題
“OpenAI還沒有遇到過他們無法解決的問題”
夢晨 發自 凹非寺
量子位 | 公眾號 QbitAI
奧特曼點名表揚了兩個波蘭人。
沒有他們,OpenAI就不是今天的樣子。

他們是OpenAI首席科學家Jakub Pachocki以及頭銜為“Technical Fellow”的Szymon Sidor。

△左:Jakub Pachocki,右:Szymon Sidor
兩人不僅是波蘭老鄉,而且是高中同學,讀博時分別選擇了計算機科學和機器人,后來又在OpenAI重聚。
在ChatGPT風靡全球、每天服務數億用戶的今天,奧特曼感慨大多數人永遠不會想到背后那些付出心血的人,這兩位波蘭科學家,正是其中的關鍵角色。
他們在OpenAI的貢獻從Dota項目大規模擴展了強化學習,到領導了GPT-4的預訓練,還與 Ilya和Lukasz共同推動了導致推理突破的最初想法。
當然,奧特曼對他們如此高評價或許還有另一個原因:
在2023年OpenAI內亂事件中,他倆也是帶頭站出來宣布辭職,要追隨奧特曼離開的。
從高中同窗到OpenAI重聚
故事還要從波蘭的一所學校說起,格丁尼亞第三高中。
在那里兩人跟隨同一位老師學習計算機,接受的教育深度遠超普通高中課程,涉及圖論等內容。
兩人第一次相遇是在編程夏令營,每年他們要在夏令營做兩個月高強度訓練。
不過后來他們回憶,兩人在高中時關系還沒那么好,只算學業上的同伴。離開高中后一同在美國闖蕩,才讓他們建立深厚友誼。

先說Pachocki(以下簡稱帕哥)這邊。
15歲的時候,他像很多少年一樣還不確定自己未來想做什么。
父親給了他一本書,是YC聯合創始人保羅·格雷厄姆散文集《黑客與畫家》的波蘭語譯本。
給帕哥觸動最深的是書中這樣的描寫:黑客和畫家的共同點在于,他們都是創造者。
與作曲家、建筑師和作家一樣,黑客和畫家努力做的是創造美好的事物。他們本質上并非在進行研究,但如果在嘗試創造美好事物的過程中發現了一些新技術,那就更好了。

帕哥很幸運,不僅發現自己對計算機有興趣,不久后還發現自己在這方面是真的有天賦:高中時期拿過國際信息學奧林匹克競賽IOI的銀牌。

話說回來,奧特曼本曼的職業道路也是受到格雷厄姆影響很深,不過是創投事業的那一面。
在8月份的OpenAI播客節目中,帕哥表示現在想想整件事還挺好笑的,當時真的沒有把這些聯系起來。
高中畢業后,帕哥來到波蘭華沙大學讀計算機專業,在本科期間又拿過許多競賽獎項。
2012年ICM-ICPC的金牌和Google Code Jam,至今仍然能搜到他在ICPC的獲獎感言片段。

△中:Jakub Pachocki
本科畢業后他來到卡耐基梅隆大學攻讀計算機科學博士學位。
對于AI,他原以為真正能做到推理的AI需要很長時間才能開發出來,需要更大的計算機和非常扎實的數學基礎。

但2016年的AlphaGo改變了一切。
圍棋的搜索空間太大了,我們的算法根本無法應對。但他們用深度學習解決了這個問題,這迫使我重新思考。
畢業后帕哥先在哈佛大學做了一年博士后之后,2017年2月就加入了OpenAI。

再來看Sidor(以下簡稱西哥)這邊,讓他堅定研究強化學習的也是AplphaGo,不過青少年時期給他啟發最大的是《鋼鐵俠》電影。
高中畢業后,他本科先去的英國讀劍橋大學,博士就讀于MIT。
但不是他主動選擇了MIT,而是他當時申請了很多美國學校,只有MIT沒有拒絕他,因為MIT不考英語,而他的英語很差(允悲)。
一開始他選擇的是機器人專業,不過很快他就對現實中的機器人并沒有電影里那么炫酷感到失望了,轉而學習深度學習和強化學習。

最終畢業時他的論文課題是“自然語言處理中多階段推理的強化學習方法”,這個題目拿到現在當成最新的大模型研究題目都沒問題。
只不過當時西哥的研究對象是LSTM模型、Deep Q-learning強化學習算法,多階段推理任務指的是句子打亂重排序問題。

博士畢業后,他受AlphaGo影響,先申請的DeepMind崗位,不過面試時被問到很多理論機器學習問題,他一個都不會就掛掉了。
盡管當時OpenAI還是個名不見經傳的小公司,但看起來對做強化學習這件事很認真,西哥就加入了。
2017年,兩個波蘭人在OpenAI重聚。
加入OpenAI后不久,兩人投入到Dota 2項目中,目標是讓AI在復雜的電子競技游戲中擊敗人類職業選手。

△Dota項目早期訪談,右:Szymon SIdor
他們原本想通過這個項目找到強化學習的極限在哪里,到什么程度會失效,結果卻大獲成功,擊敗人類職業選手隊伍創造了歷史。
代價是兩人都失去了發際線。

在這個項目中,帕哥專注于大規模強化學習與優化,而西哥參與開發了分布式訓練系統和持續訓練工具。
兩人的合作模式在這個項目中逐漸成型。
帕哥會在辦公室或公寓里走來走去,深入思考應該如何研究一個現象。而西哥更傾向于直接開干,先整出一些數據再說。
這種一個深度思考、一個動手實驗的組合,成為他們的制勝法寶。
到了GPT-4的開發階段,帕哥已經成為項目的領導者。奧特曼曾公開表示:”如果沒有他的貢獻,我們無法取得今天的成就。”

西哥的角色非常靈活,他將自己定位為“獨立貢獻者”,只是偶爾承擔領導職責,核心是去做最有價值的事。
危機時刻見真章
2023年11月的OpenAI內亂危機,讓這對搭檔的分量徹底顯現出來。
11月17日中午,正在吃午飯的兩人收到了奧特曼被解職的消息。
西哥回憶到,當時他正在走廊里思考問題,收到消息馬上去找帕哥。帕哥正在與別人討論一個一個很深入問題。西哥很粗魯地打斷了他們,給他們看公告內容。
帕哥的反應非常果斷,立即走出大樓給奧特曼打電話詢問到底發生了什么,電話那頭的奧特曼同樣困惑。
后來兩人步調一致,與Aleksander Madry一起率先宣布辭職,要追隨奧特曼一起加入微軟,也正是他們堅定的支持成為促使Altman回歸的關鍵因素之一。

這次危機給兩人帶來了深刻的教訓。帕哥感慨:
直到那一刻,我才真正意識到治理結構有多重要。我們建設了近十年的東西,突然間就可能面臨劇變。
對此西哥也有同感,“當初設立這些治理結構時,感覺像是殺雞用牛刀”,而現在他得到的教訓是“在公司早期做出的決策,即使當時看起來微不足道,也可能在未來產生深遠影響”。
后來事情暫告一段落之后,帕哥正式接棒Ilya成為首席科學家,主要職責是為公司制定研究路線圖,并確立長期的技術愿景。

他認為深度學習盡管基于數學,但更像是一門自然科學,研究者需要通過實驗去理解其內在現象。
他未來的目標是構建能夠進行自主科學研究的AI系統,認為這種系統將在不遠的將來成為”持久的實體”,并有望解決AI對齊等行業難題。
西哥繼續保持著獨立貢獻者的角色,他的社交媒體簽名是“一行一行代碼地構建AGI”。

對他倆的搭檔關系,奧特曼有感而發:
我聽說過一些兩個人能夠完美互補的合作關系,但能夠見證這種合作關系多年來的演變,真的非常特別。

而奧特曼給他們的最新評價是:OpenAI還沒有遇到過他們無法解決的問題。
這里面或許既指研究上的問題,也暗含管理上的問題。
參考鏈接:
[1]https://blog.samaltman.com/jakub-and-szymon
[2]https://www.youtube.com/watch?v=yBzStBK6Z8c
[3]https://www.youtube.com/watch?v=LauSf7HoxwM
- 英偉達自毀CUDA門檻!15行Python寫GPU內核,性能匹敵200行C++2025-12-08
- GPT-5-Thinking新訓練方法公開:讓AI學會懺悔2025-12-04
- GPT5.5代號“蒜你狠”曝光!OpenAI拉響紅色警報加班趕制新模型,最快下周就發2025-12-03
- 華爾街尬捧TPU學術界懵了:何愷明5年前就是TPU編程高手,多新鮮2025-11-30



