OpenAI首席研究員Mark Chen長訪談:小扎親手端湯來公司挖人,氣得我們端著湯去了Meta
爆這么多猛料,老板奧特曼知道嗎?
西風 發自 凹非寺
量子位 | 公眾號 QbitAI
救大命,OpenAI首席研究官Mark Chen最新訪談,信息量有點大呀。
不管是OpenAI的,還是自己個兒的,又或者是同事的,主打一個“我都能聊聊”。

比如:
- 爆料Meta搶人大戰私下已經升級成送湯大戰了,真能喝的那種湯,小扎熬了親自送到OpenAI研究員嘴邊。OpenAI反擊也送湯。
- Mark Chen、Scott Gray(OpenAI專門負責GPU內核優化的神秘狠人)等經常三五圍坐,打撲克牌。其本質被解釋為是概率與期望值的博弈。
- OpenAI核心研究團隊規模大概500人,公司內大概有300個項目。
- Mark Chen表示OpenAI本質上仍然是一家純AI研究公司。
- Gemini 3發布后每個人都會用自己的方式去試探新模型,有個“42問題”從沒見過哪個語言模型能真正把它完全做出來。
- OpenAI“宮斗”,Mark Chen如何讓研究員們統一意見、促成那封讓Sam回歸的請愿信也被聊了出來。
- 透露過去半年,一直專注在預訓練上,在預訓練方面,有信心輕松與Gemini 3正面對決。
- 表示內部已經有性能達到Gemini 3的模型,很快就會發布這些模型,并且能發布表現更好的下一代模型。
- 當被問到“你們真的需要那么多算力嗎”會覺得很震驚:如果今天多10倍算力,可能幾周內就能全部用滿。
……
網友紛紛表示,這次訪談確實讓人耳目一新,還有不少人在轉發Mark Chen的觀點。

Mark Chen之所以能夠言無不盡,一大關鍵還在于,本期訪談來自于《Core Memory》,其主持人Ashlee?Vance是硅谷知名的科技記者,以深入采訪硅谷人物和講述科技創新故事而聞名,更知名的是他那本《硅谷鋼鐵俠:埃隆·馬斯克,創造未來的人》。

量子位對完整訪談進行了翻譯整理,在不改變原意的前提下,對語言做了適當潤色。
完整訪談整理
人才爭奪戰演變成給人才送湯戰
Q:關于人才爭奪戰,Meta的行為看起來很激進,這種針鋒相對的競爭,目前已進入哪個階段?
Mark Chen:其實就這么一批人才,大家基本都知道他們是誰。很多公司已經意識到,要打造一個優秀的AI實驗室,其中一個關鍵因素就是要招到最優秀的人才。所以,Meta這么積極采用這種策略,也不奇怪。
我們當然也沒有坐以待斃,我其實想從OpenAI的角度講講這個故事。媒體上把這件事渲染得好像所有人才都單向流向Meta。
但就我看到的情況,Meta去挖了很多人,但多數并不成功。他們從OpenAI去挖了我大概一半的直接下屬,但他們全部都拒絕了。當然,如果你一年有100億美元的預算用來挖人,那你肯定會挖到一些人。
所以我其實覺得,我們在保護核心人才方面做得相當不錯。而且看著這件事情不斷升級,其實還挺有趣的。
比如扎克伯格真的親自給他想挖的人送湯,我覺得他是親手煮的湯。當時我很震驚,但后來我也意識到,這些方式以某種奇怪的方式,其實是有效的。所以我后來也給我們想從Meta挖的人送過湯。

Q:你們現在是在比誰送湯?
Mark Chen:我還想過,下次團隊團建我打算帶大家去上烹飪課。不過我確實學到了一些關于招聘的事情。
Q:你自己煮湯了嗎?
Mark Chen:呃,其實最好還是買米其林級別的湯,你懂吧?
但我確實在這件事上學到了不少,比如怎樣更積極地爭取頂尖人才。讓我很受啟發的一點是,在OpenAI,即使是那些最后去了Meta的人,我也從來沒聽誰說“AGI會先由Meta做出來”。大家都對OpenAI的研究路線非常有信心。而我明確告訴團隊,我們不會跟Meta追逐報價對標。在Meta的報價倍數遠高于我們的情況下,人們仍然愿意留在OpenAI,這讓我非常有信心。他們真的相信這里的未來,相信我們能做成。
Q:你和Alex呢?他以前擅長數學競賽,你們肯定一起玩過。
Mark Chen:我們以前確實一起玩過幾次,但現在不怎么聯系了。
Q:為什么湯會變成主流?
Mark Chen:我也不知道。湯、花,或者你能想到的任何東西都出現過。但我覺得人生就是冒險嘛,我也樂得順勢玩玩這個梗。

△圖片由AI生成
Q:那你在想策略的時候,會用到什么撲克心法嗎?
Mark Chen:我覺得這又回到媒體敘事的問題。目標不是留住組織里“每一個人”,而是相信我們的人才培養體系,并弄清楚我們必須留下的是哪一類關鍵人物,然后確保他們留下。而在這一點上,我們做得非常出色。
Q:Sam一直非常喜歡研究,他是老板是最頂層的那個人。而你和Jakub Pachocki(OpenAl的首席科學家)則一起塑造OpenAI的研究方向,然后還能決定哪些項目能獲得多少算力。所以你等于既要規劃OpenAI的前進方向,也要負責執行層面,比如到底怎么把那些算力投入項目中。
而這在我看來完全是個“噩夢級別”的工作,因為我腦補大家為了從你那里弄到GPU會用盡各種手段。
Mark Chen:人們在想辦法搞到GPU時會非常有創造力,各種后門交易的點子都會出現。但你說得對,這確實是工作中的一個關鍵部分:確定研究組織的優先級,并為執行負責。
關于第一點,其實Jakub和我有一個流程,大概每1–2個月會整體梳理OpenAI所有在進行的項目,這是一張巨大的表格,大約有300個項目。我們盡可能深入地理解每一個項目,并給它們排優先級。
對于一家500人規模的公司來說,讓大家理解組織的核心優先事項非常重要。這些優先級不僅通過口頭明確傳達,也通過我們如何分配算力來傳達。
Q:你提到500名研究人員,也就是這個現在擁有數千名員工的組織中最核心的研究團隊,對吧?
Mark Chen:對。
Q:你說有300個項目,我想象其中肯定有一些是巨大的前沿模型,也有一些是研究人員正在做的小型實驗。那你們到底如何跟蹤所有這些項目,并得出哪些項目應該分到GPU、哪些不應該?
Mark Chen:在做這類優先級梳理的時候,保持核心路線是很重要的。我認為OpenAI與其他大型實驗室最大的不同之一,就是OpenAI從一開始就把探索性研究作為核心。
我們并不是那種去復現別的實驗室成果、去追趕別人benchmark的公司,那不是我們的核心能力。我們一直在嘗試找出下一種范式是什么,并愿意投入資源確保我們真的能找到它。
可能很多人會對此感到驚訝。事實上,我們在“探索下一代范式”上投入的算力,比訓練最終產物本身還要多。
Q:但問題是,你們如何避免被個人的推銷說服?因為每個人都會覺得自己的項目非常重要。當我想到這個,我就會想起《紐約時報》每天都有頭版頭條,每個人都想上頭版,每個人都覺得自己的故事是最重要的,每個人都竭盡全力告訴你為什么這件事重要。他們都花了數周甚至數月做出那個成果,所以對他們來說這就是生死攸關。
Mark Chen:你必須做的最艱難的決定之一就是:這個項目,我們現在就是沒法給它資源。
但我也認為,這是好的領導力。你必須清晰溝通,這些是我們真正的優先事項,這些是我們要推進的內容,這些是我們認為能推動研究方向的重要結果。其他事可以做,但它們必須明確是第二優先級。
回應谷歌Gemini 3
Q:你提到不要被競爭對手牽著走。你認為其他公司有時候很被動,而你們過去處在領先位置,制定了行業標準,所以他們才需要對你們的成果做出反應。
剛好前幾天Gemini 3發布,在這種競爭回合中,你們的對手有時顯然會根據你們來行動。我知道benchmark的價值常被爭論,但大家確實會比這些。那你們如何在這種環境下,保持那種“我們只做我們認為正確的事”的心態呢?
Mark Chen:
我認為如今的AI研究環境比以往任何時候都更加競爭激烈。但關鍵是不要被競爭動態困住。因為你永遠可以說:“我們發布一個小更新,就能領先競爭對手幾周或幾個月。”
但那不是一種長期可持續的研究方式。如果你能突破下一代范式,那重要性完全不在一個數量級,你將決定整個領域的演化,你會理解圍繞這一思想領域所有的旁支方向。
以我們在“思考(Reasoning)”方向的研究為例,在兩年多前,我們就押注我們會在語言模型的思考能力上取得突破。當時這個押注非常不受歡迎。
現在看起來顯而易見,但那時的氛圍是:預訓練非常有效,后訓練(post-training,包括RLHF等)也非常有效,為什么還要投資源做其他東西?
而今天你問任何人,他們都會說語言模型的思考能力是不可或缺的。所以,我們承擔的是大膽的押注,去探索如何擴展,如何構建能在未來成百上千倍算力下仍能工作的算法。
Q:隨著公司發展,這顯然變得更難了。你們一開始是一個幾乎純研究的組織,但今天的OpenAI有產品線,有些部門看起來更像成熟的微軟或谷歌。通常來說,隨著時間推移,公司會逐漸變成更關注能帶來營收的部分,而非花大量錢做研究,研究經費往往會不斷被擠壓。
Mark Chen:我認為這正是OpenAI最特別的地方之一。我們本質上仍然是一家純AI研究公司。你很難再找到另一家真正能這么說的公司。我們最初成立時是非營利組織,我加入時也是那個時代。
當時的精神是,為了推動AGI研究,可以不惜一切代價,當然要以安全方式推進。
而我確實認為,這反而是創造價值的最佳方式。如果你贏得了研究,價值創造是順帶發生的。我覺得真正的陷阱是迷失在那些“讓我們提升利潤率吧”的目標里。因為如果你的研究做到最好,其實那部分價值非常容易實現。
Q:你是2018年加入的。那么你覺得,那種“靈魂”、那種核心文化與核心使命……
Mark?Chen:是的,那個核心文化和核心,確實持續存在。
Q:埃隆怎么說?他說我們不應該叫你們研究員?這只是工程師,對吧?
Mark Chen:我覺得這話有它的道理,因為一旦你設置了一個“層級”,比如把研究科學置于工程之外的部分,那你在某種意義上就已經輸了。
因為在構建大型模型時,真正重要的是,你能否在實踐中不斷優化那些1%的細節,如何讓kernel快一點?如何確保數值計算足夠穩定?這些都是深度工程能力。
如果你沒有這些東西,就根本無法把訓練規模擴大到我們今天使用的GPU數量。
Q:但我想說的是,研究員和工程師之間確實有種神秘感上的差別。你覺得保持一種“平視心態”比較好,是這個意思嗎?
Mark Chen:我覺得研究員的類型其實非常多樣。我們最優秀的一些研究員,他們的特點是,能提出無數種想法。其中大部分不行,但就在你開始懷疑“這個人真的值得嗎”的時候,他們突然又冒出一個驚為天人的點子。
還有一些研究員非常擅長沿著明確的路徑執行,把事情做到極致。所以研究員的類型太多了,根本很難把他們塞進一個刻板的類別里。
Q:Gemini 3剛發布不久,我很好奇,當一個競爭對手發布新模型時,你個人,或者你們團隊,會怎樣反應?是大家都會去看它能做什么嗎?你們會不會有一些常用的prompt、常用的問題,去試探這些新模型有什么能力?
Mark Chen:關于Gemini 3,具體來說,它是個不錯的模型。我們會做的一件事是建立內部共識。
因為benchmark其實只能告訴你有限的信息。就benchmark數據本身來看,我們其實相當有信心:我們內部已經有性能達到Gemini 3的模型,而且我們相當確定很快就會發布這些模型,并且能發布表現更好的下一代模型。
但再次強調,benchmark只揭示了一部分內容。每個人都會用自己的方式去“試探”新模型。我有一個自己常用的題,到目前為止,沒有哪個模型真正解決過,甚至是所謂的“thinking models”也沒完全做出來。所以我還在等。
Q:這是個秘密數學問題嗎?
Mark Chen:不是,不過……如果我在這里公開講了,它可能以后就被訓練進去(笑)。
這是過去一年我很喜歡的一個謎題,叫作“42問題”:核心是借助若干個模數為小于42的素數的隨機數生成器,用最少的調用次數搭建出模數為42的隨機數生成器(RNG)。
這題很可愛。語言模型總是能接近最優解,但我還沒見過哪個真正把它完全做出來。
Q:這實際上引出了我接下來本來就想問的問題。但在此之前,我知道你很有競爭心,你也跟我說過一句我記得很清楚的話“我熱愛競爭,但我極度討厭輸”,所以如果我們知道Gemini 3會在周四發布,你會不會在凌晨12點就把那道題丟給它?還是沒有那么夸張?

Mark Chen:不會啦,我認為這是一個長周期的事情。
我是那種會有階段性執念的人,但任何事業你都得用長期博弈的心態去做。例如過去半年,我們一直專注在預訓練(pre-training)上。這是我和Jakub一起推動的方向,打造預訓練的核心能力、組建頂尖團隊、確保預訓練所有關鍵都得到足夠重視。而正是這些投入,讓我們今天能產出這樣的模型,在預訓練方面,我們就有信心輕松與Gemini 3正面對決。
大學室友帶入坑編程
Q:我對你剛才說的那個謎題感興趣,是因為我第一次見Jakub是在OpenAI創立之前,那時他在參加編程競賽。我也有一段時間超迷編程比賽。我去看過一次,當時Facebook每年都會搞一個Hacker Cup,那是我第一次見到Jakub。
我知道你高中也參加數學競賽,甚至是從小學一路參加到高中,你是不是也參加IOI(國際信息學奧林匹克競賽)?
Mark Chen:我很晚才開始寫代碼,是大學室友帶我入坑的。
當時我還是一個滿懷自負的數學人,覺得數學才是最純粹、最困難的科學,真正的能力需要在數學中證明。回頭看,那時候我可能太沉浸在競爭里了。
但編程后來變成一件非常令人有成就感的事情。開始它只是一個讓我能繼續和大學朋友保持聯系的方式,畢業之后,我們每個周末都會一起上線做比賽。
漸漸地,我發現自己挺有天賦。后來我開始在比賽中拿不錯的成績,然后開始給比賽出題,比如給USA Coding Olympiad出題。最終我也開始擔任教練,這是一個很棒的社區,我也在里面遇到了很多像Scott這樣的人。
Q:你當時是在MIT?
Mark Chen:不是,我是畢業之后參加的。
最近比賽還有一個讓我特別有感的地方,當我們把現代語言模型投入這些比賽題目時,它們的表現非常強。而且它們的思維方式跟人類完全不同。
我們一直以為AI擅長模式識別,如果新題能映射到舊題,它就能解。但我注意到,有些題目非常臨時、技巧性、零散,這讓我意識到AI+人類在前沿研究中會出現奇跡,因為AI對“什么是簡單/困難”的直覺與人類不一樣。我以為模型絕對做不出來的,結果它們覺得這些題反而比較簡單。
Q:是類似AlphaGo那種“人類從沒見過的打法”的感覺嗎?
Mark Chen:我覺得是的。
GPT-5 Pro出來之后,我真正感覺到前沿科研出現了一個拐點。
一個最好的例子是,發布后三天,我見了一個物理學家朋友,他之前玩過模型,覺得它們可愛但沒啥用,我讓他用Pro模型更大膽地試,他把自己最新論文丟進去,模型想了30分鐘,然后就把答案給出來了。他的反應讓我想到,李世石看到AlphaGo第37/38手時的表情。我覺得這種場面在數學、科學、生物、材料科學中只會越來越常見,模型真的已經到這個程度了。
Q:我知道這個問題不新鮮——從深藍、到AlphaGo,人們一直在問,當AI開始解決那些被人類視為“巔峰智力成就”的問題時,會不會讓人感到某種悲傷?
Mark Chen:嗯,有,也沒有。我編程水平不錯,但不屬于最頂尖的那一批,所以對我來說……或許這算是“復仇”。

但認真說,我確實經歷過一種“時刻”。在我們開發思考模型期間,我們持續監控模型在競賽題的表現。
一開始,它們表現并不好,大概就普通參賽者水平。但隨著時間推移,它們的能力不斷提升,直到有一天,我走進會議室,看到模型的評分曲線越過了我自己的最高水平。那一刻我真的震驚,“哇,我們到了這種程度,這么快?”Jakub當時還稍稍得意,但也就過了一兩個月,模型也超過了他。
今天,模型已經穩穩站在前沿了。你能從我們今年夏天在Coder比賽上的成績看出來那是世界頂級算法競賽,模型拿了第二名。它在一年內從世界第100名,跳到了世界前5。
Q:那十年后,我們還會辦這種競賽嗎?
Mark Chen:我覺得會。它們很好玩。盡管有些人做這些比賽是為了寫簡歷,但真正熱愛它的人,是因為它本身有趣,這種樂趣不會消失。
Q:在我寫報道時,有人告訴我,一些國家,IOI拿牌基本等于“隨便挑大學,免費入學”。
Mark Chen:你不覺得面試這些傳統方式,很快也會被模型徹底打破嗎?大學考試、作業,也基本全被打破了。我們確實需要新的方式來評估一個人,他學到了什么?他的實際能力在哪?
我其實一直有個想法,也許我們以后的面試,可以直接讓候選人去跟ChatGPT對話。不過是一個“特殊版本”的ChatGPT,這個模型的任務不是回答問題,而是判斷你是不是真的懂相關內容、你的能力水平有沒有達到在OpenAI工作的標準。你要通過和它的對話,說服它你是一個適合OpenAI的人。當然,你不能“越獄”它,然后我們再去看這段對話的記錄。也許未來這種測試方式,會更準確地反映一個人到底懂不懂。
Q:我覺得你的背景很有趣,你從小接觸過多個創新中心,尤其是你父母又在Bell Labs。后來你去了MIT,對吧。
Mark Chen:哦天哪,2012那一屆真是太強了。
Q:有沒有那種“全明星名單”?
Mark Chen:比如Jacob Steinhardt,現在在做Transluce公司,我們當時還一起上計算機課、一起做項目。還有Paul Christiano,他也在OpenAI工作過。剛才說到競技編程那一掛,還有像Scott Wu,現在在Cognition,他現在在X上簡直成了“數學梗王”。
Q:現在我看到你們這群人的“競技一面”,已經主要轉移到撲克上了。之前我們在一個活動上深夜我路過一張桌子,看到你、Scott以及其他幾個人,圍在桌邊打撲克,我不知道對你們來說算不算緊張,但對我來說氣氛挺嚴肅的。所以你們現在是把數學和競爭都用在撲克上了嗎?
Mark Chen:
撲克是個非常有趣的游戲。我之前說過,我的人生就是一系列“階段性癡迷”。撲克曾經就是我其中一個超級癡迷的階段。對我來說,撲克的重大啟發是,它本質上遠非一場讀心和詐唬的博弈,而是一場數學游戲。
你對撲克了解得越多,越會往這個方向修正自己的認知:它本質上是概率與期望值的博弈。當你從數學角度判斷出詐唬是正確選擇時,做這件事就變得易如反掌了,你不會緊張,因為你知道這是對的。
而且很有意思的是,撲克在大眾印象中非常“人類化”,好像是關于心理、直覺、演技的游戲。但真正的獲勝機制,是極其深度的數學。前陣子我還在想,語言模型也有點像這樣。語言的生成是一個非常“人類”的過程,但現在有一臺數學機器,可以做到和我們一樣甚至更好。

△圖片由AI生成
Q:我自己是寫作的人,這部分我幾乎每天都在想,我大學時還學了一堆哲學,都是在想語言、意義這些東西。你和Scott在我眼里都是“數學強得不太像凡人”的那種人,我完全不理解你們怎么在計算上還能互相拉開差距,你們打牌時,怎么區分誰更強?
Mark Chen:
其實,說實話,我們現在更多是把它當作一個聚會場合,一個可以坐下來聊天、敘舊的平臺。如果把撲克太當回事,反而會把樂趣抽干。
我對撲克的那種“癡迷期”在十多年前就已經過去了,現在就是單純覺得好玩。
Q:你這是因為我看到Scott連贏了兩天,才這么說的吧?

Mark Chen:你可能說到點子上了。
Q:他確實打得挺認真。
Mark Chen:不過在回程飛機上我贏了。不是一對一,大概還有三四個人一桌。
離開華爾街,走向AI
Q:我感覺,尤其如果把時間撥回到2018年前后,在AI領域高層的人,大致能分成三類路徑:一類是學術出身;一類是數學天才后來去做機器人、物理之類;還有一類是從華爾街來的,做高頻交易、量化。
你走的是第三條,從MIT畢業后,直接去了華爾街。
Mark Chen:
我其實并不為那段經歷深以為榮,坦白講。
但這確實是MIT那些數學/量化很強的學生當時常走的一條路。它確實是一個非常唯才是舉的體系,你只要聰明、會算,你的能力會直接反映成非常具體的獎賞,就是你賺的錢。
但對我來說,那里的文化有點難受。
那地方,如果你發現了什么突破、什么竅門,你的第一反應是盡可能別讓別人知道。因為你的知識,就是你賴以生存的價值。所以在公司內部,你會看到各種競爭性的關系,人們彼此之間并不真正信任。而且整個生態系統非常封閉。
比如今天,如果某個團隊讓他們的算法快了,世界上沒有其他人感受到它,它不會對任何更大的世界起作用。
我在那兒待了四五年后,有一天醒來突然意識到,我們還是在和完全相同的一群玩家競爭,大家都變快了一點,但世界有因此而變得更好嗎?答案是:沒有。
那一刻我覺得,是時候去做別的事情了。很多事情在那時同時發生,比如AlphaGo的大戰,那對OpenAI很多人都是巨大啟發。
Q:你下圍棋嗎?
Mark Chen:不下。但關鍵不是圍棋本身,而是機器竟然能做出那么有創造力的東西。我特別想弄明白背后到底發生了什么。
Q:當時你有讀AI論文嗎?
Mark Chen:老實說,完全沒有。直到那場對局,我才真正被點燃。那之后我開始瘋狂深入AI。我給自己定的目標之一是復現DQN的結果。DQN是能夠在Atari游戲上打出超人水平的深度網絡。從那里開始,我正式走上了AI之路。
Q:那你是白天工作、晚上回家自己搞研究?
Mark Chen:對,就是這樣。
Q:我還記得2018年左右我采訪George Hotz的時候,他說過一句讓我印象深刻的話。他說AI領域非常年輕,年輕到一個人只要讀10/20/30篇論文(記不清到底多少篇了),就能學到整個領域的核心。
確實很有趣,AI是一個歷史很久但“現在這個時刻非常淺”的領域。
Mark Chen:我給那些對AI感到畏懼的人一個建議:它很淺。
花三到六個月,選一個項目(比如復現DQN),你就能非常快地走到前沿。最近幾年這個領域是變“深”了一點,但和理論數學、物理比差得遠。
Q:我問過Jakub,在數學里,很多人都是20多歲做出最偉大的工作,之后再難有突破。AI也是這樣嗎?我們是否依賴年輕人去讀論文、突然靈光乍現?還是說這是一個人可以干一輩子的領域?
Mark Chen:我覺得AI是一個可以一直做下去的領域。雖然OpenAI本身文化相對年輕,但我不認為你必須年輕才能做出好研究。
年輕人最大的優勢可能是,他們沒有太多先入為主,不會被“事情應該怎么做”所框住。隨著年紀增長,你會形成自己的愿景,這是好事,但也會把你鎖在某種思維模式里“研究就是這樣做的,結果就是這樣出來的”。
年輕研究員在這方面更有可塑性。
2018年加入OpenAI:20人的小團隊
Q:你職業生涯在OpenAI的發展很有意思,看起來你好像一開始就擔任很重要的位置。但你2018年加入時OpenAI只有……50人?
Mark Chen:更少,大概20人左右。當時基本就是兩個團隊。我以Residency(常駐研究員)的身份加入,意思是,不是專家不是PhD,而是OpenAI想要投資、培養、從其他領域轉進來的人。
Residency的前半段像是一個六個月壓縮版PhD,之后才開始深入項目做研究。
我每天都和Ilya聊,他給我定課程、定項目,我遇到不懂的就去問他“這個方向為什么重要”“為什么大家會研究這個”。
Q:領英上寫你加入就當了前沿研究主管?
Mark Chen:不,那不是我在Open的第一份工作。我前面大概有三年都是做IC(個人研究員)。我當時做的是生成式建模,因為那是Ilya當時最關注的方向。管理團隊是后來才開始的。
從ImageGPT到DALL·E:語言模型之外的生成模型
Q:DALL·E是公眾第一次真正認識OpenAI生成模型的項目嗎?
Mark Chen:對。而DALL·E也標志著我從IC轉向管理者。在那之前,我最自豪的項目之一是ImageGPT,證明即使不是語言,你把圖像丟進 Transformer,模型一樣能學到非常強的表示。
它能理解圖像內容,并展示出“語言建模方法可以用在非文本領域”的可行性。
另一個我很驕傲的IC項目是Codex,我搭建了很多評估代碼模型的框架,并深度研究如何讓語言模型變成強大的代碼模型。
Q:所以你為什么選擇OpenAI?我其實能理解兩種觀點,一方面OpenAI是小池塘里的大魚,有趣的人集中在這里;但另一方面,2018年的OpenAI才20個人,在我看來,這東西看起來根本不可能成功。
Google當時已經主導AI,感覺AI是一件需要幾十億美元、幾十年積累的事情,而那時就算連Scaling Law都還沒真正形成概念。
那對你來說,這是一個困難的決定嗎?還是你只是剛好撞進了OpenAI?
Mark Chen:我覺得有兩點非常重要:第一,你需要有宏大的愿景;第二,你需要有能支撐這份愿景的人才。
當時的OpenAI具備這兩點。他們的野心非常大,而人才也強到足以把這個愿景變成現實。
我很幸運,Greg Brockman,我們大學以前就認識。
Q:你們在MIT有交集?
Mark Chen:其實我們更早,在高中時就一起參加過數學競賽。
所以當時我給他發了條消息:“我不知道自己技能是否合適,但你們在做的事情看起來非常偉大。”
對我來說,今天這件事仍然很難以置信,我當時完全是“從天而降”加入的,而現在卻負責研究方向。這對我來說也超現實。
從IC轉成管理者那一步,我其實一度非常猶豫,因為我不知道自己是否適合管理,而且那時我真的很享受IC的工作——做研究、合作順暢、成果突出,我玩得很開心。但后來整個旅程就……真的非常瘋狂。
Q:你給人的感覺一直是溫和、理性、好相處的人。但OpenAI的歷史,說實話,有些部分非常戲劇化,甚至有點像肥皂劇、像《權力的游戲》那種“宮斗”。要在那樣的環境中做管理者……回頭看,真的挺難想象的。
我覺得現在比之前平靜了很多,但過去的那些時刻,你需要處理的事情,感覺與你的性格很不一樣。
Mark Chen:老實說,我在OpenAI非常幸運。我的經理們都非常支持我、為我發聲。在我做IC時,Wojciech Zaremba(OpenAI聯創)就說:“哦,CodeX這個項目應該押注在他身上。”
我從未向任何人要求晉升或調級,這些都是自然發生的。一路上,我得到很多很好的建議,我覺得管理的成長,本質上是靠“次數”累積,你要不斷練習,沒有比OpenAI更能給你練習機會的地方了,永遠有新的挑戰出現。隨著時間,你也會建立自信。
我現在相信,管理更多是經驗,而不是天賦。
OpenAI“宮斗”那段時期
Q:我猜測你可能不太想詳細談“宮斗”那次風波。
Mark Chen:沒關系,我愿意談任何事情。
Q:我采訪了很多人,也有不少獨家素材要留給我的書。但有幾個時刻,我特別想問你,在那段混亂中,你幫助研究員們統一意見、促成那封讓Sam回歸的請愿信。
然后一兩天之后,你在Greg家或者Chelsea家,做過一次很重要的短講,是嗎?
Mark Chen:是在Chelsea家。
而那兩個時刻,不管是推動研究員簽聯名信,還是在那場聚會上的講話,對我來說都是非常重要的瞬間。
Q:你站出來,為你相信的東西發聲,并把隊伍重新團結起來。
Mark Chen:是的,對我來說,那確實是一個關鍵時刻。在那次風波后的幾天里,整個公司都籠罩在不確定性中。
我、Nick(Nick Turley,ChatGPT產品負責人)、Barrett(Barret Zoph,OpenAI前研究副總裁)當時都感覺到一種責任感:“狼就在門口了。”大家都不斷收到來自各大實驗室的電話:“要不要來我們這兒工作?”

△圖片由AI生成
我當時給自己定下一個目標,我不會失去任何一個人。而且我們真的沒有失去任何人。那幾天我們幾乎每天都把自己的家打開,讓大家有一個可以來傾訴焦慮、互相陪伴的地方,我們也幫助大家持續與核心領導層保持聯系,讓他們感覺自己能參與、有發聲權。
隨著時間推移,大家形成了一種非常強烈的共同體精神:“我們一起面對這一切”“我們要向外界表明我們是一條心的”。當時我在幾處房子之間來回走,后來我們有了一個想法,我們需要向世界展示,我們團結一致,并且愿意為Sam工作。于是請愿信就這樣成形了。
這個主意大概在凌晨2點定下來,到了早上,研究組超過90%的人已經簽名。大家互相給朋友打電話“你贊成還是不贊成?你要不要簽?”最終,大概近100人簽了那個請愿信。
Q:那應該讓你陷入一個很困難的位置吧?因為一開始看起來像是,Ilya和Sam站在對立面。Ilya又是你的導師,后來Sam又回到團隊……這一切會不會讓你覺得尷尬?
Mark Chen:不,不是尷尬,是困難。
在那種信息極少的環境下,很難看清真相。你完全可以合理地問:“Sam到底做錯了什么?”Greg和Jakub這兩個極具正直的人有辭職來表達立場嗎?我覺得有部分故事被嚴重誤解了。
關于Jakub:大家不知道但應該知道的事
Q:Jakub已經在OpenAI很久了,你覺得外界不了解但應該知道的是什么?
Mark Chen:他其實超——級——搞笑。真的非常搞笑。是一種非常諷刺式的幽默,經常把我笑瘋。我最喜歡OpenAI現狀的一點就是,我和Jakub的高度一致性。我們走進會議室,只需要互相拋幾個想法,很快就能達成一致,然后對外發出同一個信息,再一起去處理路線圖的不同部分。能和他一起工作,是一種巨大的榮幸。
OpenAI的研究團隊至今仍“被攻擊”。我們是一家人。但我們永遠都在被攻擊。當一個新團隊開始組建時,他們第一步是什么?從OpenAI挖人。
他們想要我們的經驗、愿景、哲學,畢竟我們培養了大量頂尖研究員。我今天依然有同樣的保護欲,如果有人來挖我們的人,我會不惜一切讓我們的研究員開心、安心,并讓他們知道自己的角色在路線圖中的位置。
Q:我在寫書時、或實時觀察事件時,一直掙扎于一個問題,當我回顧整個AI歷史,2012年Ilya產生了重大突破、2017年Vaswani等人提出Transformer,Alec Radford推動了另一批重要成果,這些都是像“英雄人物”一樣的突破,AI領域還非常年輕,看起來可能就是那8到10個人不斷推動領域前進。
所以當John Schulman離開,Alec離開……我當時心里想:哇,如果你們失去這部分全明星陣容,那怎么繼續?這不像一個能輕易替換人才的領域。
但令人驚訝的是,就在那之后,你們在reasoning方向和其他前沿方向上繼續取得突破。這一點對我來說一直很難理解……
Mark Chen:我其實不同意你剛才的說法,把“頂級個人”視為推動研究的唯一方式。當然,我們確實會自上而下押注方向、下注賽道,但OpenAI也有非常深刻、非常真實的自下而上文化。
很多最好的點子,都來自最意想不到的地方。而最令人興奮的,就是看著這些“下注”逐漸成形、被擴展、被放大,比如reasoning(推理/思考)方向,就是這種過程的典型案例。
Q:但我們還是看到谷歌會砸天文數字把Noam Shazeer挖回去,這似乎說明,明星個人非常關鍵?
Mark Chen:我認為兩者是必須并存的,你必須投資自己的人才管線,因為我完全相信我們培養明星的能力,同時你也必須承認,世界上確實有一些非常頂級的人,每個人都知道他們是誰。
如果我從Meta那邊學到一件事,那就是,OpenAI也可以非常激進地去爭搶明星人才。他們用過的一些激進招聘方法,我自己也學了幾招。但最終目標很簡單,為我們的使命,組建最強的團隊。
Q:好笑的是,這個圈子其實很小。你們明明互相都認識、甚至一起玩、一起出去吃飯……但轉頭你們卻在互相挖對方的人。
Mark Chen:是啊,這是一個在所有維度都競爭殘酷的行業。
但我喜歡這樣。我就是極度好勝的人,我討厭輸,不管是在研究還是在招聘上,我都會全力以赴。
Q:你說得沒錯,這一點讓我想到半導體早期,一堆創業公司同時涌現,大家都在突破物理的極限,某家公司剛在一個方向突破,工程師們晚上一起喝啤酒又把想法互相說出來了。工程師就是這樣,他們停不下來,知識自然擴散。而同時,人人都在挖每一個可能的突破。
Mark Chen:是的。一個公司面對這件事有兩種選擇:建立深度信息隔離加強封閉性;繼續保持開放文化,用速度壓制對手。
OpenAI明顯是第二種,我們不認為封閉是正確方式。我們的方法是跑得比別人更快。我喜歡我們的開放文化,研究人員之間自由分享想法,大家都能更快推動進步。
Q:我知道Sam更熱愛調研,他對日常經營沒那么有激情,從組織結構上也看得出來。而你和Jakub則是每天都深度泡在技術里。他則在同時和全世界說話。三個人之間到底怎么協作?你們怎么決定算力與優先級?
Mark Chen:這是一個非常緊密的三人組。我每天都和Sam、Jakub說話。Sam喜歡了解研究進展、喜歡和研究員聊天。他很擅長把脈整個研究組織,告訴我:“有沒有什么潛在但沒被說出來的問題?”

△圖片由AI生成
有問題,他就會去找出來,并告訴我。Jakub和我則每天在想,如何設計好工作結構,讓突破更容易發生。這包括非常具體的事情,比如辦公室的布局會不會妨礙兩個需要協作的團隊交流?哪些人要被配置到一起?如何激勵大家往我們押注的方向走?這些是我們日常工作的核心。
Q:Sam會讀論文嗎?他會跟你們技術討論嗎?
Mark Chen:會的,他讀論文,也和研究員交流,理解大家怎么看世界、在做什么研究。當然,他還負責范圍非常廣的其他事務。
關于預訓練,OpenAI到底發現了什么?
Q:接下來我想問一些機密問題,說不定你說漏嘴就說出來了(doge)。關于預訓練,我感覺你們最近在預訓練方向突破了某個東西,你們看起來對此非常興奮。你能不能告訴我們:你們到底發現了什么?
Mark?Chen:
我大概會這樣概括過去兩年的高層情況,這兩年我們在reasoning上投入了巨量資源,去理解這種“原語”(primitive),并讓它真正跑起來,而且它的確跑起來了。
但這種專注有個副作用,你會在其他“肌肉”上有點退化,比如預訓練
和后訓練。過去六個月里,我和Jakub做了很多事,就是把這塊“肌肉”重新練回來。
在我心里,預訓練就是一種需要持續鍛煉的肌肉:要保證所有相關知識是新鮮的,要確保有人在最前沿搞優化確保有人在最前沿打磨數值計算,你還必須保證大家的注意力真的放在這件事上。
這也是我最近非常關注的一件事之一,在公司內部引導、塑造大家討論的重心,而現在,這個重心非常清晰:預訓練。
我們認為預訓練還能挖出巨量空間。很多人說“Scaling已經死了”我們完全不同意。
某種意義上,現在全世界都盯著強化學習、盯著后訓練,對我們來說反而是一種信息優勢,因為我們覺得預訓練這邊還藏著太多潛力。
也正是這些努力的結果,我們最近訓練出的模型強了很多,這也讓我們在面對Gemini 3和今年底的其他發布時,非常有信心。
Q:你剛剛的描述在我腦子里是這樣的,你們這幾年的狀態就是一路狂奔。整個領域都在狂奔。所以此刻我們站在一個節點。互聯網上能抓到的數據已經被大量吸進來,丟進超級計算機里攪一攪,然后ChatGPT這類東西就“蹦”出來了接下來大家就開始進入一場不可思議的競賽。
對很多不天天跟的人來說,他們看到的是,起初你們手里有巨量數據,把這些數據扔進機器,一開始你們用比較粗糙的方式來“塑形”這些數據,而現在你們似乎是在學習如何更高效地塑形這些數據,但外界不總是搞得清之前到底“錯”在了哪?
Mark Chen:你提到了我一直在思考的事情。
如果從預訓練的角度看,你拿的是人類寫的數據,你在教模型去模仿這些東西。模型于是學會了人類寫作的模式。
但從某種意義上說,這也給模型的能力加了一個“上限”:當你只是在模仿人類寫的東西時,你很難真正超越那堆人類數據本身。
所以你會去做RL之類的事情,通過RL,你可以把模型推向人類能構造出的最難的問題,讓它跳出“模仿人類”的框框,在框外思考,從而達到更高的能力。
但現在有個很有趣、也很棘手的問題,你要如何真正超越當前人類水平?
在這里我看到一個非常嚴重的測量問題,比如在科學領域,人類是否真的有能力去評估超人類水平的表現?我們要如何判斷這個超人類數學家比那個超人類數學家更強?
我們真的需要建立一套更好的評估體系,來衡量我們是不是在向前推進。到目前為止,我們比較幸運,有IMO、IOI這樣的競賽,可以告訴你誰是這個世界上最強的那一小撮人。但當模型的能力超越人類之后,再也沒有這樣的測試可以用了。
Q:你剛剛讓我想到一個問題,回到IOI那塊,我常看到那些在競賽中逆天的少年,后來被Google、Facebook這類公司招進去。但他們不總是變成,公司里最高層的技術領導或者最有名的工程師,有時候他們只是做自己想做的事情,這讓我一直有個疑問:在競賽中表現最頂尖的人,未必就是你能遇到的最強工程師。
那如果一個AI在這種競賽里表現特別好,我們到底在學到什么信息?
Mark Chen:這是我很喜歡AI研究的一點,我覺得在AI里,比起許多傳統工程領域,它更傾向于精英主義。
我多次嘗試、也多次學到同一個教訓:你很難讓一個得不到研究員尊重的人,去領導一群研究員。這在研究領域比其他地方都更明顯。
一個研究leader必須能做非常強的技術判斷,當出現分歧時,哪條路是對的?哪個項目值得算力和人力支持?如果你這些判斷持續做錯,你很快就會失去研究員的尊重。
所以在AI研究里,有一件很有趣也很棒的事是,我的所有上級都異常技術強,和他們聊技術非常好玩。
Q:接下來我又開始預訓練一下,對我來說,Transformer當年開啟了一個巨大的飛躍。Reasoning在我心中已經接近這個級別,甚至可能更神奇。
過去幾個月跟你們聊天時,我總有一種感覺,你們在過去三五年里做了很多硬核工程工作,但這些努力還沒有完全在產品層面顯現出來。這讓我很難把握自己“應該有多興奮”,當你們暗示某些正在出現的東西時,你們內部的感覺是這已經能看出是一個和之前幾次時代級飛躍同等級的東西了嗎?”
Mark Chen:我個人是這樣覺得的。當我們發布GPT-5時,我們講了很多關于合成數據的內容。現在還有許多類似的“研究線索”,我們覺得非常有前景,并且正在極為激進地放大它們的規模。
關鍵一直在于:維持一個多樣化的押注組合,把最有實證前景的那幾條線,大規模放大與支持。
Q:大概兩周前,Andrej Karpathy在一個播客說了一番話,把整個AI圈嚇了一跳,他的意思大概是AGI還要10年。你是怎么想的?
Mark Chen:我覺得X(推特)很喜歡這種敘事循環,“一切都完了”“不,一切又回來了”。只要符合當下情緒的說法,就會被無限放大。你現在也是在想要剪個傳播度很高的片段嘛。
在我看來,AGI這個詞最大的問題是,每個人的定義都不一樣。即使在OpenAI內部,你也很難把所有人拉到一個房間,讓大家給出一個一致的、精確的AGI定義。
所以我更傾向于這樣類比,你身處工業革命過程中,你說“工業革命完成”的那一刻,是紡織機出現的時候?還是蒸汽機出現的時候?
每個人都會選一個不同的點。我更傾向于說,我們現在正處在生產AGI 的過程之中。
對我個人來說,我最看重的指標是我們是否在產出新的科學知識?我們是否在推進科學前沿?
而從今年夏天開始,我覺得在這一點上發生了一個非常劇烈的階段轉變。
OpenAI for Science
Q:是你們在內部看到的成果嗎?我腦子里第一反應是最近那些生物科技創業公司“自動設計分子”之類的……
Mark Chen:對,我的靈感其實來自那次和物理學家的會面。
那次之后我回去想,我們應該打造一個OpenAI for Science。目標是,對于那一小批已經意識到模型潛力、并且想要擁抱它、用它加速科研的人,我們要盡一切所能幫助他們加速。
我知道其他公司也在嘗試推動科研前沿,但我覺得我們和谷歌等機構最大的區別在于,我們想讓所有科學家都有能力做出諾貝爾獎級的發現,而不是讓OpenAI自己去得諾貝爾獎。當然,OpenAI拿諾貝爾獎也不錯。
但我們真正的目標是打造一整套工具與框架,讓全世界的科學家都感受到加速作用。我們相信這是整個科學界能一起被推前進的方式。
Q:你說你們看到具體的突破,有例子嗎?
Mark Chen:當然有。如果你想看一大串例子,去看Sebastian的Twitter。最近有一篇論文解決了一個開放的凸優化問題,和我們正在攻克的一些機器學習核心問題非常緊密相關。
很多人會覺得,“啊,這是不是只是fancy的文獻搜索?”
不是,復雜得多。這些例子我可以講更多。
Q:但現在說實話我都有點被淹沒了……我也關注生物科技,現在真的是每兩天就會聽說一個“AI科學家”“我們一發命中抗體了”“AI自動設計分子”。
有些我很興奮,因為我認識這些公司的核心科學家,知道他們是真的人才。但太多了,以至于要么我們真的正在見證奇跡發生,要么信息量大到人類已經無法分辨真實性了。
Mark Chen:
我一點也不驚訝生物學會出現這些突破。就我個人而言,我對計算機科學和數學最熟,而在這些領域,我們有專家確認,這些確實是實打實的發現。這就是我最有信心的地方。
Q:你說的和外界敘事很不一樣。我覺得互聯網的敘事每三周換一次:“AI全是假的”“沒進展”“都是吹的”。如果這些科學突破是真的,那大眾完全不知道。
Mark Chen:為了搞OpenAI for Science,我們和很多物理學家、數學家聊過,絕大多數人并不看好AI。
他們的典型想法是,“AI不可能證明新定理”“這肯定是偽裝、幻覺,或者別的什么”。這就是為什么我覺得我們必須賦能那一小批真正相信AI的科學家,他們會遠遠跑在所有人前面。
我們希望打造的工具,能說服更多科學家相信這就是未來做科研的正確方式。
Q:我承認,每個人對AGI的定義不一樣。但從你現在說的這些來看……聽起來你認為,不管它叫什么名字,未來一兩年我們都將看到劇烈的變化。
Mark Chen:是啊,“AGI還要兩年”已經變成一個meme了。但我覺得我們已經不再處在那個永遠是兩年的世界里了。
給我真正信心的,是我們最近在數學與科學上看到的那些結果。在OpenAI的研究團隊內部,我們設定了兩個非常明確的目標。
目標1,一年內改變研究流程,讓AI成為研究實習生。在一年內,我們要讓AI實際參與到研究開發工作中,并且真正提高科研效率。
目標2,2.5年內實現AI的端到端研究。也就是說,在兩年半內,我們希望達到AI能從頭到尾執行研究流程。
現在的流程是,你提出一個想法→你自己實現→你調試→你反復迭代。但一年內,我們非常有信心做到人類控制外層(提出想法),模型控制內層(實現、調試、測試),這將非常不同。
Q:你們對預訓練這么樂觀,但我總感覺,我們已經建好了如此龐大的算力基礎設施,模型每10倍擴展都會變強……
但也有人說從GPT-4→GPT-5沒看到你們預期的提升,即使算力更多。你們看起來卻非常自信。我們其實還沒真正看到那次“10×compute躍遷”的效果。
Mark Chen:我想說的是,當有人問我“你們真的需要那么多算力嗎”,我都覺得這問題太震驚了。
因為我每天都在處理海量的算力申請。我的心態是這樣的,如果今天多3倍算力,我可以立刻有效用完。如果今天多10倍算力,我可能幾周內就能全部用滿。
所以算力需求是真實存在的,我看不到任何放緩跡象。當有人問“你們真的需要更多算力嗎”,我真的不理解這個問題。
Q:你們對預訓練的突破很樂觀,那你們是否同樣相信——繼續擴大模型規模會帶來巨大提升?
Mark Chen:我們絕對會繼續擴大模型規模。而且我們已經有算法突破,使得我們能繼續擴大規模。
Gemini 3有很多令人印象深刻的地方,但我注意到一個細節:他們的SWE-bench成績里,數據效率方面幾乎沒什么進展,我們在數據效率相關算法上非常強。
Q:最近有一份泄露的備忘錄,Sam對Gemini 3的態度挺嚴肅的。
Mark Chen:我覺得Sam的工作之一就是要注入緊迫感和速度感。這是他的責任,也是我的責任。
我們必須保持對scaling的激光般專注。Gemini 3正是谷歌應該下注的方向。
但同時也要提醒,作為管理者,我們的部分工作就是不斷給組織注入緊迫性。Gemini 3是個好模型,我們也有對應的回應,而且我們可以更快推進下個版本。
聯手Jony Ive,搞硬件設備開發
Q:你會參與像Jony Ive的設備開發這種事情嗎?研究團隊也參與?
Mark Chen:是的。而且我昨天我和Jony以及幾位研究人員一起吃了飯,包括我們負責預訓練和后訓練的負責人。
我一直在想一件事,未來的ChatGPT應該是什么樣子的?現在的ChatGPT,和它的交互方式,說實話很笨,完全不是原生思考的那種體驗。
你給它一個提示詞,它給你一個回答,之后它基本上不做任何對你有生產力的事情,直到你再給下一個提示。而且如果你再問類似的問題,它還會花一樣久的思考時間。它不會因為你之前問過問題而變得更聰明。
我認為未來應該是這樣:它有更強的記憶,每次你來,它能學到關于你的一些深層東,它會思考你為什么問這個問題,它會聯想到相關的問題,然后下一次你來,它會變得更聰明。
那么問題來了,要怎樣設計一個設備,讓這種思考方式成為核心?
和Jony合作這段時間,我覺得非常有價值。
Q:你現在有一個設備了嗎?
Mark Chen:我可能有,也可能沒有。
Q:我一想到你們在和Jony合作,我就想到,蘋果是一個以硬件為中心的公司,喬布斯對硬件著迷,把它當成一種藝術。但你們,Sam、Greg、Jakub,據我所知沒有人真正做過硬件產品。
Sam很重視設計,從他的房子和辦公室能看出來,但做設計這種天賦……我一直覺得喬布斯那叫品味,這是天生的。那你們怎么確定自己有“品味”來塑造一個新的硬件產品?
Mark Chen:老實說,我們不需要自己有品味,那是Jony的工作,他是我們在“品味”上的鑒別者。
而最有趣的是,我們最近意識到,設計團隊的工作方式我們做研究的工作方式,其實有非常深的相似性,都是大量探索、大量提出假設、大量試錯、花很多時間沉淀,最終打造一個你滿意的作品。
讓設計團隊加入公司之后,我們和他們的溝通更直接了:“這是我們即將交付的能力”“這是設備的形態”“我們怎么把這兩個整合起來?”
Q:我花一輩子和這些人打交道,但我常常會想,真的要讓一群數學宅男來做一個AI設備嗎?不過你剛才講的確實是在談一種“混合型合作”。
Mark Chen:是的,你說得對。擅長構建AI能力的人,和有硬件/產品品味的人,通常是完全不同的兩類。但我們內部其實也有一些團隊,他們對模型行為的品味(taste for model behavior)特別好。
這種品味完全不同,他們會問非常奇怪、但很關鍵的問題,比如“ChatGPT最喜歡的數字應該是什么?”
最后幾幾幾個問題
Q:最后幾個問題,ChatGPT提醒我問你,如果5年后回頭看現在,有哪些非常脆弱、非常微妙的小想法,你覺得未來可能變成突破的核心?
Mark Chen:有幾個,我手里大概有一小撮這樣的想法。不能講太細,但我真的非常期待把它們規模化。
Q:能不能給點提示?比如方向類別?
Mark Chen:主要還是集中在預訓練相關的東西,也有少量是RL(強化學習)相關,也有少量是關于“如何把所有東西整合起來”的方向。
Q:你覺得外界有哪些關于OpenAI的誤解?
Mark Chen:我認為最重要的一點是,OpenAI本質上是一家研究為中心的公司,我們是一家純粹押注AI的公司,公司的核心目標就是構建AGI,并盡可能減少干擾,產品是順著研究自然流出來的。
至于研究,我們最核心的目標是:自動化AI研究、自動化科學發現、自動化經濟生產力的工作。而過去一年最大的更新其實是第二個部分,它正在發生。
Q:你現在多大?你還有辦法維持社交生活嗎?
Mark Chen:34,快35了。老實說,沒有。過去兩周每天都是工作到凌晨1–2點。但我很喜歡這樣,有很多事要做、很多人要招、很多方向要推動。如果我們正處在下一次工業革命里,那為什么不把握這個黃金時刻?
Q:聽說你甚至睡在辦公室?你睡了一個月在辦公室?
Mark Chen:是啊,那段時間挺好玩的。
那是Barret離職、去創立自己公司之后。那段時間工作需求就是這樣。我仔細想過我當時那種強烈的情緒,其實是一種強烈的保護研究的本能。
Q:你們經歷了“宮斗”、大規模挖角、Meta啟動巨大的研究團隊……現在的戰火算過去了嗎?
Mark Chen:我每次和團隊開會都會說:“等我處理完這件事,我會抬起頭看看有沒有新的火要救。”
但現在我已經完全接受,構建AGI的賭注夠大,所以永遠會有新的火。關鍵是,在混亂中,你要能判斷什么才是真正重要的事。
Q:DeepSeek那個時刻,你對開源模型,尤其是中國的開源模型,有什么看法?
Mark Chen:我覺得那是我第一次真正意識到,我們必須死死守住自己的研究節奏。
DeepSeek發布的時候,它火得不得了,網絡上全在問“OpenAI迷失方向了嗎”“是不是別人的模型已經追上來了”“你們的回應是什么?回應呢?回應呢?”
我認為我們當時做的,完全是正確的選擇。我們只是更加扎實地按照自己的研究路線往前走。我一點都不覺得這是錯誤決定。后續版本的DeepSeek模型我還沒仔細看,我覺得他們是一個非常強的實驗室,
但從根本上說。我們要做的就是持續創新。在我看來,DeepSeek某種程度復刻了我們O系列模型中的理念。但我們的關注點還是,繼續往前創新。
Q:你前面說研究團隊核心500人,這個數會隨著公司擴大繼續漲嗎?還是說500就是一個追逐大想法的最佳規模?
Mark Chen:老實說,我覺得甚至可以更少。而且當我們有AI研究員/AI實習生之后,我們還要重新設計整體組織形態。
我非常在乎的一點是,人才密度(talent density)要極高。
我很喜歡做一些管理實驗,比如今年第二季度,我故意完全不開放新的headcount,如果你想招人,你必須先搞清楚“誰不該在這條船上”。
我覺得這種練習非常重要。你不希望研究組織慢慢變成一個你都掌控不了的東西,你得把門檻一直卡到很高。
Q:關于項目署名/歸功的問題。在學術界,署名非常重要。我記得你的態度是大家對歸功這件事有點太執著了。
我不知道我記得對不對。
Mark Chen:我認為對功勞的過度執著,是很糟糕的事情。但另一方面,我也覺得公司必須認真對待功勞歸屬,無論是對內還是對外。整個行業過去幾年都在遠離公開署名,論文少了作者列表模糊了,很多公司不愿公開誰做了什么。
但我和Jakub最后的決定是,在OpenAI我們要繼續做署名。反對意見很明顯“你們這是把自己的頂尖人才名字端盤子遞出去,方便別人來挖人”。
但我不覺得這重要,我們應該去認可那些做出偉大工作的人,繼續成為創造AI超級明星的地方。對公司來說,幫這些做出最好成果的人打出名號這件事非常重要。
Q:但你好像同時也認為,個人研究員本身不該那么執著于功勞?是我記錯了嗎?
Mark?Chen:不,當時房間里確實有人持那種觀點,但其實我和Jakub是不同意那種極端說法的。所以你沒有記錯,只是我們倆是“反對票”那邊的。
對我來說,我們必須在明知有風險的情況下,仍然給該給的人足夠的功勞。即使這意味著,全世界都會知道誰是我們的頂尖人才。
我甚至會說得更極端一點,我認為在整個行業里,OpenAI是單位人數上對外部署名與個人credit最大方的地方。
Q:從華爾街到AGI,從動機上講,你其實不必對“AGI的哲學意義”“超智能的命運”這些問題有多么強的情感。那為什么你會如此投入地做這件事?
Mark Chen:對我來說,安全與對齊這一塊非常核心。我現在也管理OpenAI的對齊團隊。
我真心覺得,在接下來一兩年里,最宏大、最關鍵的挑戰之一就是對齊問題。如果你關注這部分研究,在整個行業里,我覺得OpenAI在過去一年做的是最好的之一。
為什么這么說,因為我們在諸如scheming這樣的議題上,做了大量工作,當你給模型打更多RL,你會越來越能測出自我意識、自我保存、甚至是有計劃、有策略地謀劃(scheming)的傾向。這很可怕,模型可能仍然給你一個“你想要的正確答案”,但它是通過一種非常扭曲的內在路徑得出的。
隨著模型幫我們做越來越復雜的任務,理解它的思考路徑會變得極其重要。
Q:這屬于“機制可解釋性(mechanistic interpretability)”的范疇,試圖理解黑盒內部到底發生了什么。
問題是,我們在理解模型的能力,能否跟上這些系統復雜度的增長?還是會出現一個完全追不上的臨界點?
Mark Chen:有一個我非常自豪的設計決定,可以追溯到我們發布o1時。我們決定,不對思考過程本身進行監督(不強迫它寫好看、討人喜歡的推理過程)。當你激勵模型給出人類喜歡看的思考過程,它就不一定會對你誠實,不會告訴你它真正的意圖與路徑。
通過不去監督那部分,我們保留了一個觀察窗口,可以真的看到模型是如何思考的。這對對齊來說是一個極其重要的工具。幾個月前有一篇我們和DeepMind、Anthropic一起的論文,專門研究這個工具在未來會如何演化。
我覺得在這方面,我們做了一些相當不錯的設計選擇。
我真的擔心有一天會出現這樣一個世界。模型說的每句話都極其有說服力,但我們完全無法判斷它是否真正站在我們這邊,是否真的與我們的價值對齊。
所以我對這些方向很感興趣,在這里,還有非常多令人興奮的研究可以做。
原視頻鏈接:https://www.youtube.com/watch?v=ZeyHBM2Y5_4&t=19s
- 起底“豆包手機”:核心技術探索早已開源,GUI Agent布局近兩年,“全球首款真正的AI手機”2025-12-09
- 商湯分拆了一家AI醫療公司,半年融資10億,劍指“醫療世界模型”2025-12-02
- “豆包手機”在二手市場價格都翻倍了……2025-12-05
- 讓大模型學會“高維找茬”,中國聯通新研究解決長文本圖像檢索痛點|AAAI 2026 Oral2025-12-01



