ChatGPT后訓練方法被OpenAI離職聯創公開,PPT全網轉~
網友:沒人比他倆更了解ChatGPT后訓練的事兒
西風 發自 凹非寺
量子位 | 公眾號 QbitAI
離開OpenAI后,他們倆把ChatGPT后訓練方法做成了PPT,還公開了~
正如網友所言,可能沒有人比他倆更了解ChatGPT后訓練的事兒。

畢竟,一位是OpenAI聯合創始人,曾經也是OpenAI后訓練共同負責人的John Schulman,另一位是曾經在OpenAI當后訓練研究VP的Barret Zoph。
John Schulman發推文稱:
啊,我和Barret Zoph最近在斯坦福做了一場關于后訓練以及分享開發ChatGPT經驗的演講,可惜沒被錄下來,但我們有PPT。
順便又全網尋錄音/視頻“如果你有錄音,請告訴我!”
網友不語,只是一味點贊收藏。

有曾在現場的網友親證,演講質量真不戳。

還有網友在感謝完倆人后想要更多:
如果能分享更多關于訓練后階段的最新進展,比如推理模型、DeepSeek RL等,那就太好了。


這次先來看看PPT長啥樣~
ChatGPT后訓練方法PPT版

先是自我介紹。
Barret Zoph和John Schulman曾在OpenAI共同擔任后訓練聯合負責人,從2022年9月開始合作,主要目標是開發一個對齊的聊天機器人,最初的團隊被稱為“RL”,只有少數幾個人。

接著介紹了后訓練(Post-Training)階段是什么:
后訓練階段是模型開發的最后一步,目的是讓模型更像一個助手,遵循特定格式,并確保其適合實際生產環境,這一階段通常與產品團隊緊密合作。

用幾個具體例子,對比基礎模型和后訓練模型的區別:


后訓練VS預訓練總的來說:
計算資源需求更低,迭代周期更快;使用基于人類反饋的強化學習(RLHF);教模型使用工具;塑造模型個性;引入拒絕/安全行為;行為嚴重依賴預訓練階段的泛化能力。

后訓練包含三個主要組成部分:監督微調(SFT)、獎勵模型(RM)訓練、強化學習(RL)。

以下是三個組成部分的具體介紹:



隨后回顧了ChatGPT和OpenAI后訓練的早期發展歷程。
包括GPT-3、GPT-3.5的發布、RL團隊的工作、GPT-4的準備過程、決定發布ChatGPT的細節以及發布后意外成功,實現病毒式傳播。

ChatGPT曾一度被大批涌來的用戶擠崩:

隨時間推移,ChatGPT模型和功能逐漸更加復雜和多樣化:

2022年12月最初版本和2025年1月版本的對比:

添加了許多功能:

然后講了在功能擴展和公司規模增長的背景下,如何通過主線模型(mainline model)設置來整合變化并降低風險,包括在較小規模上測試;在頻繁的更新中逐步整合更改,如果發現問題能夠迅速回滾到之前的版本。

在這當中也出現了一些失誤和挑戰……

比如模型在生成文本時出現了很多拼寫錯誤。
強化學習(RL)后發現拼寫錯誤率有所上升,在監督微調(SFT)數據集中發現了拼寫錯誤的提示。
最終通過對比過程改進,將兩個生成的文本(completion 1和completion 2)進行比較,選擇改進后的版本,專家會對比這兩個文本,有時會寫出改進后的版本。

此外還有過度拒絕的情況。

早期的拒絕行為過于冗長:

有一些方法比如通過改變時態,可以繞過模型的拒絕機制。

倆人隨后講解了為何拒絕行為難以處理,有邊界問題和人類數據問題。
解決方案包括配對數據、有針對性的邊界示例、對標注數據進行分層處理。

另外,模型還會出現偏見。

還可能會生成虛假或誤導性的內容。

在涉及品味、主觀性和高投入的任務中,如何獲取高質量人類反饋也是一大挑戰。
通過人類與AI團隊協作進行標注是解決方案之一。

他們還探討了不同來源的人類反饋在提示多樣性、標簽質量、領域、正確性、意圖和合規性等方面的優缺點,并提出了如何利用它們各自優勢問題。

而要讓模型按照我們的意愿行事,第一步是弄清楚我們想要什么。
倆人表示這一步出乎意料的難,要明確規范。



OpenAI2024年5月發布了模型規范。

還有一個開放性問題,如何保持模型多樣性和趣味性。
兩人提到通過后訓練迭代和模型蒸餾來保持或強化這些特性。

總結了以InstructGPT、Llama 3.1等為代表的“兩個時代”的模型訓練流程,包括從基礎模型到對齊模型的訓練步驟,最終目標是生成一個經過多次優化的對齊模型。

提出了一個開放性問題,探討如何在模型訓練和優化過程中恢復并保持基礎模型中的多樣性和趣味性,包括不同的風格和世界觀。

最后他們推薦了一些關于后訓練的論文和blog:


倆人都被OpenAI前CTO挖走了
John Schulman和Barret Zoph離開OpenAI后,現在都在干什么——
被曝雙雙加入了OpenAI前CTO Mira Murati的新創業團隊Thinking Machines Lab。
Mira Murati去年9月官宣離職OpenAI,離職后不久,就在10月份,她被曝籌備新公司/AI實驗室,吸金超1億美元。

Mira Murati已經挖到了20多位頂尖研究員和工程師投奔,都是來自OpenAI、谷歌、Anthropic等巨頭。
這其中就包括Jonathan Lachman和Barret Zoph。

John Schulman去年8月離開的OpenAI,先是加入了OpenAI競爭對手Anthropic,致力于LLM的對齊工作,短短六個月后再次離職,加入了Murati的創業項目,擔任首席科學家。

至于Barret Zoph,去年9月份和Mira Murati幾乎同時離職,隨后就加入了Mira Murati的團隊,擔任CTO。

參考鏈接:
[1]https://x.com/johnschulman2/status/1891539960743743756
[2]https://www.businessinsider.com/openai-employees-joining-mira-murati-new-startup-2025-2#john-schulman-1
- 商湯分拆了一家AI醫療公司,半年融資10億,劍指“醫療世界模型”2025-12-02
- “豆包手機”在二手市場價格都翻倍了……2025-12-05
- OpenAI首席研究員Mark Chen長訪談:小扎親手端湯來公司挖人,氣得我們端著湯去了Meta2025-12-03
- 讓大模型學會“高維找茬”,中國聯通新研究解決長文本圖像檢索痛點|AAAI 2026 Oral2025-12-01




