卡帕西：強(qiáng)化學(xué)習(xí)很糟糕，但其他所有方法都更糟

時令 2025-10-18 14:38:04 來源：量子位

AGi起碼還有十年

時令發(fā)自凹非寺

量子位 | 公眾號 QbitAI

卡帕西大神的最新專訪來了！

作為特斯拉前AI總監(jiān)、OpenAI創(chuàng)始成員，卡帕西在近兩個半小時的訪談中，深入回答了一系列引人深思的問題：

為何強(qiáng)化學(xué)習(xí)表現(xiàn)糟糕（但其他方法更糟糕）？
為何通用人工智能會延續(xù)2%的GDP增長率？
為何自動駕駛技術(shù)歷經(jīng)漫長攻堅(jiān)期？

解答問題之余，由于卡帕西早已宣布全職搞教育，那不得不提的還有他對未來教育發(fā)展的見解。

網(wǎng)友表示：知識點(diǎn)實(shí)在太密集了，卡帕西訪談的兩個小時等于別人的四個小時。

干貨要來了，請系好安全帶，別被轟暈了！

AGI起碼還要十年

訪談一開始，主持人就先對卡帕西提出了一個人令許多人都很好奇的問題：

為什么說未來將是“智能體的十年”，而不是“智能體的一年”？

卡帕西解答道，現(xiàn)在確實(shí)有一些非常早期的智能體，比如他每天都在使用的Claude、Codex等，它們已經(jīng)展現(xiàn)出令人驚嘆的能力。

但不可否認(rèn)的是，這些系統(tǒng)還需要不斷進(jìn)化，最終達(dá)到理想狀態(tài)，而十年正是實(shí)現(xiàn)這一蛻變所需要的時間跨度。

那這個時間節(jié)點(diǎn)為什么是十年呢？

卡帕西接著舉了個例子，他認(rèn)為，當(dāng)智能體能夠像員工或?qū)嵙?xí)生一樣與人協(xié)作時，才是它真正發(fā)揮作用的時候。

顯然，目前智能體還做不到這樣。那么，為了讓它們做到，需要什么條件呢？為什么人們今天還沒用它們來做呢？

原因很簡單，就是現(xiàn)有系統(tǒng)尚未成熟。智能水平尚未達(dá)標(biāo)、多模態(tài)能力存在局限、也缺乏操作計(jì)算機(jī)完成復(fù)雜任務(wù)的能力。

此外，它們也沒有持續(xù)學(xué)習(xí)能力——你無法通過單次告知就讓系統(tǒng)永久掌握知識。在認(rèn)知架構(gòu)層面仍存在顯著缺陷，導(dǎo)致現(xiàn)有方案完全不可行。

憑借卡帕西15年做AI的經(jīng)驗(yàn)，要系統(tǒng)性解決這些難題，大約還需要十年。

LLM認(rèn)知缺陷

之后，卡帕西還講了自己構(gòu)建代碼倉庫的一些事情。

他認(rèn)為目前人們與代碼交互的方式主要有三類：

完全拒絕所有大語言模型（LLM），堅(jiān)持手動編寫所有代碼。
中間派系（也是卡帕西所屬的陣營）仍然會親自編寫大量代碼，但會利用現(xiàn)有的自動補(bǔ)全功能。
氛圍編程，直接輸入“請實(shí)現(xiàn)某某功能”，然后讓模型完成。

卡帕西承認(rèn)，現(xiàn)有的智能體在做模塊化代碼方面確實(shí)很有效，但他做的NanoChat是一個很獨(dú)特的倉庫，幾乎每行都需要深度思考，所有細(xì)節(jié)都必須精確安排。

然而，現(xiàn)有的模型存在太多認(rèn)知缺陷。由于它們在訓(xùn)練中吸收了網(wǎng)絡(luò)上常見的編程范式，所以它們總是無法突破思維定勢，執(zhí)意要將代碼改造成生產(chǎn)級標(biāo)準(zhǔn)。

但卡帕西的代碼本身已包含若干假設(shè)，根本不需要那些冗余內(nèi)容。它們不僅膨脹了代碼庫規(guī)模，增加了復(fù)雜度，還頻繁使用已棄用的API，最終搞得一團(tuán)糟。

總的來說，卡帕西認(rèn)為現(xiàn)在的模型還沒有達(dá)到理想狀態(tài)，業(yè)界對它們的能力有些過度夸大，其實(shí)它們?nèi)孕枰罅扛倪M(jìn)。

強(qiáng)化學(xué)習(xí)很糟糕

接著，主持人聊到了現(xiàn)在大火的強(qiáng)化學(xué)習(xí)。

卡帕西表示：

強(qiáng)化學(xué)習(xí)遠(yuǎn)比普通人想象的還要糟糕，它確實(shí)很差，但其他方法更差。

以解數(shù)學(xué)題為例，在強(qiáng)化學(xué)習(xí)中，你會首先生成大量嘗試方案：針對同一問題產(chǎn)出數(shù)百種解法，可能涉及不同思路的探索與調(diào)整，最終某個答案恰好正確。

這時強(qiáng)化學(xué)習(xí)的做法是：對最終正確的解題路徑上的每個步驟都進(jìn)行權(quán)重強(qiáng)化，仿佛在說“請多做這類操作”。

但問題在于這種做法充滿噪聲。它默認(rèn)正確解法的每個環(huán)節(jié)都完美無缺，但現(xiàn)實(shí)中人們常會繞彎路，只是最終誤打誤撞找到答案。只要結(jié)果正確，所有錯誤步驟反而都被強(qiáng)化了——這顯然不合理。

人們投入大量計(jì)算資源，最終僅獲得“正確/錯誤”的二元判斷，并據(jù)此對整個軌跡進(jìn)行加權(quán)，卡帕西認(rèn)為，“這實(shí)在荒謬”。

真正的人類絕不會這么干。第一，人類不會做數(shù)百次嘗試；第二，當(dāng)人類找到答案時，會進(jìn)行復(fù)雜的復(fù)盤：“哪些做得好，哪些沒做好”。他們會思考，而當(dāng)前LLM完全沒有這種機(jī)制。

以閱讀為例，當(dāng)LLM“閱讀”時，只是在做下一個詞預(yù)測并從中獲取知識。但人類閱讀時，書本更像是激發(fā)思考的提示集——人們會通過信息重組來內(nèi)化知識。

對此，卡帕西期待在預(yù)訓(xùn)練階段加入“思考消化”環(huán)節(jié)，讓模型能真正整合新信息與既有認(rèn)知。

AGI將延續(xù)2%的GDP增長趨勢

接著，主持人還提到了衡量AGI的標(biāo)尺，以教育水平為例，AGI是從高中生水平通過強(qiáng)化學(xué)習(xí)達(dá)到大學(xué)生水平，最終取得博士學(xué)位。

卡帕西可不認(rèn)同上述標(biāo)準(zhǔn)，他認(rèn)同的是OpenAI初創(chuàng)時對AGI的定義：能完成任何具有經(jīng)濟(jì)價值任務(wù)且達(dá)到或超越人類水平的系統(tǒng)。

這就涉及到現(xiàn)有工作被替代的程度，卡帕西認(rèn)為，即使是如客服中心員工這種更易自動化的職業(yè)，AGI也不能瞬間完全替代，而是實(shí)現(xiàn)“自主性滑塊”——AI處理80%常規(guī)工作，剩下20%留給人類監(jiān)督。

那如果有AGI替代人類工作，它的并行復(fù)制會顯著加速AI進(jìn)步嗎？會出現(xiàn)智力爆炸嗎？

卡帕西回答道：智力爆炸已經(jīng)在發(fā)生了，通過歷史GDP的指數(shù)增長就能體現(xiàn)出來。這是漸進(jìn)的自動化趨勢：工業(yè)革命是物理自動化，早期軟件是數(shù)字自動化。

他認(rèn)為：

這種增長模式大體保持不變。就像互聯(lián)網(wǎng)讓我們維持2%的增長一樣，AGI也只是延續(xù)這種模式，不會突然產(chǎn)生巨大的跳躍。

自動駕駛為何耗時如此之長

主持人還提到了卡帕西在特斯拉的經(jīng)歷，問道：“你曾在2017年到2022年領(lǐng)導(dǎo)特斯拉自動駕駛項(xiàng)目，為什么這個項(xiàng)目耗時如此之長？”

首先，卡帕西澄清了一點(diǎn)：自動駕駛還遠(yuǎn)未完成。

對于某些任務(wù)或工作來說，演示到產(chǎn)品的差距非常大。演示可能很容易，但做成真正的產(chǎn)品非常難。自動駕駛尤其如此，因?yàn)槭〈鷥r太高。

軟件工程也有類似特性。比如普通編程可能沒那么嚴(yán)格，但如果你寫的是生產(chǎn)級代碼，任何小錯誤都可能導(dǎo)致安全漏洞，泄露數(shù)百萬人的個人信息。

自動駕駛?cè)绻鲥e可能有人受傷，但軟件出錯可能帶來的后果幾乎是無限的。

其中的關(guān)鍵在于所謂的“9的進(jìn)度”。每增加一位9（比如從90%到99%的可靠性），都需要大量工作。卡帕西在特斯拉的五年里，他們可能達(dá)到了三位或兩位9，但還有更多9等著去完成。

畢竟真正的產(chǎn)品要面對現(xiàn)實(shí)中的各種挑戰(zhàn)，需要不斷修補(bǔ)各種邊緣情況。

教育的未來

最后，卡帕西作為一名全職教育家，不得不提的還有教育。

卡帕西表示：

我們在嘗試建立一所技術(shù)知識方面的頂尖學(xué)府，一所非常現(xiàn)代化、領(lǐng)先的學(xué)校。我想做的是一種真正的“導(dǎo)師體驗(yàn)”。

以他學(xué)韓語為例，一開始是自學(xué)，然后加入韓國的一個小班，和十來個學(xué)生一起上課。后來他換成了一對一導(dǎo)師。他發(fā)現(xiàn)這位導(dǎo)師的教學(xué)非常棒，可以迅速判斷他的知識水平，提出合適的問題來理解他的認(rèn)知模型。

目前，即使是優(yōu)秀的LLM也做不到這一點(diǎn)，但好的導(dǎo)師可以做到。一旦導(dǎo)師了解自己，就能提供給學(xué)生最需要的知識——適度的挑戰(zhàn)，既不太難也不太簡單。

此外，卡帕西還想做一門非常優(yōu)秀的課程，讓學(xué)生學(xué)習(xí)AI時能有頂尖的體驗(yàn)。這個課程就是LLM101N，Nanochat是其中的經(jīng)典項(xiàng)目。之后他還需要構(gòu)建中間內(nèi)容，招募助教團(tuán)隊(duì)，完善整門課程。

最后的最后，有的網(wǎng)友也是狠狠附議了卡帕西訪談中的一些觀點(diǎn)。

比如LLM的“健忘癥”。

但有的人也表示：

完全不同意，現(xiàn)在的編碼智能體已經(jīng)很可靠了。

對此，你怎么看呢？歡迎在評論區(qū)分享你的觀點(diǎn)～

參考鏈接：https://www.dwarkesh.com/p/andrej-karpathy

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

卡帕西

時令

卡帕西：強(qiáng)化學(xué)習(xí)很糟糕，但其他所有方法都更糟

AGI起碼還要十年

LLM認(rèn)知缺陷

強(qiáng)化學(xué)習(xí)很糟糕

AGI將延續(xù)2%的GDP增長趨勢

自動駕駛為何耗時如此之長

教育的未來

相關(guān)閱讀

馬斯克發(fā)起編程人機(jī)大戰(zhàn)！卡帕西說了不

大神卡帕西官宣創(chuàng)業(yè)：一所AI原生學(xué)校，要做AI領(lǐng)域的費(fèi)曼

卡帕西大模型橫評方法太好玩！四大AI匿名參賽評分，最強(qiáng)出乎意料

大神卡帕西安利爆火AI應(yīng)用，稱「或是下一個ChatGPT」

我的領(lǐng)導(dǎo)馬斯克：痛恨開會，不要非技術(shù)中層，推崇裁員

大神卡帕西親自演繹零基礎(chǔ)開發(fā)APP，ChatGPT四輪對話搞定，一小時即在手機(jī)運(yùn)行

熱門文章

DeepSeek-V3.2系列開源，性能直接對標(biāo)Gemini-3.0-Pro

能講“悄悄話”的智能助理，瑞聲科技助力夸克AI眼鏡S1開創(chuàng) 語音交互新范式

商湯分拆了一家AI醫(yī)療公司，半年融資10億，劍指“醫(yī)療世界模型”

前端沒死，AI APP正在返祖

寧德時代給9萬+基層員工漲了薪！每月150元