DeepSeekV3.2技術報告還是老外看得細
henry 發自 凹非寺
量子位 | 公眾號
ChatGPT三歲生日這一天,硅谷熱議的新模型來自DeepSeek。
準確說是兩款開源模型——DeepSeek-V3.2和DeepSeek-V3.2-Speciale。
這倆模型火到什么程度呢?
有網友表示,在去圣地亞哥的(疑似趕場NeurIPS 2025)航班上,有30%的乘客都在對著DeepSeek的PDF兩眼冒光。

而上周嘲諷DeepSeek “曇花一現”的推特更是在發布的當晚被刷到了500萬瀏覽。

除了普通網友,奧特曼也是急急急急:不僅啟動紅色警報,還臨時推遲了在ChatGPT上投放廣告的計劃。
與此同時,那一頭的谷歌也沒被放過。
網友直接 “靈魂喊話” 谷歌Gemini團隊:別睡了,DeepSeek回來了。

這是怎么一回事?
閉源精銳?打的就是閉源精銳!
總的來說,DeepSeek-V3.2模型在智能體評測中達到了當前開源模型的最高水平,大幅縮小了開源模型與頂尖閉源模型的差距,并宣告了閉源落后開源的結束。

其中,標準版DeepSeek-V3.2在推理測試中,達到了GPT-5的水平,僅略低于Gemini-3.0-Pro。
而“特別版”DeepSeek-V3.2-Speciale不僅全方位超越了GPT-5,還能在主流推理任務中和Gemini-3.0-Pro掰掰手腕。
此外,V3.2-Special還拿下了IMO、CMO、ICPC及IOI的金牌,并在ICPC和IOI上達到了人類選手第二名與第十名的水平。
這不僅擊碎了開源模型落后閉源模型半年的質疑,又順便給硅谷的閉源AI公司好好上了一波壓力。

而且,這還不是V4/R2。
換句話說,大菜還沒上呢,光涼菜就已經讓硅谷吃飽了。

對于DeepSeek-V3.2這次的成績,DeepSeek研究院茍志斌(Zhibin Gou)在推特上給出了相當直覺性的解答:
強化學習在長上下文長度下也能持續擴展。
為了理解這句話,我們簡要地回顧一下論文。
簡單來說,DeepSeek-V3.2其實干了這么幾件事:
首先,利用DSA稀疏注意力解決了長上下文的效率問題,為后續的長序列強化學習打下了計算基礎。
接下來,通過引入可擴展的RL,并投入超過預訓練成本10%的算力進行后訓練,大幅提升模型的通用推理和智能體能力。
最后,DeepSeek-V3.2-Speciale版本為了探索推理能力的極限,特意放寬了RL的長度限制,允許模型生成極長的“思維鏈”,迫使模型通過大量的Token生成來進行深度的自我修正和探索。
這也就是說,通過長思維鏈讓模型思考更多,通過自我修正探索讓模型思考更久,進而解鎖更強的推理能力。
由此,模型就能在不增加預訓練規模的情況下,通過極長的思考(消耗更多token)過程實現性能的飛躍。
而上面的實驗結果,恰恰證明了這套“在超長上下文下持續擴展強化學習”路線的正確性。
正如茍志斌所說:
如果說Gemini-3證明了:預訓練可以持續擴展,那么DeepSeek-V3.2-Speciale 則證明了:強化學習在長上下文長度下也能持續擴展。
我們花了一年時間把 DeepSeek-V3 逼到極限。得到的教訓是:
后訓練階段的瓶頸,不是等“更好的底座模型”來解決,而是靠方法和數據本身的精煉(refine)來解決。

換句話說,如果說Gemini-3 靠“堆知識(預訓練)”贏得了上半場,那么DeepSeek-V3.2-Speciale則通過“堆思考(長上下文RL)”贏回了下半場。
此外,對于大模型已經撞到天花板了的論調,他表示:
預訓練能scaling,RL也能scaling,context也能scaling,所有維度都還在上漲。

這表明RL不僅有效,還能通過scaling(更大 batch、更長context、更豐富任務)獲得巨額收益。
同時,在論文中,也有網友發現了為什么DeepSeek-V3.2在HLE和GPQA 等知識基準測試中表現稍遜:
因為計算資源有限!而單靠強化學習是無法達到這樣的水平的。

換句話說,DeepSeek與頂尖模型的差距已經不是技術問題,而是經濟問題。
只要卡夠,好的開源不比閉源差!
想到會便宜,沒想到會便宜這么多
除了性能上持平頂尖閉源模型外,DeepSeek-V3.2系列這次也著實讓大家見識到了“智能便宜到不用計費”。

如果從百萬token輸出成本來看,DeepSeek-V3.2比GPT-5便宜近24倍,比Gemini 3 Pro,便宜近29倍。

而隨著輸出token個數的增加,這個差距最高可拉大到43倍。
這是什么概念呢?就好比你讓大模型一次性“寫”出一套《三體》三部曲,用GPT-5你大概需要八百塊,Gemini 3 Pro需要一千塊。
用DeepSeekV3.2只需要差不多35塊錢!
所以,性能差不多,價格卻能差出幾十倍。該選哪邊,答案不用多說了吧?
對此,有網友表示,DeepSeek-V3.2這一經濟實惠的開源模型正在挑戰Gemini3.0 Pro。

而另一頭OpenAI昂貴的訂閱費,瞬間就不順眼了。

當然,這并不是說DeepSeekV3.2毫無缺點。
正如一位網友指出的,同樣解決一個問題,Gemini只需要2萬個token,而Speciale則需要花費7.7萬個。
(這實際上也是上面長下文RL的trade off)

不過,低廉的價格也在一定程度上彌補了現階段Speciale版本的弱點。
總的來說,DeepSeek仍舊是更實惠的那個。
除此之外,也許更讓硅谷感到頭疼的就是DeepSeek-V3.2還可能直接在國產算力(華為、寒武紀)中部署,而這將進一步拉低模型推理的成本。
此前,在發布DeepSeek-V3.2-Exp時,DeepSeek在發布首日就針對華為Ascend硬件和CANN軟件棧進行了優化。
這次的DeepSeek-V3.2系列雖然沒有明確表示,但大概率也會延續此前的戰略。
換句話說,難過可能的不止是谷歌和OpenAI,還有他們的好兄弟——英偉達。
然而,這里的價格還只是模型公司的定價,并非推理的實際成本。
盡管我們無法得知各家模型實際的推理成本,但從DeepSeek的技術報告中可以看到一個清晰趨勢:
相較于前一代模型DeepSeek-V3.1-Terminus,DeepSeek-V3.2在最長上下文(128K)場景下,成本降低了75%到83%左右。
這意味著隨著注意力機制與后訓練的不斷優化,底層推理成本正在持續下探。
正如一位網友所總結的那樣:
DeepSeek證明了:實現強大的AI,并不一定需要夸張的資本投入。
參考鏈接
[1]https://x.com/airesearch12/status/1995465802040983960
[2]https://www.nbcnews.com/tech/innovation/silicon-valley-building-free-chinese-ai-rcna242430
- 清華成立具身智能與機器人研究院2025-12-04
- 后生可畏!何愷明團隊新成果發布,共一清華姚班大二在讀2025-12-04
- 爆發力超越波士頓動力液壓機器人,PHYBOT M1實現全球首次全尺寸重型電驅人形機器人完美擬人態后空翻2025-11-26
- DeepSeek再破谷歌OpenAI壟斷:開源IMO數學金牌大模型2025-11-28




