英偉達(dá)新GPU,超長(zhǎng)上下文/視頻生成專用
Token密集型任務(wù)就要不密集了
henry 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
老黃對(duì)token密集型任務(wù)下手了。
剛剛,在AI Infra Summit上,英偉達(dá)宣布推出專為處理百萬(wàn)token級(jí)別的代碼生成和生成式視頻應(yīng)用的全新GPU——
NVIDIA Rubin CPX GPU。

老黃表示:Rubin CPX是首款為超大上下文AI量身定制的CUDA GPU,可以讓模型“一口氣”推理數(shù)百萬(wàn)token。
而且,RubinCPX還能讓你越用越省錢:每投資1億美元,就能獲得50億美元的token收益。(50倍,你就賺吧,老黃說(shuō)的)
對(duì)于“老黃畫的餅”,Cursor、Runway、Magic等行業(yè)大佬也表示RubinCPX將分別在代碼生產(chǎn)力、生成式影像創(chuàng)作、以及大模型自主代理上帶來(lái)突破。
那么好了好了,這GPU到底什么來(lái)頭?
首款專為超大上下文AI打造的CUDA GPU
Rubin CPX基于NVIDIA Rubin架構(gòu),采用單片設(shè)計(jì),內(nèi)置NVFP4計(jì)算資源,主打AI推理的高性能和高能效。
它的性能提升,主要體現(xiàn)在以下幾個(gè)方面:
- 在NVFP4精度下可提供高達(dá)30PFLOPS算力,做到性能與精度兼顧。
- 配備128GB高性價(jià)比GDDR7內(nèi)存,應(yīng)對(duì)最苛刻的上下文工作負(fù)載。
– 與NVIDIA GB300 NVL72系統(tǒng)相比,注意力機(jī)制處理速度提升3倍,讓模型在處理更長(zhǎng)上下文序列時(shí)也不掉速。
在這里,我們可以簡(jiǎn)單地拿A100來(lái)對(duì)比一下。
在算力方面,相較于A100的FP16精度,Rubin CPX專門優(yōu)化過(guò)的NVFP4可以實(shí)現(xiàn)幾個(gè)量級(jí)的性能提升。
而在內(nèi)存方面,NVIDIA A100是40GB 或80GB,Rubin CPX則直接干到了128GB,讓超大上下文處理毫無(wú)壓力。

(注:在處理超大上下文任務(wù)時(shí),GPU內(nèi)存容量至關(guān)重要:模型需要一次性加載數(shù)百萬(wàn)token的權(quán)重、激活值和中間計(jì)算結(jié)果,如果內(nèi)存不夠,就只能分批處理,既影響速度,也限制模型規(guī)模)
單片就已經(jīng)這么強(qiáng),組合還可以讓它更厲害!
英偉達(dá)表示,Rubin CPX還可以與NVIDIA Vera CPU和Rubin GPU協(xié)同工作,構(gòu)成全新的NVIDIA Vera Rubin NVL144 CPX平臺(tái)。
該平臺(tái)在單機(jī)架內(nèi)提供8EFLOPS的AI算力+100TB高速內(nèi)存+每秒1.7PB的內(nèi)存帶寬,較NVIDIA GB300 NVL72系統(tǒng)的AI性能提升了7.5倍。
*(注:1EFLOPS = 1000PFLOPS )
還沒完,在此基礎(chǔ)上,NVIDIA Vera Rubin NVL144 CPX還可以接入Quantum?X800 InfiniBand 或Spectrum?X以太網(wǎng)平臺(tái),實(shí)現(xiàn)大規(guī)模多機(jī)互聯(lián)計(jì)算,讓性能再上一個(gè)臺(tái)階。
預(yù)計(jì)明年正式推出
就像前面提到的,NVIDIA Rubin CPX 在長(zhǎng)上下文處理上實(shí)現(xiàn)了最高性能和最高token收益——遠(yuǎn)超現(xiàn)有系統(tǒng)的設(shè)計(jì)極限。
老黃表示,這將像RTX 革新了圖形和物理AI一樣,改變AI時(shí)代的上下文推理能力。
在實(shí)際應(yīng)用中,它能把AI編程助手從簡(jiǎn)單的代碼生成工具,升級(jí)為能夠理解并優(yōu)化大規(guī)模軟件項(xiàng)目的復(fù)雜系統(tǒng)。
在視頻處理方面,由于AI模型分析一小時(shí)內(nèi)容就可能涉及上百萬(wàn)token,突破了傳統(tǒng)GPU的算力極限。
為此,Rubin CPX將視頻解碼、編碼和長(zhǎng)上下文推理處理集成在單芯片中,為視頻搜索和高質(zhì)量生成式視頻等長(zhǎng)時(shí)格式應(yīng)用提供前所未有的能力。
此外,Rubin CPX將得到NVIDIA完整AI軟件棧支持,從加速基礎(chǔ)設(shè)施到企業(yè)級(jí)軟件一應(yīng)俱全。
最后,NVIDIA Rubin CPX預(yù)計(jì)將于2026年底正式推出。
Token密集型任務(wù)就要不密集了(一年后版)
參考鏈接
[1]https://nvidianews.nvidia.com/news/nvidia-unveils-rubin-cpx-a-new-class-of-gpu-designed-for-massive-context-inference
[2]https://www.runpod.io/articles/guides/nvidia-a100-gpu?utm_source=chatgpt.com
- 機(jī)器人集體到香港戶外極限挑戰(zhàn),狗比人強(qiáng)2025-12-08
- 編程界“奧斯卡”百度之星決賽揭曉,上千選手激烈角逐,山東16歲中學(xué)生王茂驊奪冠!2025-12-08
- 清華成立具身智能與機(jī)器人研究院2025-12-04
- DeepSeekV3.2技術(shù)報(bào)告還是老外看得細(xì)2025-12-04




