黃仁勛從煤氣灶下取出最新GPU：7nm全新安培架構(gòu)，售價20萬美元，訓(xùn)練性能頂6張V100

曉查 2020-05-15 09:17:06 來源：量子位

沒有3080顯卡

曉查賈浩楠發(fā)自凹非寺
量子位報道 | 公眾號 QbitAI

深黑的皮衣，蒼白的頭發(fā)。

熟悉的老黃又來了，但是少了寬敞的會場和粉絲的尖叫。

因為美國疫情的原因，英偉達和其他科技公司一樣，把今年的GPU技術(shù)大會（GTC 2020）改成線上舉行。

然而讓人意想不到的是，今年的GTC甚至都沒有采用直播形式，而是直接一口氣放出7段視頻，還是黃仁勛在家提前錄好的。偷懶程度可能僅次于蘋果直接上架新品。

就算Zoom不安全，老黃你好歹用別的軟件直播一下啊。

不知道是不是聽過玩家圈里2080Ti煤氣灶的梗，老黃昨天發(fā)了一段預(yù)熱視頻：在自家煤氣灶下方取出了一個超大的的設(shè)備——一個裝有8個GPU的服務(wù)器主板，號稱全球最大圖形卡。

老黃的意思是不是說，這臺GPU能熱到和烤箱一樣的程度呢。

從體積來看，這不可能是一臺消費級顯卡，難道RTX 3080沒有了？

很遺憾，是的。

今年的GTC沒有RTX系列游戲顯卡的更新。但是已經(jīng)服役3年的V100迎來了繼任者，全新基于安培架構(gòu)的專業(yè)級GPU——A100。在AI訓(xùn)練這件事上，一片頂過去六片。

這臺AI運算性能怪獸進一步加強了張量運算能力，加入新的支持稀疏張量運算的張量核心，以后黃教主GPU似乎可以改稱TPU了。

至于A100性能參數(shù)如何，下面開始詳解。

首款安培架構(gòu)GPU問世

V100的“V”代表Volta架構(gòu)，A100的“A”則代表Ampere架構(gòu)。

最新的A100 GPU集成了超過540億個晶體管，這使它榮獲全球最大尺寸的7nm制程處理器的稱號。

黃教主解釋道，如此高的集成度已經(jīng)達到了現(xiàn)今半導(dǎo)體工藝的極限，A100是人類有史以來生產(chǎn)過的最大的處理器內(nèi)核，也是人類有史以來集成度最高的計算機處理器。

英偉達大幅度提升了A100的張量計算核心（Tensor cores）的性能，F(xiàn)P32性能達到19.5萬億次/秒。包含6912個CUDA核心、40GB內(nèi)存和1.6TB/s的內(nèi)存帶寬。

但集成了如此優(yōu)秀的性能的GPU，你卻不能用它來玩任何3A大作。

A100本身也不是游戲顯卡。在單精度和雙精度浮點算力上，A100相比V100提升不大，但是張量核心的運算能力有了很大的提高，F(xiàn)P16張量算力幾乎是V100的2.5倍。

而且V100還新加入了對32位張量浮點運算（TF32）的支持，能更好地處理AI運算中的稀疏張量。

加入對稀疏張量的優(yōu)化后，A100在FP16精度上的算力是V100的5倍，而在INT8上則提升了200倍！

這次強大的張量核心，給A100在AI上帶來了性能的飛躍。以NLP領(lǐng)域的BERT算法為例，A100 比 V100在訓(xùn)練速度上提升6倍，在推理速度上提升了7倍。

顯存帶寬的提升也非常可觀，多層HBM2內(nèi)存可提供總計1.6 TB/s的帶寬，比前代提升了78%。

英偉達將把A100應(yīng)用到堆棧AI系統(tǒng)，就是老黃前幾天從自家烤箱中拿出來的那個「預(yù)熱」好的GPU板。這個全新的堆棧AI系統(tǒng)稱為DGX A100，集成了8塊A100。

DGX A100系統(tǒng)能夠達到5千萬億次/s的浮點計算性能。這要歸功于這8顆A100，使用了Nvidia的第三代NVLink進行集成。

8個GPU組合在一起，意味著有320GB的GPU內(nèi)存和12.4TB/s的內(nèi)存帶寬。系統(tǒng)還包括15TB的第4代NVMe內(nèi)部存儲，為AI訓(xùn)練任務(wù)提供強大的支持。

這套系統(tǒng)的價格不菲，DGX A100的售價為19.9萬美元，堪稱史上最貴“烤箱”。

但是黃教主就是刀法嫻熟，之前對消費級顯卡精準(zhǔn)切削，現(xiàn)在對DGX A100精準(zhǔn)“切蛋糕”。

這套刀法叫做多實例GPU（MIG），可將單個A100 GPU劃分為多達七個獨立的GPU。

也就是說，使用DGX A100系統(tǒng)的研究人員和科學(xué)家可以將任務(wù)拆分成多達56個實例，將眾多小規(guī)模任務(wù)分散在強大的GPU上。

買不起A100沒關(guān)系，可以再找?guī)讉€人眾籌啊。

DGX A100系統(tǒng)已經(jīng)開始發(fā)售，首先將應(yīng)用在美國阿貢國家實驗室對COVID-19新冠病毒的研究中。

黃仁勛說：“DGX A100系統(tǒng)的算力將幫助研究人員探索治療方法和疫苗，并研究病毒的傳播，使科學(xué)家能夠在數(shù)月或數(shù)日內(nèi)完成數(shù)年的AI加速工作。”

除了科研機構(gòu)外，英偉達表示，微軟、亞馬遜、谷歌、阿里、百度、騰訊、浪潮、聯(lián)想等大型云服務(wù)提供商計劃將A100 整合到自己的產(chǎn)品中。

自動駕駛芯片性能提升6倍

在本次GTC大會主題演講中，黃仁勛宣布，通過即將推出的Orin系統(tǒng)芯片（SoC）系列和A100 GPU，對現(xiàn)有的英偉達自動駕駛專用平臺DRIVEAGX進行擴展。

此次擴展的范圍覆蓋從ADAS系統(tǒng)到DRIVEAGX PegasusRobotaxi平臺。

新DRIVEAGX平臺將會搭載一款新型Orin SoC。它的功率僅為5瓦，但性能卻可達到10TOPS。

新平臺還憑借兩個Orin SoC和兩塊A100 GPU，實現(xiàn)2000TOPS的性能，滿足自動駕駛所需的更高分辨率傳感器輸入，以及更先進的自動駕駛算法。

該架構(gòu)是英偉達自動駕駛SoC迄今為止最大的性能飛躍，將DRIVE系統(tǒng)的性能提高了6倍。

現(xiàn)在，已經(jīng)有小馬智行、法拉第未來、Canoo等電動汽車和自動駕駛初創(chuàng)公司宣布與英偉達合作，在研發(fā)的汽車或自動駕駛產(chǎn)品中使用DRIVEAGX計算平臺。

新邊緣AI套件

本次線上GTC 2020還發(fā)布了兩款性能強大的EGX邊緣AI平臺產(chǎn)品：適用于較大型商業(yè)通用服務(wù)器上的EGXA100，和適用于微型邊緣服務(wù)器的Jetson Xavier NX。

這兩款產(chǎn)品能夠在邊緣提供安全、高性能的AI處理能力。

EGX Jetson Xavier NX是全球體積最小、性能最強大的AI算力平臺，適用于微型服務(wù)器和邊緣智能物聯(lián)網(wǎng)盒。

新主板的外觀與Jetson Nano Developer Kit完全相同。在連接方面，它仍然擁有HDMI和DisplayPort接口，4個USB 3.0接口，一個microUSB接口，以及常見的GPIO接口選項。為了將攝像頭連接到系統(tǒng)，它還配備了兩個MIPI CSI-2端口連接器。

Xavier NX本身不是新東西，但是這次英偉達開始以開發(fā)者套件形式出售，價格和單機相同，都是399美元。與Jetson Nano的被動散熱方案相比，新的開發(fā)套件采用了主動式散熱風(fēng)扇。

平臺自帶英偉達提供的 “云-native “支持，提供了邊緣AI系統(tǒng)部署的解決方案，包括AI模型實例，幫助用戶入門AI開發(fā)。

其他更新

除了A100、自動駕駛AGX、邊緣平臺Jetson Xavier NX外，英偉達還推出了：

1、GPU加速應(yīng)用框架——NVIDIA Jarvis

2、開源社區(qū)合作，為Apache Spark 3.0提供端到端GPU加速

3、NIVIDIA醫(yī)療平臺Clara重大性能拓展

4、25/50 Gb/s智能以太網(wǎng)卡NVIDIA Mellanox ConnectX-6LxSmartNIC

游戲顯卡呢？

這次英偉達并未推出游戲顯卡，其實也在意料之中。

老黃向來以刀法精準(zhǔn)著稱，去年才發(fā)布了20系的Super顯卡，在中端顯卡之間插入空位，低端顯卡又有1660卡位，實在是沒有動力升級啊。

況且在消費級顯卡上使用7nm工藝，將比上一代的12nm制程提升太多，此前有傳言稱，3080Ti的性能比2080Ti提升40%。

果真如此的話，黃仁勛就真的把牙膏擠爆了。

安培架構(gòu)都來了，RTX 3080還會遠嗎？更何況安培架構(gòu)提升還這么大，下一代游戲顯卡性能可期啊！

參考鏈接：

https://www.youtube.com/playlist?list=PLZHnYvH1qtOZ2BSwG4CHmKSVHxC2lyIPL

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

英偉達黃仁勛

曉查

黃仁勛從煤氣灶下取出最新GPU：7nm全新安培架構(gòu)，售價20萬美元，訓(xùn)練性能頂6張V100

首款安培架構(gòu)GPU問世

自動駕駛芯片性能提升6倍

新邊緣AI套件

其他更新

游戲顯卡呢？

相關(guān)閱讀

特斯拉將召回逾10萬輛國產(chǎn)車，英偉達40系顯卡被曝7月發(fā)布，騰訊超30歲員工占近6成，今日更多大新聞在此

國產(chǎn)GPU重大利好！“中國英偉達”千卡集群已就位

英偉達用AI設(shè)計GPU：最新H100已經(jīng)用上，比傳統(tǒng)EDA減少25%芯片面積

340B險勝70B，Kimi機器人貼臉“嘲諷”英偉達新開源模型

英偉達「一句話生成3D模型」碾壓谷歌：分辨率清晰8倍，速度快2倍，編輯文本還可直接修改

英偉達上線游戲云服務(wù)平臺GeForce Now，每月4.99美元

熱門文章

“豆包手機”在二手市場價格都翻倍了……

英偉達巧用8B模型秒掉GPT-5，開源了

谷歌新架構(gòu)突破Transformer超長上下文瓶頸！Hinton靈魂拷問：后悔Open嗎？

SpaceX估值8000億美元超OpenAI，IPO就在明年

Ilya剛預(yù)言完，世界首個原生多模態(tài)架構(gòu)NEO就來了：視覺和語言徹底被焊死