RTX 3090 AI性能實測:FP32訓練速度提升50%,張量核心縮水
RTX 3090是最強AI訓練卡嗎?
曉查 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
NVIDIA最近發布了備受期待的RTX 30系列顯卡。
其中,性能最強大的RTX 3090具有24GB顯存和10496個CUDA核心。而2018年推出的旗艦顯卡Titan RTX同樣具有24GB顯存。
RTX 3090在深度學習訓練任務中,性能表現究竟如何,它能否取代Titan RTX成為最強消費級AI訓練卡?現在已經有了答案。
國外兩位AI從業者在拿到這款顯卡后,第一時間測試了其在TensorFlow上的AI訓練性能。
由于RTX 3090現階段不能很好地支持TensorFlow 2,因此先在TensorFlow 1.15上進行測試。
話不多說,先看數據。在FP32任務上,RTX 3090每秒可處理561張圖片,Titan RTX每秒可處理373張圖片,性能提升50.4%!
而在FP16任務上,RTX 3090每秒可處理1163張圖片,Titan RTX每秒可處理1082張圖片,性能僅提升7.5%。
為何在FP32任務上的性能提升比在FP16上更明顯,主要是因為RTX 3090大大提高了CUDA核心的數量。但是用于處理FP16的張量核心數量明顯減少,這可能會影響FP16性能。
即便如此,張量核心更少的RTX 3090在很多FP16任務上,性能依然有小幅提升。
隨后,英偉達官方提供了支持RTX 3090的CUDA 11.1,谷歌官方在TensorFlow nightly版中提供了對最新顯卡的支持。
又有用戶再次測試了兩款顯卡的性能對比。
△ 訓練性能:每秒處理的圖片數量
可以看出,使用FP32進行的所有模型訓練,RTX 3090都能實現40%~60%的訓練提升。而大多數模型的FP16訓練速度幾乎不變,最多提升20%,甚至在Inception模型上還有所下降。
只能說RTX 3090在張量核心上的“刀法”頗為精準,如果你對FP16訓練性能有較高要求,也許可以等待今后的升級版。
不過RTX 3090上市價格僅1499美元,比Titan RTX便宜1000美元,仍不失為“性價比”之選。
參考鏈接:
https://www.pugetsystems.com/labs/hpc/RTX3090-TensorFlow-NAMD-and-HPCG-Performance-on-Linux-Preliminary-1902/
https://www.evolution.ai/post/benchmarking-deep-learning-workloads-with-tensorflow-on-the-nvidia-geforce-rtx-3090
- 腦機接口走向現實,11張PPT看懂中國腦機接口產業現狀|量子位智庫2021-08-10
- 張朝陽開課手推E=mc2,李永樂現場狂做筆記2022-03-11
- 阿里數學競賽可以報名了!獎金增加到400萬元,題目面向大眾公開征集2022-03-14
- 英偉達遭黑客最后通牒:今天必須開源GPU驅動,否則公布1TB機密數據2022-03-05




