RTX 3090 AI性能實(shí)測:FP32訓(xùn)練速度提升50%,張量核心縮水
RTX 3090是最強(qiáng)AI訓(xùn)練卡嗎?
曉查 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號 QbitAI
NVIDIA最近發(fā)布了備受期待的RTX 30系列顯卡。
其中,性能最強(qiáng)大的RTX 3090具有24GB顯存和10496個(gè)CUDA核心。而2018年推出的旗艦顯卡Titan RTX同樣具有24GB顯存。
RTX 3090在深度學(xué)習(xí)訓(xùn)練任務(wù)中,性能表現(xiàn)究竟如何,它能否取代Titan RTX成為最強(qiáng)消費(fèi)級AI訓(xùn)練卡?現(xiàn)在已經(jīng)有了答案。
國外兩位AI從業(yè)者在拿到這款顯卡后,第一時(shí)間測試了其在TensorFlow上的AI訓(xùn)練性能。
由于RTX 3090現(xiàn)階段不能很好地支持TensorFlow 2,因此先在TensorFlow 1.15上進(jìn)行測試。
話不多說,先看數(shù)據(jù)。在FP32任務(wù)上,RTX 3090每秒可處理561張圖片,Titan RTX每秒可處理373張圖片,性能提升50.4%!
而在FP16任務(wù)上,RTX 3090每秒可處理1163張圖片,Titan RTX每秒可處理1082張圖片,性能僅提升7.5%。
為何在FP32任務(wù)上的性能提升比在FP16上更明顯,主要是因?yàn)镽TX 3090大大提高了CUDA核心的數(shù)量。但是用于處理FP16的張量核心數(shù)量明顯減少,這可能會影響FP16性能。
即便如此,張量核心更少的RTX 3090在很多FP16任務(wù)上,性能依然有小幅提升。
隨后,英偉達(dá)官方提供了支持RTX 3090的CUDA 11.1,谷歌官方在TensorFlow nightly版中提供了對最新顯卡的支持。
又有用戶再次測試了兩款顯卡的性能對比。
△ 訓(xùn)練性能:每秒處理的圖片數(shù)量
可以看出,使用FP32進(jìn)行的所有模型訓(xùn)練,RTX 3090都能實(shí)現(xiàn)40%~60%的訓(xùn)練提升。而大多數(shù)模型的FP16訓(xùn)練速度幾乎不變,最多提升20%,甚至在Inception模型上還有所下降。
只能說RTX 3090在張量核心上的“刀法”頗為精準(zhǔn),如果你對FP16訓(xùn)練性能有較高要求,也許可以等待今后的升級版。
不過RTX 3090上市價(jià)格僅1499美元,比Titan RTX便宜1000美元,仍不失為“性價(jià)比”之選。
參考鏈接:
https://www.pugetsystems.com/labs/hpc/RTX3090-TensorFlow-NAMD-and-HPCG-Performance-on-Linux-Preliminary-1902/
https://www.evolution.ai/post/benchmarking-deep-learning-workloads-with-tensorflow-on-the-nvidia-geforce-rtx-3090



