AI芯片評測如何與時俱進?地平線提出全新MAPS評測方法,幫助用戶理解AI芯片性能
從準、快、省這三個維度來看。
允中 發自 凹非寺
量子位 編輯 | 公眾號 QbitAI
AI芯片性能該如何評估?目前業界內有兩種:
一是峰值算力,它反映AI芯片理論上的最大算力,但卻不能反映其在實際場景中的處理能力;
二是目前行業知名的基準測試組織MLPerf,用傳統AI模型的運算時間來衡量芯片的速度,但是其采用的模型難以跟上當今快速演進的算法。
那么,業界有沒有一個與時俱進的,能夠有效衡量芯片AI性能的評測方法呢?
在中國計算機學會(CCF)主辦的2020全球人工智能和機器人峰會上,地平線聯合創始人兼技術副總裁黃暢提出了一個全新的概念——MAPS (Mean Accuracy-guaranteed Processing Speed),即“在精度有保障范圍內的平均處理速度”。
它的意思是在精度有保障的范圍測試平均效能如何,得到一個全面、完整、客觀、真實的評估。以此來作為評估芯片AI真實性能的標準。
歷史上有很多常用的芯片性能評估指標。
傳統上,CPU有MIPS,GPU有Textur和Pixel。在高性能計算上,GPU開始使用TFLOPS,即每秒浮點運算次數。進入到NPU,也就是用于支持AI計算的時代,大家普遍使用TOPS。
這是常規的性能評估方式,無一例外的它都能反映出這顆處理器、芯片所處的應用場景中的特點、需求。
但是TOPS是不是能夠真實的反映芯片的AI性能?
在下面這張圖中有兩顆比較主流的AI芯片,一顆主流芯片有11.4TOPS的算力,另外一顆芯片有4TOPS的AI算力,都是它們的峰值算力。
但在實際使用過程中,二者的利用率差異是非常大的。11.4TOPS算力的芯片在多數情況下,甚至還不及4TOPS算力的芯片。
這里面有很多原因,有算法本身的特點,比如說數據的重復性比較差導致。但是往往根因是在于這些芯片的計算架構,它的設計特點不能夠很好地反映這些算法發展的趨勢。
比如AlphaGo,它的訓練的量從2012年到2019年提升了7個數量級。還有ImageNet,近年來,這項測試的精度基礎趨近飽和,業界開始關注計算的效率,提出了很多輕量級模型。
與此同時,摩爾定律已經逐漸失效,如果還用傳統的算力指標,就無法跟上時代,更不能反映算法提升在AI芯片中的作用。
所以如何評估芯片的AI性能,黃暢認為應該換一個角度,從準、快、省這三個維度來看。
準是反映實際需求任務上的算法精度,比如說圖像分類里面用Top-1或者Top-5的精度判斷它是不是準,還有COCO里面可以用mAP指標描述它,不同的任務里面,在學術界已經有比較多共識
快通常有兩個維度,一個是延遲,一個是吞吐率。前者更側重于處理單個任務的最快反應時間,后者應用于你可以在服務器層面上用最大的處理方式處理它的吞吐率。
省就是看它的成本和功耗。
前面提到的MLPerf就只看芯片的“快”,它只選取少數模型,在精度相同的條件下比誰的速度快,但是它采用的模型都是三年前的經典模型,無法體現高效能算法的進步。
如果我們放下所有的成見,包容所有的模型選擇,只關注芯片跑得多準以及跑得多快。那是不是一個更有包容性、更開放的評測方法呢?
為了打破傳統性能評估的困境,地平線提出了MAPS。
黃暢認為,相比傳統的測試標準,MAPS有六大創新點:
- 能夠可視化芯片的Benchmark,通過可視化的圖形更精確的表達;
- 關注真實、面向結果的需求,只在乎精度和速度,不在乎中間任何關于算法的取舍和選擇;
- 可以統一表示精度與速度,關注主流精度區間。
- 隱藏與最終結果無關的中間變量,包括模型、輸入大小、批處理的量是多大;
- 通過這種方法可以在算力之外幫助用戶理解這個芯片到底能跑多快以及多好;
- 可以引導客戶如何用最優的方式使用芯片。
長期致力于AI芯片的軟硬件研發和商業落地的地平線,此次提出MAPS芯片AI性能評測方法,為行業提供一個能幫助用戶更好理解芯片AI性能的角度。
地平線認為,這個評測方法最重要的意義,是鼓勵行業樹立對正確目標的統一認知,形成合力,更好地協同推動AI芯片產業發展。
地平線希望未來能有更多的軟件、算法工作者,在MAPS評估指導體系的啟發下,從自己最擅長的能力上持續推動AI芯片能力的發揮。
- 腦機接口走向現實,11張PPT看懂中國腦機接口產業現狀|量子位智庫2021-08-10
- 張朝陽開課手推E=mc2,李永樂現場狂做筆記2022-03-11
- 阿里數學競賽可以報名了!獎金增加到400萬元,題目面向大眾公開征集2022-03-14
- 英偉達遭黑客最后通牒:今天必須開源GPU驅動,否則公布1TB機密數據2022-03-05



