高通,看見(jiàn)了AI芯片的“多面”
從“云端”到“邊緣”
蕭簫 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
AI芯片行業(yè),正面臨著層出不窮的需求。
據(jù)Research and Markets預(yù)測(cè),數(shù)據(jù)中心的AI芯片(即AI加速器)市場(chǎng)規(guī)模將從2018年的28.4億美元,增長(zhǎng)到2023年的211.9億美元。
AI芯片,分為訓(xùn)練和推理,前者用來(lái)“做模型”(跑大量數(shù)據(jù)、調(diào)整參數(shù)),后者則用來(lái)“出結(jié)果”(實(shí)時(shí)檢測(cè)、目標(biāo)跟蹤)。
“做模型”就像是產(chǎn)品加工,在“工廠”里完成,但模型出來(lái)后,就不局限在“工廠”中了,還能部署到手機(jī)、汽車等設(shè)備上使用。
這里的“工廠”,通常是云端,那里有大量服務(wù)器部署;而手機(jī)、汽車等設(shè)備,被稱為邊緣?(終端),也是AI模型真正需要用到的地方。
可以看出,AI訓(xùn)練芯片只靠絕對(duì)算力——只要算力越高,模型訓(xùn)練得就越快。
但手機(jī)和汽車等設(shè)備,受體積、儲(chǔ)能、實(shí)時(shí)等諸多限制和要求,算力已不再是單一的考慮條件。
AI推理芯片不僅看算力,還要講究時(shí)延、功耗和成本。
相對(duì)于AI訓(xùn)練芯片,AI推理芯片需求量更高,使用場(chǎng)景也更廣泛。
市調(diào)機(jī)構(gòu)Tractica稱,預(yù)計(jì)從2018到2025年的7年時(shí)間里,AI推理芯片將有10倍的增長(zhǎng),至2025年可達(dá)170億美元。
事實(shí)上,無(wú)論是算力、還是硬件要求,邊緣推理芯片的設(shè)計(jì)都要比云端更復(fù)雜。
處在野蠻生長(zhǎng)階段的AI芯片市場(chǎng),做好云端推理芯片已非易事,入局邊緣芯片還會(huì)更難。
但高通卻做出了嘗試。
18個(gè)月,性能領(lǐng)跑行業(yè)
2019年4月,高通宣布推出Cloud AI 100芯片,稱它是“為滿足急劇增長(zhǎng)的云端AI推理處理的需求而設(shè)計(jì)”、“讓分布式智能可以從云端遍布至用戶的邊緣終端,以及云端和邊緣終端之間的全部節(jié)點(diǎn)。”
那時(shí)候,市場(chǎng)上也有部分人士持并不看好的態(tài)度。一些觀點(diǎn)認(rèn)為,2019年再入局云端AI芯片、并趕超最先進(jìn)的云端AI推理芯片,似乎為時(shí)已晚。
而18個(gè)月過(guò)后,Cloud AI 100芯片在ResNet-50上的測(cè)試效果流出,引爆了行業(yè)內(nèi)的深水炸彈。
從圖中來(lái)看,橫軸是功耗(越小越好,圖中右邊更小);縱軸是吞吐量(越高越好)。
即使是英偉達(dá)最新Ampere架構(gòu)的A100芯片,吞吐量也不到25000,耗能卻超過(guò)了300W。
從功耗來(lái)看,英特爾的Goya可低達(dá)100W,但吞吐量只能達(dá)到15000左右。
相比之下,高通的Cloud AI 100 PCle,吞吐量超過(guò)25000,卻只需要75W。
這樣的芯片性能,聽(tīng)起來(lái)讓人難以置信。
而且,這個(gè)75W的芯片,支持最高每秒400萬(wàn)億次(400TOPS)的算力。
高通到底在云端AI推理芯片上“施了什么魔法”?
先來(lái)看看它的內(nèi)部結(jié)構(gòu):
16個(gè)AI內(nèi)核(AIC)
支持INT8,INT16,F(xiàn)P16和FP32
4個(gè)64位內(nèi)存控制器(LPDDR4×)
144MB的片上SRAM高速緩存
也就是說(shuō),通道的總系統(tǒng)帶寬為134GB/s,但144MB的片上SRAM高速緩存設(shè)計(jì),在片上保存了盡可能多的存儲(chǔ)器流量。
此外,7nm的工藝節(jié)點(diǎn),也有助于降低功耗。
而在封裝上,高通采取了三種不同的形式:
DM.2e,15W,超過(guò)50 TOPS
DM.2,25W,超過(guò)200 TOPS
PCle,75W,約400 TOPS
其中,DM.2從外形來(lái)看,有點(diǎn)像兩個(gè)相鄰的M.2連接器,其中,M.2以尺寸小、傳輸性能高廣受歡迎。
而DM.2e是dual M.2 edge的縮寫(xiě),意為“兩個(gè)邊緣的M.2連接器”,是一種更小、功耗更低的熱封殼外形。
從DM.2e的芯片設(shè)計(jì)來(lái)看,高通的目標(biāo)似乎并不僅局限于云端。
將云端芯片“邊緣”化
事實(shí)上,從行業(yè)消息來(lái)看,云端的確不是高通的終點(diǎn)。
這次的Cloud AI 100,也將目光放在了更長(zhǎng)遠(yuǎn)、更現(xiàn)實(shí)的位置——邊緣人工智能(Edge AI)。
國(guó)際數(shù)據(jù)公司IDC的半導(dǎo)體研究總監(jiān)Michael J. Palma曾表示:“人工智能的成功,在于部署到邊緣的系統(tǒng),在邊緣系統(tǒng)中,神經(jīng)網(wǎng)絡(luò)做出的即時(shí)決策實(shí)際上可以創(chuàng)造價(jià)值,不受延遲和連接問(wèn)題的約束——而這些問(wèn)題對(duì)云解決方案來(lái)說(shuō)是個(gè)挑戰(zhàn)。”
據(jù)市場(chǎng)調(diào)研機(jī)構(gòu)MarketsandMarkets預(yù)測(cè),全球邊緣人工智能軟件市場(chǎng)規(guī)模,將從2018年的3.56億美元,增長(zhǎng)到2023年的11.52億美元。
在2018年到2023年的預(yù)測(cè)期內(nèi),年復(fù)合增長(zhǎng)率(CAGR)為26.5%。
在Cloud AI 100芯片開(kāi)始應(yīng)用的同時(shí),高通也同時(shí)發(fā)布了對(duì)應(yīng)的邊緣人工智能開(kāi)發(fā)工具包——Cloud AI 100 Edge AI SDK。
這一工具包,主要由以下3大模型構(gòu)成:
Cloud AI 100芯片(低功耗、高性能AI芯片)
驍龍865模塊化平臺(tái)(負(fù)責(zé)應(yīng)用&視頻處理)
驍龍X55調(diào)制解調(diào)器及射頻系統(tǒng)(5G連接)
這一工具包,除了上述芯片所包含的5G特性、能耗低等特點(diǎn)以外,目前透露的功能還有不少。
其中,支持24個(gè)相機(jī)同時(shí)拍攝分辨率達(dá)1920×1080的視頻流、每秒25幀的高清視頻。
不僅支持遠(yuǎn)程訪問(wèn)、可升級(jí)空中下載軟件、可部署到戶外,而且在PyTorch、ONNX、Tensorflow上都能運(yùn)行。
此外,這一SDK還支持Keras、Caffe、PaddlePaddle等主流框架。
至于應(yīng)用方向,包括新聞推送、廣告、個(gè)性化視頻、搜索、XR和游戲等,可以說(shuō)是邊緣的應(yīng)用場(chǎng)景,它都能滿足。
據(jù)高通近日公布的消息,Cloud AI 100正面向其全球部分客戶出貨,預(yù)計(jì)采用該產(chǎn)品的商用設(shè)備將于2021年上半年面市。
回看高通AI探索節(jié)點(diǎn)后的發(fā)現(xiàn)
“高通在AI研發(fā)方面擁有悠久的歷史。”
高通人工智能及邊緣計(jì)算資深總監(jiān)John Kehrli表示:“高通正處于第五代移動(dòng)端解決方案中,擁有超過(guò)11年的研發(fā)經(jīng)驗(yàn),因此,高通正在利用行業(yè)專業(yè)知識(shí)(進(jìn)行研發(fā))。雖然這是AI內(nèi)核,它與移動(dòng)技術(shù)并不相同,但我們可以利用那個(gè)領(lǐng)域的經(jīng)驗(yàn)。”
實(shí)際上,早在2007年,高通旗下的Qualcomm Research就啟動(dòng)了首個(gè)人工智能項(xiàng)目,并于2018年成立Qualcomm AI Research。
2015年,搭載第一代AI Engine(人工智能引擎)的高通驍龍820發(fā)布,第二年,高通發(fā)布了神經(jīng)處理引擎SDK。
在驍龍835、845和855發(fā)布后,2019年,高通正式發(fā)布第五代AI Engine驍龍865移動(dòng)平臺(tái)。
高通第五代AI Engine支持許多移動(dòng)端的新老應(yīng)用,包括AI實(shí)時(shí)語(yǔ)音翻譯、人像留色、背景虛化、AI一鍵多拍、夜景拍攝與人像智能識(shí)別……
今年,高通也同樣在AI賽道上飛速奔馳。
6月18日,高通推出全球首款支持5G和AI的機(jī)器人平臺(tái)RB5。
此后推出了驍龍690 5G移動(dòng)平臺(tái)、驍龍750G 5G移動(dòng)平臺(tái)等,同樣支持第五代AI Engine。
9月初,驍龍8cx第二代5G計(jì)算平臺(tái)發(fā)布,支持AI Engine。
同樣在近期,F(xiàn)acebook發(fā)布的Oculus Quest 2首次搭載了驍龍XR2平臺(tái),與前代平臺(tái)相比,驍龍XR2平臺(tái)的AI處理能力提升高達(dá)11倍,能夠支持更多感知算法。
9月中旬,高通的云端推理芯片Cloud AI 100已經(jīng)出貨,同時(shí),高通開(kāi)始探索Cloud AI 100邊緣方案開(kāi)發(fā)套件,并已實(shí)際交付。
這是它在AI芯片行業(yè)、邊緣人工智能邁出的新一步。
在全球人工智能產(chǎn)業(yè)的生態(tài)系統(tǒng)逐步成型的當(dāng)下,AI已然成為各行各業(yè)加速發(fā)展的助推器。
高通也不例外,從手機(jī)、PC、XR到機(jī)器人等等,它在飛速推動(dòng)各領(lǐng)域的AI升級(jí)。
目前,高通的所有系統(tǒng)級(jí)芯片都支持AI、或集成AI Engine。
對(duì)于AI芯片而言,就像產(chǎn)品的最終目的是落地一樣,從“云端”到“邊緣”也是一種必然的趨勢(shì)。
如果只將目光放在眼下單一領(lǐng)域的利益發(fā)展、而非多角度進(jìn)行探索,將難以在競(jìng)爭(zhēng)愈漸激烈的行業(yè)中謀得生存。高通的全方位投入所取得的成果,讓AI行業(yè)看見(jiàn)了新的范例。
參考鏈接:
https://www.globenewswire.com/news-release/2019/01/23/1703961/0/en/21-1-Billion-Data-Center-Accelerator-CPU-GPU-FPGA-ASIC-Market-2018-Global-Forecast-to-2023.html



