中國(guó)AI高速路,華為給出開(kāi)源開(kāi)放方案
要致富,先修路。AI建設(shè)也是一樣
henry 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
上周,華為全聯(lián)接大會(huì)集中展示了華為最新最強(qiáng)的一系列創(chuàng)新。
今年最受關(guān)注的自然是超節(jié)點(diǎn)技術(shù)帶來(lái)的算力風(fēng)暴和突破。但超節(jié)點(diǎn)帶來(lái)的算力突破還不是全部,超節(jié)點(diǎn)架構(gòu)帶動(dòng)的開(kāi)源開(kāi)放,還會(huì)把這場(chǎng)風(fēng)暴推得更深更遠(yuǎn)。
更加直觀類比來(lái)說(shuō),這是一場(chǎng)華為發(fā)起的“AI高速路”修路嘗試,開(kāi)放硬件相當(dāng)于開(kāi)放了修路材料,開(kāi)源軟件和靈衢組件相當(dāng)于開(kāi)源了修路方法和標(biāo)準(zhǔn)協(xié)議。
華為用開(kāi)源開(kāi)放,給出了中國(guó)AI高速公路樞紐建設(shè)的方案——
一個(gè)惠及各行業(yè)全場(chǎng)景,技術(shù)紅利覆蓋大中小各類玩家的生態(tài)。
大殺器超節(jié)點(diǎn),華為決定開(kāi)源開(kāi)放
在華為全聯(lián)接大會(huì)上,華為重磅發(fā)布創(chuàng)新的超節(jié)點(diǎn)架構(gòu),推出覆蓋數(shù)據(jù)中心到工作站的全場(chǎng)景超節(jié)點(diǎn)新品。
Atlas 950 SuperPoD是面向超大型AI計(jì)算任務(wù)的最佳選擇,從基礎(chǔ)器件、協(xié)議算法到光電技術(shù),實(shí)現(xiàn)了系統(tǒng)級(jí)的創(chuàng)新突破。
其通過(guò)正交架構(gòu),讓Atlas 950實(shí)現(xiàn)零線纜電互聯(lián),采用液冷接頭浮動(dòng)盲插設(shè)計(jì)做到零漏液,獨(dú)創(chuàng)的材料和工藝讓光模塊液冷可靠性提升一倍。
此外,Atlas 950 SuperPoD創(chuàng)新的UB-Mesh遞歸直連拓?fù)渚W(wǎng)絡(luò)架構(gòu),支持單板內(nèi)、單板間和機(jī)架間的NPU全互聯(lián),以64卡為步長(zhǎng)按需擴(kuò)展,最大可實(shí)現(xiàn)8192卡無(wú)收斂全互聯(lián)。
即便與英偉達(dá)產(chǎn)品對(duì)比,Atlas 950超節(jié)點(diǎn)也優(yōu)勢(shì)顯著。
相比計(jì)劃明年下半年上市的NVL144,其規(guī)模、總算力、內(nèi)存容量、互聯(lián)帶寬分別達(dá)到后者的56.8倍、6.7倍、15倍(1152TB)、62倍(16.3PB/s)。
即便對(duì)標(biāo)英偉達(dá)2027年計(jì)劃上市的NVL576,依舊遙遙領(lǐng)先。

Atlas 850是業(yè)界首個(gè)企業(yè)級(jí)風(fēng)冷AI超節(jié)點(diǎn)服務(wù)器,內(nèi)部搭載8張昇騰NPU,有效滿足企業(yè)模型后訓(xùn)練、多場(chǎng)景推理等需求。
Atlas 850支持多柜靈活部署,最大可形成128臺(tái)1024卡的超節(jié)點(diǎn)集群,是目前業(yè)內(nèi)唯一可在風(fēng)冷機(jī)房實(shí)現(xiàn)超節(jié)點(diǎn)架構(gòu)的算力集群,企業(yè)無(wú)需改造現(xiàn)有風(fēng)冷機(jī)房即可部署算力集群。

Atlas 350標(biāo)卡采用最新的昇騰950PR芯片,向量算力提升2倍,支持更細(xì)粒度的Cacheline訪問(wèn),在推薦推理場(chǎng)景可實(shí)現(xiàn)2.5倍性能提升,且單卡即可運(yùn)行。
Atlas 350支持靈衢端口互聯(lián),實(shí)現(xiàn)算力、內(nèi)存等資源池化,讓更大參數(shù)模型、更低時(shí)延應(yīng)用可以在標(biāo)卡上實(shí)現(xiàn)。

TaiShan 950 SuperPoD是華為推出的業(yè)界首款通算超節(jié)點(diǎn),具備百納秒級(jí)超低時(shí)延、Tb級(jí)超大帶寬和內(nèi)存池化能力,能大幅提升數(shù)據(jù)庫(kù)、虛機(jī)熱遷移和大數(shù)據(jù)場(chǎng)景等業(yè)務(wù)性能,為通算性能提升開(kāi)辟全新路徑。
這一系列的超節(jié)點(diǎn)新品能實(shí)現(xiàn)從數(shù)據(jù)中心、企業(yè)部署、小型工作站的全場(chǎng)景覆蓋,從而在硬件層面協(xié)同用戶實(shí)現(xiàn)個(gè)性化部署,推動(dòng)AI高速公路互通互聯(lián)。
而就在超節(jié)點(diǎn)發(fā)布的同時(shí),華為選擇了全面的開(kāi)放和開(kāi)源。
首先是硬件層面的開(kāi)放。
華為宣布全面開(kāi)放超節(jié)點(diǎn)技術(shù),與產(chǎn)業(yè)界共享技術(shù)紅利,共同推動(dòng)超節(jié)點(diǎn)技術(shù)走向普惠與協(xié)同創(chuàng)新。
一方面,開(kāi)放靈衢協(xié)議和超節(jié)點(diǎn)參考架構(gòu),允許產(chǎn)業(yè)界基于技術(shù)規(guī)范自研相關(guān)產(chǎn)品或部件。
另一方面,全面開(kāi)放超節(jié)點(diǎn)基礎(chǔ)硬件,包括NPU模組、風(fēng)冷刀片、液冷刀片、AI標(biāo)卡、CPU主板和級(jí)聯(lián)卡等不同形態(tài)的硬件,方便客戶和伙伴進(jìn)行增量開(kāi)發(fā),設(shè)計(jì)基于靈衢的各種產(chǎn)品。
其次是軟件層面的開(kāi)源。
超節(jié)點(diǎn)的運(yùn)行離不開(kāi)操作系統(tǒng)的深度支持,操作系統(tǒng)靈衢組件也將全部開(kāi)源,組件代碼將陸續(xù)合入openEuler等多個(gè)上游操作系統(tǒng)開(kāi)源社區(qū)。
用戶可以根據(jù)實(shí)際需求,將部分或全部源代碼集成到現(xiàn)有操作系統(tǒng)中,自行迭代維護(hù)版本,也可以將整個(gè)組件直接合入現(xiàn)有操作系統(tǒng),未來(lái)演進(jìn)與開(kāi)源社區(qū)版本同步。
開(kāi)源是驅(qū)動(dòng)技術(shù)創(chuàng)新和產(chǎn)業(yè)進(jìn)步的核心力量,昇騰CANN全面開(kāi)源開(kāi)放,Mind系列組件也同步開(kāi)源,并支持PyTorch、vLLM等業(yè)界開(kāi)源社區(qū),加速開(kāi)發(fā)者自主創(chuàng)新。
可以說(shuō),華為這一手硬件、一手軟件直接開(kāi)源了個(gè)痛快!

華為為何要開(kāi)源?
一方面,開(kāi)源能夠和產(chǎn)業(yè)界、開(kāi)發(fā)者社區(qū)基于超節(jié)點(diǎn)架構(gòu)自研相關(guān)產(chǎn)品或部件、自定義調(diào)試調(diào)優(yōu)、共享技術(shù)紅利,加速產(chǎn)業(yè)協(xié)同發(fā)展。
另一方面,開(kāi)源還有利于消費(fèi)者按需取用、降低適配成本,打造面向行業(yè)的超節(jié)點(diǎn)場(chǎng)景化解決方案。
華為董事、ICT BG CEO楊超斌表示:
華為將圍繞超節(jié)點(diǎn)架構(gòu)持續(xù)創(chuàng)新,讓超節(jié)點(diǎn)技術(shù)不但用于大型數(shù)據(jù)中心,也可以用于企業(yè)級(jí)的數(shù)據(jù)中心和小型工作站。同時(shí),堅(jiān)持硬件開(kāi)放,支持各個(gè)伙伴,靈活打造面向各個(gè)行業(yè)的超節(jié)點(diǎn)場(chǎng)景化解決方案。堅(jiān)持軟件開(kāi)源,讓開(kāi)發(fā)者靈活高效創(chuàng)新,共建繁榮生態(tài)。

這就意味著,超節(jié)點(diǎn)技術(shù)不再是少數(shù)大型數(shù)據(jù)中心的專屬利器,而是一個(gè)開(kāi)放共享的算力生態(tài)。
每個(gè)行業(yè)、每個(gè)企業(yè)、每位開(kāi)發(fā)者都能根據(jù)自身需求,靈活搭建自己的算力“高速路”。
無(wú)論是大型模型訓(xùn)練、復(fù)雜推理任務(wù),還是企業(yè)級(jí)應(yīng)用場(chǎng)景,用戶都能按需獲取硬件和軟件能力,實(shí)現(xiàn)算力資源的高效利用和靈活擴(kuò)展。
當(dāng)前,超節(jié)點(diǎn)已廣泛服務(wù)于互聯(lián)網(wǎng)、金融、運(yùn)營(yíng)商、電力、制造等行業(yè),幫助各類企業(yè)提升算力效率和業(yè)務(wù)能力:
- 把各個(gè)計(jì)算單元、存儲(chǔ)單元等組件通過(guò)大帶寬、低時(shí)延互聯(lián)網(wǎng)絡(luò)平等互聯(lián)。
- 統(tǒng)一通信協(xié)議,省去額外協(xié)議轉(zhuǎn)換開(kāi)銷。統(tǒng)一內(nèi)存編址,實(shí)現(xiàn)全局資源池化,使有效算力能夠隨集群規(guī)模線性擴(kuò)展。
- 通過(guò)靈衢協(xié)議的高可靠機(jī)制,并融入華為在通信上幾十年的積累,大幅提升集群可靠性。

雖然多芯片互聯(lián)、大規(guī)模計(jì)算節(jié)點(diǎn)以取代單芯片成為行業(yè)共識(shí),但傳統(tǒng)集群通過(guò)“服務(wù)器堆疊+以太網(wǎng)聯(lián)接”擴(kuò)展算力,往往帶寬受限、時(shí)延高,而且隨著規(guī)模越大效率也會(huì)越低、可靠性難以保障。
基于這一痛點(diǎn),華為以超節(jié)點(diǎn)架構(gòu)為“路基”,通過(guò)靈衢互聯(lián)協(xié)議,把分散的服務(wù)器深度互聯(lián),讓集群像一臺(tái)機(jī)器一樣學(xué)習(xí)、推理與協(xié)作,為AI大模型和行業(yè)應(yīng)用提供真正高效、穩(wěn)定、可擴(kuò)展的算力底座。
那么,什么是靈衢呢?
簡(jiǎn)單來(lái)說(shuō),靈衢(UnifiedBus)是一個(gè)面向超節(jié)點(diǎn)的互聯(lián)協(xié)議,我們可以把它理解成一個(gè)開(kāi)放共建的修路協(xié)議。
依托靈衢的超節(jié)點(diǎn)架構(gòu)具備資源池化、線性擴(kuò)展、長(zhǎng)穩(wěn)可靠等關(guān)鍵特性,從而實(shí)現(xiàn)計(jì)算、存儲(chǔ)單元的大帶寬和低時(shí)延互聯(lián),解決了傳統(tǒng)集群規(guī)模上升可靠性降低的痛點(diǎn)。
不僅如此,靈衢還是開(kāi)源的。
這就意味著,不規(guī)定唯一的修路方式,協(xié)議全面公開(kāi),大家可以因地制宜,在不同路況的搭建合適的車道。
結(jié)果就是——大家能自由開(kāi)發(fā)系統(tǒng)、調(diào)度軟件,生態(tài)越跑越繁榮。
開(kāi)放共建:修路不獨(dú)占
AI算力生態(tài),本質(zhì)上是 “修建數(shù)據(jù)傳輸與調(diào)度的高速路”。
以英偉達(dá)的NVLink為例,它就像“工業(yè)園內(nèi)部高速”,服務(wù)GPU單機(jī)或機(jī)架內(nèi)的數(shù)據(jù)傳輸——
這條路帶寬高、延遲低,卻因采用專有協(xié)議而相對(duì)封閉。
編譯、傳輸、通信、驅(qū)動(dòng)等規(guī)則均由其獨(dú)家制定,無(wú)法與其他生態(tài)互聯(lián)互通。
而華為則通過(guò)靈衢協(xié)議與超節(jié)點(diǎn)架構(gòu),走出了一條開(kāi)放之路:
它構(gòu)建的不是孤立路段,而是一套統(tǒng)一標(biāo)準(zhǔn)的 “綜合交通樞紐”—— 從卡間互聯(lián)的 “超高速磁懸浮”,到機(jī)柜內(nèi)互聯(lián)的 “城市環(huán)線”,再到機(jī)柜間互聯(lián)的 “全國(guó)高鐵網(wǎng)”,均采用同一套協(xié)議規(guī)則。
這意味著數(shù)據(jù)如同車輛,從起點(diǎn)到終點(diǎn)無(wú)需換道、等待,可全程暢通。
同時(shí),所有計(jì)算、內(nèi)存、存儲(chǔ)資源在此被打散、池化,系統(tǒng)能自動(dòng)匹配最高效的調(diào)度路徑,實(shí)現(xiàn)全局資源優(yōu)化。
更關(guān)鍵的是,華為不僅自己 “修路”,還將這套技術(shù)標(biāo)準(zhǔn)向全社會(huì)公開(kāi),邀請(qǐng)硬件廠商(“建筑公司”)、芯片企業(yè)(“汽車制造商”)共同參與,按統(tǒng)一標(biāo)準(zhǔn)研發(fā)硬件、適配產(chǎn)品,打破 “園區(qū)式” 封閉生態(tài)的隔閡,推動(dòng)整個(gè)國(guó)產(chǎn)算力生態(tài)做大做強(qiáng)。
此前,AMD、Intel、Apple 等企業(yè)發(fā)布的開(kāi)源UALink,雖有類似開(kāi)放嘗試,但受限于軟硬件積淀不足,難以支撐大規(guī)模擴(kuò)展的算力網(wǎng)絡(luò)。
就像楊超斌在會(huì)上提到的:當(dāng)前,上下文長(zhǎng)度和訓(xùn)練數(shù)據(jù)量激增,模型迭代速度加快、多任務(wù)協(xié)同與多輪推理、摩爾定律失效,行業(yè)的低時(shí)延等一系列要求,促使多芯片互聯(lián)、大規(guī)模計(jì)算成為必然。
而想充分釋放百億億次計(jì)算和萬(wàn)億參數(shù)AI模型的潛力,關(guān)鍵在于服務(wù)器集群中每個(gè)NPU間能否實(shí)現(xiàn)快速、無(wú)縫的通信。
這些節(jié)點(diǎn)與集群,本質(zhì)是數(shù)萬(wàn)到數(shù)十萬(wàn)個(gè)NPU 拼接成的 “高性能引擎”,其協(xié)同編排能力,正是算力生態(tài)的關(guān)鍵。
而華為的靈衢協(xié)議與超節(jié)點(diǎn)架構(gòu),不僅為開(kāi)放硬件與開(kāi)源軟件提供了可行方案,也在真正的可用性上提供了另一種選擇。
如同華為輪值董事長(zhǎng)徐直軍介紹,華為即將上線的Atlas 950超節(jié)點(diǎn)、Atlas 960超節(jié)點(diǎn)、TaiShan 950超節(jié)點(diǎn)以及Atlas 950 SuperCluster 50萬(wàn)卡集群和Atlas 960 SuperCluster,都基于靈衢實(shí)現(xiàn)了更大的算力規(guī)模、更高的帶寬和更低的時(shí)延。

對(duì)比當(dāng)前全球最大集群xAI Colossus,Atlas 950 SuperCluster的規(guī)模是其2.5倍,算力是其1.3倍,堪稱全球最強(qiáng)算力集群。
而就像我們開(kāi)頭提到的,Atlas 950超節(jié)點(diǎn)較英偉達(dá)產(chǎn)品的性能也毫不遜色。
除了性能上的絕對(duì)優(yōu)勢(shì),華為更以 “開(kāi)放” 推動(dòng)產(chǎn)業(yè)普惠。
讓不同規(guī)模、需求的用戶都能搭建自己的 “AI 高速路”,參與全場(chǎng)景算力生態(tài)建設(shè),最終實(shí)現(xiàn)硬件、軟件、算法的共建共贏。
而對(duì)于中國(guó)AI算力生態(tài)乃至整個(gè)AI產(chǎn)業(yè)來(lái)說(shuō),這更是一種安全可靠可持續(xù)的選擇,把AI建設(shè)在自己的基座之上,形成AI時(shí)代的標(biāo)準(zhǔn)和話語(yǔ)權(quán)。
并且因?yàn)槲覀儞碛凶畲蟮氖袌?chǎng),這種生態(tài)一旦閉環(huán),將會(huì)形成全新的創(chuàng)新飛輪,如同新能源汽車已經(jīng)實(shí)現(xiàn)的一樣。
要致富,先修路。
AI建設(shè)也是一樣,但現(xiàn)在,華為率先提供了一條開(kāi)源開(kāi)放共贏的中國(guó)之路。




