國產GPU重大利好!“中國英偉達”千卡集群已就位
56天訓完1300億參數大模型
金磊 發自 凹非寺
量子位 | 公眾號 QbitAI
算力基礎設施建設,北京市有了最新的大動作——
《北京市算力基礎設施建設實施方案(2024-2027年)》。

其中,《方案》在“保障措施”中提出了對企業利好的辦法:
- 對采購自主可控GPU芯片開展智能算力服務的企業,按照投資額的一定比例給予支持,加速實現智算資源供給自主可控。
- 對主動進行綠色節能改造的存量數據中心,按照投資額的一定比例給予支持。
對企業擴大資金的舉措,意在提升人工智能算力券政策效能,鼓勵企業用好智能算力資源,加快推動大模型賦能行業應用。

除此之外,在《方案》的規劃目標中,也釋放出了一個重要的信號——智算資源供給集群化:
改變智算建設“小、散”局面,集中建設一批智算單一大集群。
到2025年,本市智算供給規模達到45EFLOPS,2025-2027年根據人工智能大模型發展需要和國家相關部署進一步優化算力布局。
為何會如此?這就要結合當下算力市場的需求和供給展開來看了。
一方面,自從ChatGPT問世引爆AIGC以來,大模型的數量可謂是極速增長,單是北京這一座城市,就已經擁有122家大模型創新團隊,約占全國的一半,大模型數量更是居全國首位。對于算力市場的需求之大可見一斑。
不僅如此,隨著Sora、Suno等應用的問世,大模型的發展已然加速駛入多模態階段,AI算力的需求在Scaling Law為主旋律的當下還會持續上漲。
△圖源:由DALL·E 3生成另一方面,AIGC誠然帶火了“N卡”,但目前著眼于全球已然是一卡難求的態勢,并且因稀缺導致其價格日益水漲船高。
而且單從GPU的性能角度來看,即便是英偉達也只能接受加速計算到達了臨界點的事實,算力供給方需要另一種方式來進行計算——
通過芯片與芯片間的連接技術,一步步構建出大型AI大規模算力集群。
聚焦到國內,其實這種“集群”模式也已經緊鑼密鼓地在展開,國內已有不少廠商在不斷探索和實踐,例如云計算巨頭華為云、AI芯片公司摩爾線程等等。
以摩爾線程為例,就在前不久他們發布了名為夸娥(KUAE)的智算集群解決方案,旨在以一體化交付的方式解決大規模GPU算力的建設和運營管理問題,可以大幅降低傳統算力建設、應用開發和運維運營平臺搭建的時間成本。

從這一點來看,國內市場算力的發展是與《方案》所提出的“智算資源供給集群化”是相契合的,也從側面印證著國產GPU智算集群已經到了勢在必行的階段。
然而,路線雖已清晰,但在實踐過程當中,尤其是GPU數量達到千卡甚至萬卡時,集群落地并非是件易事。
那么難點都有什么?國產GPU又是如何應對的?我們繼續往下看。
千卡GPU集群落地痛點
首先我們需要了解GPU集群在實際落地過程中的規模會達到什么量級。
以Llama 3為例,在它問世之際,Meta就公布了其基礎設施詳情:
我們在兩個定制的24K GPU集群上做訓練。
與之類似的,馬斯克的Grok 2據悉訓練已經用了20000張H100,Grok 3更是傳出需要驚人的100000張;即使是參數量僅為30億的Sora,GPU的數量也估算在4200至10500張之間。
而事實上,當下要滿足一些基礎模型的算力需求,千卡集群已然是標配一樣的存在;這不僅僅是因為千卡是大集群的基本單元,更是因為百卡或更小規模的GPU數量往往滿足不了大模型訓練需求,只能是實驗性的。

但智算集群中GPU的數量也還只是一方面,之于GPU本身,在諸如訓練大模型等落地過程中的難點也是不少。
因為建設集群本身還是一個非常復雜的系統性工程,它不僅是堆GPU這么簡單,從一個GPU到一個服務器,再到把它們組成群,期間包含了硬件的網絡、存儲、軟件、再到大模型調度等各種細節因素,均會影響到集群的最終性能。
例如同樣是Llama 3,Meta在介紹基礎設施的時候還提到了一個關鍵信息:
當在16K GPU上同時訓練時,我們有效地實現了每個GPU超過400 TFLOPS的計算利用率。
若是每張卡的利率用不夠高,很顯然就會降低最終智算集群的效率。
再如分布式訓練過程中,一張卡壞掉就會影響整體的訓練,對于千卡甚至更大規模的集群來說,這種情況出現的概率就會更高;因此對于千卡集群的穩定性和可靠性也提出了極高的要求。
聚焦到國產智算集群,還需得具備可以兼容主流GPU軟件的能力(例如CUDA),由此才能應對更多且日新月異的主流大模型任務。
……
一言蔽之,構建千卡智算集群難,構建國產千卡智算集群難上加難。
如何破局?
雖說困境重重,但也正如上文所言,摩爾線程已經在探索與實踐,并且他們在構建千卡智算集群這件事上也已交出了“高分作業”。
我們不妨以摩爾線程的夸娥(KUAE)智算中心解決方案為例,來看下構建國產GPU智算集群的破局之道。
整體來看,夸娥(KUAE)智算中心解決方案是一個以全功能GPU為底座,軟硬件一體化的全棧的解決方案。

之所以叫做全棧,是因為夸娥的能力是觸及到了構建GPU智算集群中的方方面面,包括最底層的基礎設施建設、中間層的智算集群管理,以及上層的大模型服務。

首先來看基礎設施。
從內容上來看主要包含夸娥(KUAE)計算集群、RDMA網絡與分布式存儲三大方面。據了解,其建設周期只需30天,可支持千億參數模型的預訓練、微調和推理,可實現高達91%的千卡集群性能擴展系數。
并且基于大規模智算加速卡MTT S4000和雙路8卡GPU服務器MCCX D800的能力,夸娥集群還支持從單機多卡到多機多卡,從單卡到千卡集群的無縫擴展。
據悉未來將推出更大規模的集群,以滿足更大規模的大模型訓練需求。

其次是集群管理平臺。
這一軟硬件一體化平臺主要是用于AI大模型訓練、分布式圖形渲染、流媒體處理和科學計算等工作,深度集成全功能GPU計算、網絡和存儲,提供高可靠、高算力服務。
通過這個平臺,用戶可靈活管理多數據中心、多集群算力資源,集成多維度運維監控、告警和日志系統,幫助智算中心實現運維自動化。
最后是模型服務。
覆蓋了大模型預訓練、微調和推理全流程,支持所有主流開源大模型。通過摩爾線程MUSIFY開發工具,可以輕松復用CUDA應用生態,內置的容器化解決方案,則可實現API一鍵部署。
這個平臺意在提供大模型生命周期管理,通過簡潔、易操作的交互界面,用戶可按需組織工作流,大幅降低大模型的使用門檻。
那么實際效果如何?
據了解,摩爾線程目前已經支持了包括LLaMA、GLM、Aquila、Baichuan、GPT、Bloom、玉言等在內的各類主流大模型的訓練和微調:
- 以200B訓練數據量為例,智源研究院70B參數Aquila2可在33天完成訓練
- 1300億參數規模的模型可在56天完成訓練
至于剛才提到的千卡GPU集群落地難的種種細節,摩爾線程也有自己的應對策略。
例如在提高集群算力利用率這件事上,摩爾線程采用軟硬件協同設計和端到端的并行策略,通過對集群通信庫的算法、網絡拓撲和硬件的規格進行精心設計與配置,實現了高度的集群兼容性。
具體到技術,則是綜合利用了MTLink和PCIe,使得通訊性能提升一倍,綜合調優下MFU提升幅度超過50%。
在穩定性方面,摩爾線程在根兒上先保證GPU的質量,從卡出廠開始便進行多項嚴格的檢測。
其后,摩爾線程還開發了集群系統監控和診斷工具,有助于篩選和快速定位到有問題的卡和服務器,可以自動恢復和硬件替換。
并且結合異步檢查點(Checkpoint)加速,寫的時間從10分鐘降到秒級,讀的速度從40分鐘降到2分鐘;即使是遇到訓練異常,系統也可以自動重新拉起。

在可擴展性方面,夸娥目前已經支持了包括DeepSpeed、Megatron-DeepSpeed、Colossal-AI、FlagScale在內的業界主流分布式框架。
除此之外,還融合了多種并行算法策略,包括數據并行、張量并行、流水線并行和ZeRO,且針對高效通信計算并行和Flash Attention做了額外優化。
最后,在兼容性方面,摩爾線程代碼移植Musify工具,可快速將現有的主流遷移至MUSA,零成本完成CUDA代碼自動移植。
借助摩爾線程元計算統一系統架構MUSA,用戶還可以復用PyTorch開源社區的大量模型算子,降低開發成本。
整體而言,摩爾線程的夸娥智算集群全棧方案的優勢可以歸結為八點,即:覆蓋主流大模型、兼容CUDA等主流生態、斷點續訓、大語言模型分布式訓練、加速推理、高性能通信、高性能存儲,以及高可靠性。
它就像把所有復雜的方案打包成了一把鑰匙,交付到用戶手上開箱即用。
而且摩爾線程的夸娥(KUAE)智算集群解決方案不只是說說那么簡單,是已經做到了上崗。
據了解,夸娥目前已經完成了三個千卡智算集群的落地,分別位于北京亦莊、北京密云和南京。

不僅如此,摩爾線程仍在持續譜寫著“打造國產GPU集群”的篇章。
就在前不久,摩爾線程與清華系創業公司無問芯穹達成合作,成為第一家接入無問芯穹并成功完成千卡級別大模型訓練的國產GPU公司。雙方聯合推進基于夸娥(KUAE)千卡智算集群的“MT-infini-3B”合作大模型實訓,目前性能已在同規模模型中躋身前列。
并且無問芯穹CEO公開肯定了夸娥(KUAE)的實力:
經驗證,摩爾線程夸娥千卡智算集群在性能、穩定性、易用性和算力利用率上均有優異表現,可以為千億參數級別大模型訓練提供持續高效的高性能算力支持。
由此可見,摩爾線程的夸娥千卡智算集群是得到了實踐驗證的那種,那么最后一個問題便是:為什么是摩爾線程能率先落地?
其實早在2022年的時候,團隊便已經設定了建集群的大方向與策略,這是因為當時A100算力也是處于緊缺的狀態,國內市場急需能夠替代它的產品。
從GPU功能情況來看,摩爾線程是在唯一可以對標英偉達的國產GPU企業,雖然單芯片性能還有差距,但若是集成起來便可解決單一性的不足。
而隨著2023年大模型的火爆,這種GPU集群式的方向就顯得更加正確,畢竟黃仁勛在發布B200之際就表示“我們需要更大的GPU,如果不能更大,就把更多GPU組合在一起,變成更大的虛擬GPU”。
因此,現在回頭再看摩爾線程當時的策略和決定,確實是具備前瞻性的。
總而言之,有實力,有技術,有戰略,也有成績,摩爾線程還將在國產GPU的發展道路上帶來怎樣的驚喜,是值得期待了。
參考鏈接:
[1]https://www.mthreads.com/product/KUAE
[2]https://jxj.beijing.gov.cn/zwgk/zcjd/202404/t20240425_3637629.html
[3]https://ai.meta.com/blog/meta-llama-3/
- 看完最新國產AI寫的公眾號文章,我慌了!2025-12-08
- 共推空天領域智能化升級!趨境科技與金航數碼強強聯手2025-12-09
- Ilya剛預言完,世界首個原生多模態架構NEO就來了:視覺和語言徹底被焊死2025-12-06
- 給機器人打造動力底座,微悍動力發布三款高功率密度關節模組2025-12-08



