Meta為元宇宙建全球最快AI超算,1.6萬個(gè)A100 GPU,英偉達(dá)都賺麻了
今年年中建成
曉查 發(fā)自 凹非寺
量子位 | 公眾號(hào) QbitAI
今天,扎克伯格宣布,Meta要建造全球最快的AI超級(jí)計(jì)算機(jī),而且就在2022年年中建成。
這臺(tái)超算被命名為“AI研究超級(jí)集群”(RSC),包含16,000個(gè)英偉達(dá)A100 GPU,算力達(dá)5 EFLOPS(混合精度)。
而目前全球最快超算富岳在混合精度下的最高算力為2 EFLOPS。

Meta要這么強(qiáng)的超算干什么?當(dāng)然是為了公司的元宇宙。
Meta工程師Kevin Lee在官方博客中說:
我們希望RSC將幫助我們構(gòu)建全新的AI系統(tǒng),例如可以為大量人提供實(shí)時(shí)語音翻譯,每個(gè)人都可以說著不同的語言,這樣他們就可以無縫協(xié)作研究項(xiàng)目或一起玩AR游戲。
最終,使用RSC完成的工作將為下一個(gè)主要計(jì)算平臺(tái)元宇宙發(fā)揮重要作用。
要讓不同語言的人在元宇宙無障礙交流,背后的自然語言處理訓(xùn)練需要巨大的算力。
雖然超算還未建成,但Meta已經(jīng)開始了訓(xùn)練超大NLP和CV模型的研究,將用它來訓(xùn)練數(shù)萬億參數(shù)模型,其規(guī)模比現(xiàn)在的GPT-3還高一個(gè)數(shù)量級(jí)。

1.6萬個(gè)A100核心
超算RSC的組建工作始于一年半以前。
英偉達(dá)和數(shù)據(jù)存儲(chǔ)公司Pure Storage、服務(wù)器公司Penguin Computing是Meta超算的主要供應(yīng)商。
RSC的第一階段已經(jīng)啟動(dòng)并運(yùn)行,它由760個(gè)Nvidia DGX A100系統(tǒng)組成,總共包含6080個(gè)GPU。

等到完全建成時(shí),RSC將總共擁有16,000個(gè)GPU,成為使用A100數(shù)量最多的超算。
Meta(當(dāng)時(shí)還叫Facebook)的第一代AI超算設(shè)計(jì)于2017年,這臺(tái)超算集群中擁有22,000個(gè)NVIDIA V100 GPU,每天運(yùn)行35,000個(gè)訓(xùn)練作業(yè)。
2020年,Meta的工程師開始利用新的GPU和網(wǎng)絡(luò)結(jié)構(gòu)技術(shù),從頭設(shè)計(jì)新一代超算的冷卻、電力、網(wǎng)絡(luò)和布線等各種系統(tǒng)。
相比第一代超算,RSC運(yùn)行CV工作流程的速度提高了20倍,運(yùn)行NVIDIA集體通信庫(NCCL)的速度提高了9倍,訓(xùn)練大型NLP模型的速度提高了3倍。

現(xiàn)在訓(xùn)練一個(gè)具有數(shù)百億參數(shù)的模型只需三周,而之前是九周。
16TB/s帶寬
除了核心系統(tǒng)本身,Meta還打造一個(gè)強(qiáng)大的存儲(chǔ)系統(tǒng),可以提供16TB/s的存儲(chǔ)帶寬和EB級(jí)別的存儲(chǔ)容量。
為了滿足AI訓(xùn)練日益增長的帶寬和容量需求,Meta從頭開始開發(fā)了一種存儲(chǔ)服務(wù),即人工智能研究商店(AIRStore)。
為了優(yōu)化AI模型,AIRStore利用一個(gè)新的數(shù)據(jù)準(zhǔn)備階段,來預(yù)處理用于訓(xùn)練的數(shù)據(jù)集。經(jīng)過準(zhǔn)備的數(shù)據(jù)集可用于多次訓(xùn)練運(yùn)行。
AIRStore還優(yōu)化了數(shù)據(jù)傳輸,從而最大限度地減少了Meta數(shù)據(jù)中心間主干上的跨區(qū)域流量。
最后,在疫情和半導(dǎo)體芯片缺貨的情況下,Meta能一次買下這么多GPU,恐怕英偉達(dá)才是最大贏家,老黃真的是賺麻了。
參考鏈接:
[1]https://ai.facebook.com/blog/ai-rsc
[2]https://venturebeat.com/2022/01/24/meta-is-developing-a-record-breaking-supercomputer-to-power-the-metaverse/



