6個(gè)月火速煉成千億參數(shù)大模型!背后是披荊斬棘的華為云哥哥們
與時(shí)間賽跑,拿下一場漂亮的攻堅(jiān)戰(zhàn)
金磊 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
6個(gè)月的時(shí)間為約定,他們就這樣硬生生地打造了個(gè)全球領(lǐng)先——華為云盤古大模型:
業(yè)界首個(gè)千億級(jí)生成與理解中文NLP大模型。
業(yè)界最大的CV大模型。

而在這場攻堅(jiān)戰(zhàn)中,華為云人工智能領(lǐng)域首席科學(xué)家田奇和團(tuán)隊(duì)成員擔(dān)起了重?fù)?dān)。
田奇在學(xué)術(shù)圈可以說是位老將,但當(dāng)時(shí)的事實(shí)卻是,他在華為云任職才剛剛滿半年。
并且面臨的還是“首個(gè)”“最大”級(jí)別的挑戰(zhàn)。
很重要,一定要“啃”下來。
這是田奇在心中默默許下的承諾。
大模型是趨勢(shì),更是必爭的高地
時(shí)間線先拉回到2018年。
當(dāng)時(shí)的預(yù)訓(xùn)練模型,可以說是成功激活了深度神經(jīng)網(wǎng)絡(luò),以及對(duì)大規(guī)模無標(biāo)注數(shù)據(jù)的自監(jiān)督學(xué)習(xí)能力。
它一定程度上打開了深度學(xué)習(xí)模型規(guī)模與性能齊飛的局面(尤其是自然語言處理)。
國際巨頭們?cè)趪L到預(yù)訓(xùn)練模型帶來的“甜頭”之后,開始對(duì)它展開了激烈的競爭,競相追逐模型規(guī)模和性能的新高度。
例如OpenAI的GPT、GPT-2;谷歌的BERT更是驚艷四座,將自然語言處理推向了一個(gè)前所未有的新高度。
更是被當(dāng)時(shí)的學(xué)術(shù)界、媒體評(píng)價(jià)為“開啟了NLP新時(shí)代”。
而在短短兩年時(shí)間后,OpenAI在2020年發(fā)布的GPT-3,參數(shù)量已經(jīng)達(dá)到了驚人的1750億,其能力更是不言而喻了。
……
當(dāng)時(shí),AI對(duì)企業(yè)的滲透率逐年提升,正在加速進(jìn)入千行百業(yè)。而華為云也早已將AI作為重要賽道。
但AI的短板也越發(fā)地明顯起來——AI應(yīng)用的碎片化。
簡單來說,就是團(tuán)隊(duì)開發(fā)了一個(gè)AI模型,但在應(yīng)用過程中,往往會(huì)因?yàn)閳鼍暗亩鄻有浴?fù)雜性,無法達(dá)到“以一敵十”的效果。
而大模型所體現(xiàn)出來的驚艷效果,正是強(qiáng)悍的自我學(xué)習(xí)、應(yīng)萬變的能力。
大模型正在成為AI發(fā)展趨勢(shì),是必爭的高地,“需要且必要”。
于是,華為云盤古大模型團(tuán)隊(duì)開始“匯聚英才”,初始團(tuán)隊(duì)個(gè)個(gè)都是NLP、CV的技術(shù)專家,同時(shí)還集結(jié)了一些外部合作伙伴和高校的力量。
這些人最終成為了華為云盤古大模型最為中堅(jiān)的力量。
不過在此之后,第二個(gè)問題也隨之而來——該怎么做?
當(dāng)時(shí)大模型在國內(nèi)外的情況是:國外對(duì)NLP大模型的關(guān)注度較高,而且已經(jīng)取得了較好的成績;但國內(nèi)外對(duì)CV方面的大模型關(guān)注度都不高。
基于這樣的一個(gè)現(xiàn)狀,田奇團(tuán)隊(duì)很快便找到差異化的突破口:
從CV著手,與NLP并行;二者結(jié)合語言、圖像,搞多模態(tài);最后還有一個(gè)科學(xué)計(jì)算。
當(dāng)然,大模型四個(gè)大方向的制定,也是以華為云自身業(yè)務(wù)為出發(fā)點(diǎn)。
不難看出,田奇團(tuán)隊(duì)要打造的大模型,不再是一個(gè)方向的“單項(xiàng)選手”,而是全能型的那種。
也正是由于打造大模型的必要性,以及打法的差異化,2020年11月,“華為云盤古大模型”的設(shè)想在內(nèi)部立項(xiàng)成功!
……
好的開局已經(jīng)鋪設(shè)好,但接下來的路才是攀峰的開始。
雖說得益于華為在AI領(lǐng)域已有的功底:左手一個(gè)CANN算子?(異構(gòu)計(jì)算框架),右手MindSpore?(全場景AI計(jì)算框架)和ModelArts(一站式AI開發(fā)平臺(tái)),工程方面的挑戰(zhàn)并沒有成為最大的阻力。
反倒是那些非技術(shù)問題,成為了團(tuán)隊(duì)最大的壓力。
他們面臨的第一個(gè)困難,便是“與時(shí)間賽跑”。
從國外的BERT到GPT-3,以及它們的各種“衍生品”;再到國內(nèi)友商們?cè)诖竽P蜕系陌l(fā)力。
很明顯的一個(gè)趨勢(shì)是,參數(shù)規(guī)模在不斷擴(kuò)大、能力在大幅提升,而迭代的速度卻越來越快。
正因如此,留給他們打造盤古大模型的時(shí)間是真的不多,而且一開始田奇團(tuán)隊(duì)人數(shù)也并不充裕。
為了解決這個(gè)問題,田奇給他的團(tuán)隊(duì)成員們封了一個(gè)稱號(hào)——特戰(zhàn)隊(duì)員:
我們?cè)谧鯪LP、CV和多模態(tài)大模型的時(shí)候,團(tuán)隊(duì)成員的身份是會(huì)互換的。
比如一個(gè)CV專家,可能也會(huì)去參與NLP和多模態(tài)大模型的開發(fā),甚至他的CV知識(shí)都會(huì)靈活運(yùn)用到其它領(lǐng)域中。
而且在后期,這些技術(shù)專家們還需要更長遠(yuǎn)地去考慮商業(yè)化模式方面的問題。
這還不算完,在處理諸如醫(yī)療方面的問題時(shí),團(tuán)隊(duì)成員還得跟醫(yī)學(xué)等行業(yè)專家“登門請(qǐng)教”。
因?yàn)槲ㄓ腥绱耍拍茏尨竽P驮趹?yīng)用的過程中拿捏得住。
一人多用,是有種特戰(zhàn)隊(duì)員的意思了。
除了時(shí)間,數(shù)據(jù)和資源又是一道大坎。
畢竟要訓(xùn)練大模型,數(shù)據(jù)是必不可缺的要素;而訓(xùn)練,又需要消耗大量的算力。
比如訓(xùn)練一個(gè)千億參數(shù)的盤古NLP大模型,可能需要2000塊v 100甚至更多的機(jī)器,一起跑上5、6個(gè)月。
為此,田奇團(tuán)隊(duì)采取的對(duì)策,總結(jié)為一個(gè)詞就是——合作。
例如數(shù)據(jù)方面,他們便找到了氣象局等合作伙伴;資源、算力方面,又尋求與鵬城實(shí)驗(yàn)室進(jìn)行合作。
但可想而知其間過程的復(fù)雜,談下來合作的難度,定然不會(huì)是一蹴而就的事情。
……
就這樣,零星的幾個(gè)人為了一個(gè)共同的目標(biāo),排除萬難地熬過了這樣的大半年時(shí)間。
是上陣的時(shí)刻了
2021年4月25日,這是屬于田奇和“特戰(zhàn)隊(duì)員”們的高光時(shí)刻。
在這一天,一年一度的華為開發(fā)者大會(huì)(HDC.Cloud)隆重召開,余承東也前來站臺(tái)。
但縱觀整場發(fā)布會(huì),主角之一就是田奇和團(tuán)隊(duì)成員們打造的華為云盤古大模型。
“Hi,盤古”,這一聲久違了的喚醒,終于讓田奇在公眾面前說了出來。
田奇:什么樣的車沒有油也可以跑?
盤古:新能源車和自行車沒有油都可以跑。當(dāng)然,還有玩具車。
田奇:什么是碳中和?碳排放主要來自于哪些行業(yè)?
盤古:碳中和就是把人為排放的二氧化碳,通過植樹造林、節(jié)能減排等形式抵消掉,從而使得釋放到大氣中的總碳量凈值為零。目前發(fā)電和供熱行業(yè)、制造和建筑業(yè)是主要的碳排放行業(yè)。
……
這便是他與盤古流暢且超出眾人意料的對(duì)話,盤古的常識(shí)推理等能力展露無疑。
田奇進(jìn)一步解釋道:
這段話的背后盤古模型閱讀和理解了大量的相關(guān)文章,通過小樣本學(xué)習(xí)對(duì)意圖進(jìn)行識(shí)別,轉(zhuǎn)化為知識(shí)庫和數(shù)據(jù)庫查詢,并根據(jù)返回的結(jié)果,生成最終的答案。
這種方式與GPT-3等僅基于端到端生成的方式不同,可以更準(zhǔn)確地處理復(fù)雜場景,結(jié)合領(lǐng)域知識(shí),具備更大的商業(yè)價(jià)值。
而通過這一次的亮相,華為云盤古大模型更加詳細(xì)的全貌也一并公布了出來。
先觀其貌,橫攬AI領(lǐng)域四大熱門方向:
- 自然語言處理(NLP)大模型
- 計(jì)算機(jī)視覺(CV)大模型
- 多模態(tài)大模型
- 科學(xué)計(jì)算大模型
再聞其詳,縱達(dá)業(yè)界能力之最:
- 華為云盤古NLP大模型:是業(yè)界首個(gè)千億參數(shù)中文語言預(yù)訓(xùn)練模型,預(yù)訓(xùn)練階段學(xué)習(xí)了40TB中文文本數(shù)據(jù),是最接近人類中文理解能力的AI大模型。
- 華為云盤古CV大模型:是目前業(yè)界最大的視覺預(yù)訓(xùn)練模型,包含超過30億參數(shù)。
具體來說,當(dāng)時(shí)盤古NLP大模型在權(quán)威的中文語言理解評(píng)測基準(zhǔn)CLUE榜單中,總成績及分類、閱讀理解單項(xiàng)刷新三項(xiàng)榜單世界歷史紀(jì)錄,總成績得分83.046。
而盤古CV大模型,則在ImageNet 1%、10%數(shù)據(jù)集上的小樣本分類精度上,達(dá)到了業(yè)界最高水平。
而更為重要的,華為云盤古大模型的真·奧義,實(shí)則是直擊痛點(diǎn)——天下苦AI開發(fā)久矣。
即便到了現(xiàn)在,AI開發(fā)的過程,較為貼切的比喻應(yīng)該是“作坊模式”,換言之,就是需要手動(dòng)的工作太多、太頻繁。
而華為云盤古大模型所提供的方式,可以理解為工廠模式。
具體來說,就是“預(yù)訓(xùn)練+下游微調(diào)”,這也是與目前全球主流大模型(如Bert)所匹配的一種模式,擁有極強(qiáng)的泛化能力。
換言之,這個(gè)模型可以做到“舉一反三”。
……
但要說上陣,真正一層的含義并不是在發(fā)布會(huì)上的首秀,而是下場去在真實(shí)場景中發(fā)揮它的作用和價(jià)值。
這也是令盤古大模型團(tuán)隊(duì)成員們更為激動(dòng)的事情。
據(jù)了解,截至目前為止,華為云盤古大模型已經(jīng)在多個(gè)行業(yè),100多個(gè)場景中發(fā)光發(fā)熱,包括能源、零售、金融、工業(yè)、醫(yī)療、環(huán)境、物流等等。
“就很神奇”、“非常激動(dòng)”。
這是來自于盤古大模型的服務(wù)客戶——國網(wǎng)重慶永川供電公司技術(shù)人員的真真實(shí)實(shí)的反應(yīng)。
這家公司是國內(nèi)最早應(yīng)用無人機(jī)電力智能巡檢技術(shù)的電網(wǎng)企業(yè)之一。
傳統(tǒng)的無人機(jī)智能巡檢AI模型開發(fā)主要面臨兩大挑戰(zhàn):
- 一是如何對(duì)海量數(shù)據(jù)進(jìn)行高效標(biāo)注。
- 二是缺陷種類多達(dá)上百種,需要數(shù)十個(gè)AI識(shí)別模型,開發(fā)成本高。
而盤古CV大模型的到來,就很好地解決了這兩大難題。
例如在數(shù)據(jù)標(biāo)注方面,盤古 CV 大模型利用海量無標(biāo)注電力數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,并結(jié)合少量標(biāo)注樣本微調(diào)的高效開發(fā)模式,提出了針對(duì)電力行業(yè)的預(yù)訓(xùn)練模型。
在應(yīng)用之后,樣本篩選效率提升約30倍,篩選質(zhì)量提升約5倍:以永川每天采集5萬張高清圖片為例,可節(jié)省人工標(biāo)注時(shí)間 170 人天。
而在模型通用性方面,結(jié)合盤古搭載的自動(dòng)數(shù)據(jù)增廣以及類別自適應(yīng)損失函數(shù)優(yōu)化策略,可以做到一個(gè)模型適配上百種缺陷。
具體來說,一個(gè)模型就可以替代永川原先的20多個(gè)小模型,極大地減少了模型維護(hù)成本,平均精度提升18.4%,模型開發(fā)成本降低90%。
在應(yīng)用華為云盤古大模型的前后,效能差距之大,也難怪客戶會(huì)發(fā)出如此的感嘆了。
披荊斬棘的科學(xué)家“哥哥們”
田奇,就是在華為云盤古大模型背后披荊斬棘的“哥哥們”中的一個(gè)。
田奇本科畢業(yè)于清華大學(xué)電子工程系,碩士畢業(yè)于美國德雷塞爾大學(xué),后赴美國伊利諾伊大學(xué)香檳分校學(xué)習(xí),師從Thomas S. Huang教授,并獲得博士學(xué)位。
在2002年至2019年期間,田奇歷任過美國德克薩斯大學(xué)圣安東尼奧分校計(jì)算機(jī)系助理教授、副教授、和正教授。
他在學(xué)術(shù)界這一呆,便是十七載。

在學(xué)術(shù)界的這些年,說田奇是“蜚聲中外”一點(diǎn)都不足為過:
- 在計(jì)算機(jī)視覺及多媒體方向頂級(jí)期刊及會(huì)議如IEEE TPAMI、IJCV、TIP、TMM、CVPR、ICCV、ECCV、ACM MM上發(fā)表文章超過650篇。
- 谷歌學(xué)術(shù)引用次數(shù)超過30700次,h指數(shù)為83,有8篇論文獲最佳論文獎(jiǎng)或者最佳學(xué)生論文(截止2021年8月)。
田奇于2017年UTSA校長杰出研究獎(jiǎng)、2018年入選國家級(jí)領(lǐng)軍人才創(chuàng)新項(xiàng)目。他還是國家自然科學(xué)基金海外杰青、中國科學(xué)院海外評(píng)審專家、IEEE Fellow(2016)、國際歐亞科學(xué)院院士(2021)。
……
然而,就在一片美好未來的學(xué)術(shù)道路中,田奇在2018年,卻作出了一個(gè)改變?nèi)松壽E的決定:
離開學(xué)術(shù)界,加入華為諾亞方舟實(shí)驗(yàn)室,出任計(jì)算視覺首席科學(xué)家。
為什么會(huì)如此?
田奇對(duì)此解釋說:
我在德克薩斯大學(xué)圣安東尼奧分校做了17年的老師,教的本科學(xué)生換了一批又一批,永遠(yuǎn)是18歲到22歲。
但我一直希望能夠?qū)⑽覀児餐鲞^的東西投入到真實(shí)場景中,看能不能給社會(huì)提供作用、發(fā)揮價(jià)值。
從中不難看出,其實(shí)在田奇的內(nèi)心中,一直是有一顆科技向善的種子,他想把技術(shù)用起來,要讓技術(shù)改變?nèi)藗兊纳睢⒏纳飘a(chǎn)業(yè)的運(yùn)作。
當(dāng)然,田奇所在的盤古大模型團(tuán)隊(duì)、以及“特戰(zhàn)隊(duì)員”們,也是擁有著同樣的理想。
值得一提的是,團(tuán)隊(duì)在組建之后其實(shí)是在不斷壯大中的,如今已包括3位華為天才少年、20多位博士、30多位工程師和50多位來自C9高校的參與者。
他們夜以繼日地付出和拼搏,為的是一個(gè)共同目標(biāo):
引領(lǐng)工業(yè)化AI開發(fā)的新模式,降低AI使用的門檻,實(shí)現(xiàn)低成本、大規(guī)模的復(fù)制。
當(dāng)然,除了田奇和他的隊(duì)員們,盤古大模型的成功出道,同時(shí)也離不開華為云各部門之間的整體協(xié)作和付出。
最后,對(duì)于盤古大模型接下來的發(fā)展計(jì)劃,田奇表示:
大模型不光是一個(gè)算法、架構(gòu)這么簡單,它實(shí)則是一個(gè)產(chǎn)品。
而一個(gè)真正的產(chǎn)品和一個(gè)模型之間,還有很長的一段距離。
這個(gè)里面牽扯到各個(gè)環(huán)節(jié):如何持續(xù)打磨這個(gè)產(chǎn)品的質(zhì)量,讓它的用戶體驗(yàn)、性能會(huì)越來越好。
以及在性能、體驗(yàn)提升的過程當(dāng)中,又如何做到盡可能的減少碳排放,做到綠色AI,這也是田奇和團(tuán)隊(duì)要發(fā)力的地方。
……
那么華為云的科學(xué)家們,能帶著固有的初心,將盤古大模型這個(gè)產(chǎn)品打磨到何種程度?
是值得拭目以待了。
BERT綜述:
https://www.jianshu.com/p/4dbdb5ab959b?from=singlemessage
HDC直播:
https://live.huawei.com/hdc2021/meeting/cn/8283.html



