6個月火速煉成千億參數大模型!背后是披荊斬棘的華為云哥哥們
與時間賽跑,拿下一場漂亮的攻堅戰
金磊 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
6個月的時間為約定,他們就這樣硬生生地打造了個全球領先——華為云盤古大模型:
業界首個千億級生成與理解中文NLP大模型。
業界最大的CV大模型。

而在這場攻堅戰中,華為云人工智能領域首席科學家田奇和團隊成員擔起了重擔。
田奇在學術圈可以說是位老將,但當時的事實卻是,他在華為云任職才剛剛滿半年。
并且面臨的還是“首個”“最大”級別的挑戰。
很重要,一定要“啃”下來。
這是田奇在心中默默許下的承諾。
大模型是趨勢,更是必爭的高地
時間線先拉回到2018年。
當時的預訓練模型,可以說是成功激活了深度神經網絡,以及對大規模無標注數據的自監督學習能力。
它一定程度上打開了深度學習模型規模與性能齊飛的局面(尤其是自然語言處理)。
國際巨頭們在嘗到預訓練模型帶來的“甜頭”之后,開始對它展開了激烈的競爭,競相追逐模型規模和性能的新高度。
例如OpenAI的GPT、GPT-2;谷歌的BERT更是驚艷四座,將自然語言處理推向了一個前所未有的新高度。
更是被當時的學術界、媒體評價為“開啟了NLP新時代”。
而在短短兩年時間后,OpenAI在2020年發布的GPT-3,參數量已經達到了驚人的1750億,其能力更是不言而喻了。
……
當時,AI對企業的滲透率逐年提升,正在加速進入千行百業。而華為云也早已將AI作為重要賽道。
但AI的短板也越發地明顯起來——AI應用的碎片化。
簡單來說,就是團隊開發了一個AI模型,但在應用過程中,往往會因為場景的多樣性、復雜性,無法達到“以一敵十”的效果。
而大模型所體現出來的驚艷效果,正是強悍的自我學習、應萬變的能力。
大模型正在成為AI發展趨勢,是必爭的高地,“需要且必要”。
于是,華為云盤古大模型團隊開始“匯聚英才”,初始團隊個個都是NLP、CV的技術專家,同時還集結了一些外部合作伙伴和高校的力量。
這些人最終成為了華為云盤古大模型最為中堅的力量。
不過在此之后,第二個問題也隨之而來——該怎么做?
當時大模型在國內外的情況是:國外對NLP大模型的關注度較高,而且已經取得了較好的成績;但國內外對CV方面的大模型關注度都不高。
基于這樣的一個現狀,田奇團隊很快便找到差異化的突破口:
從CV著手,與NLP并行;二者結合語言、圖像,搞多模態;最后還有一個科學計算。
當然,大模型四個大方向的制定,也是以華為云自身業務為出發點。
不難看出,田奇團隊要打造的大模型,不再是一個方向的“單項選手”,而是全能型的那種。
也正是由于打造大模型的必要性,以及打法的差異化,2020年11月,“華為云盤古大模型”的設想在內部立項成功!
……
好的開局已經鋪設好,但接下來的路才是攀峰的開始。
雖說得益于華為在AI領域已有的功底:左手一個CANN算子?(異構計算框架),右手MindSpore?(全場景AI計算框架)和ModelArts(一站式AI開發平臺),工程方面的挑戰并沒有成為最大的阻力。
反倒是那些非技術問題,成為了團隊最大的壓力。
他們面臨的第一個困難,便是“與時間賽跑”。
從國外的BERT到GPT-3,以及它們的各種“衍生品”;再到國內友商們在大模型上的發力。
很明顯的一個趨勢是,參數規模在不斷擴大、能力在大幅提升,而迭代的速度卻越來越快。
正因如此,留給他們打造盤古大模型的時間是真的不多,而且一開始田奇團隊人數也并不充裕。
為了解決這個問題,田奇給他的團隊成員們封了一個稱號——特戰隊員:
我們在做NLP、CV和多模態大模型的時候,團隊成員的身份是會互換的。
比如一個CV專家,可能也會去參與NLP和多模態大模型的開發,甚至他的CV知識都會靈活運用到其它領域中。
而且在后期,這些技術專家們還需要更長遠地去考慮商業化模式方面的問題。
這還不算完,在處理諸如醫療方面的問題時,團隊成員還得跟醫學等行業專家“登門請教”。
因為唯有如此,才能讓大模型在應用的過程中拿捏得住。
一人多用,是有種特戰隊員的意思了。
除了時間,數據和資源又是一道大坎。
畢竟要訓練大模型,數據是必不可缺的要素;而訓練,又需要消耗大量的算力。
比如訓練一個千億參數的盤古NLP大模型,可能需要2000塊v 100甚至更多的機器,一起跑上5、6個月。
為此,田奇團隊采取的對策,總結為一個詞就是——合作。
例如數據方面,他們便找到了氣象局等合作伙伴;資源、算力方面,又尋求與鵬城實驗室進行合作。
但可想而知其間過程的復雜,談下來合作的難度,定然不會是一蹴而就的事情。
……
就這樣,零星的幾個人為了一個共同的目標,排除萬難地熬過了這樣的大半年時間。
是上陣的時刻了
2021年4月25日,這是屬于田奇和“特戰隊員”們的高光時刻。
在這一天,一年一度的華為開發者大會(HDC.Cloud)隆重召開,余承東也前來站臺。
但縱觀整場發布會,主角之一就是田奇和團隊成員們打造的華為云盤古大模型。
“Hi,盤古”,這一聲久違了的喚醒,終于讓田奇在公眾面前說了出來。
田奇:什么樣的車沒有油也可以跑?
盤古:新能源車和自行車沒有油都可以跑。當然,還有玩具車。
田奇:什么是碳中和?碳排放主要來自于哪些行業?
盤古:碳中和就是把人為排放的二氧化碳,通過植樹造林、節能減排等形式抵消掉,從而使得釋放到大氣中的總碳量凈值為零。目前發電和供熱行業、制造和建筑業是主要的碳排放行業。
……
這便是他與盤古流暢且超出眾人意料的對話,盤古的常識推理等能力展露無疑。
田奇進一步解釋道:
這段話的背后盤古模型閱讀和理解了大量的相關文章,通過小樣本學習對意圖進行識別,轉化為知識庫和數據庫查詢,并根據返回的結果,生成最終的答案。
這種方式與GPT-3等僅基于端到端生成的方式不同,可以更準確地處理復雜場景,結合領域知識,具備更大的商業價值。
而通過這一次的亮相,華為云盤古大模型更加詳細的全貌也一并公布了出來。
先觀其貌,橫攬AI領域四大熱門方向:
- 自然語言處理(NLP)大模型
- 計算機視覺(CV)大模型
- 多模態大模型
- 科學計算大模型
再聞其詳,縱達業界能力之最:
- 華為云盤古NLP大模型:是業界首個千億參數中文語言預訓練模型,預訓練階段學習了40TB中文文本數據,是最接近人類中文理解能力的AI大模型。
- 華為云盤古CV大模型:是目前業界最大的視覺預訓練模型,包含超過30億參數。
具體來說,當時盤古NLP大模型在權威的中文語言理解評測基準CLUE榜單中,總成績及分類、閱讀理解單項刷新三項榜單世界歷史紀錄,總成績得分83.046。
而盤古CV大模型,則在ImageNet 1%、10%數據集上的小樣本分類精度上,達到了業界最高水平。
而更為重要的,華為云盤古大模型的真·奧義,實則是直擊痛點——天下苦AI開發久矣。
即便到了現在,AI開發的過程,較為貼切的比喻應該是“作坊模式”,換言之,就是需要手動的工作太多、太頻繁。
而華為云盤古大模型所提供的方式,可以理解為工廠模式。
具體來說,就是“預訓練+下游微調”,這也是與目前全球主流大模型(如Bert)所匹配的一種模式,擁有極強的泛化能力。
換言之,這個模型可以做到“舉一反三”。
……
但要說上陣,真正一層的含義并不是在發布會上的首秀,而是下場去在真實場景中發揮它的作用和價值。
這也是令盤古大模型團隊成員們更為激動的事情。
據了解,截至目前為止,華為云盤古大模型已經在多個行業,100多個場景中發光發熱,包括能源、零售、金融、工業、醫療、環境、物流等等。
“就很神奇”、“非常激動”。
這是來自于盤古大模型的服務客戶——國網重慶永川供電公司技術人員的真真實實的反應。
這家公司是國內最早應用無人機電力智能巡檢技術的電網企業之一。
傳統的無人機智能巡檢AI模型開發主要面臨兩大挑戰:
- 一是如何對海量數據進行高效標注。
- 二是缺陷種類多達上百種,需要數十個AI識別模型,開發成本高。
而盤古CV大模型的到來,就很好地解決了這兩大難題。
例如在數據標注方面,盤古 CV 大模型利用海量無標注電力數據進行預訓練,并結合少量標注樣本微調的高效開發模式,提出了針對電力行業的預訓練模型。
在應用之后,樣本篩選效率提升約30倍,篩選質量提升約5倍:以永川每天采集5萬張高清圖片為例,可節省人工標注時間 170 人天。
而在模型通用性方面,結合盤古搭載的自動數據增廣以及類別自適應損失函數優化策略,可以做到一個模型適配上百種缺陷。
具體來說,一個模型就可以替代永川原先的20多個小模型,極大地減少了模型維護成本,平均精度提升18.4%,模型開發成本降低90%。
在應用華為云盤古大模型的前后,效能差距之大,也難怪客戶會發出如此的感嘆了。
披荊斬棘的科學家“哥哥們”
田奇,就是在華為云盤古大模型背后披荊斬棘的“哥哥們”中的一個。
田奇本科畢業于清華大學電子工程系,碩士畢業于美國德雷塞爾大學,后赴美國伊利諾伊大學香檳分校學習,師從Thomas S. Huang教授,并獲得博士學位。
在2002年至2019年期間,田奇歷任過美國德克薩斯大學圣安東尼奧分校計算機系助理教授、副教授、和正教授。
他在學術界這一呆,便是十七載。

在學術界的這些年,說田奇是“蜚聲中外”一點都不足為過:
- 在計算機視覺及多媒體方向頂級期刊及會議如IEEE TPAMI、IJCV、TIP、TMM、CVPR、ICCV、ECCV、ACM MM上發表文章超過650篇。
- 谷歌學術引用次數超過30700次,h指數為83,有8篇論文獲最佳論文獎或者最佳學生論文(截止2021年8月)。
田奇于2017年UTSA校長杰出研究獎、2018年入選國家級領軍人才創新項目。他還是國家自然科學基金海外杰青、中國科學院海外評審專家、IEEE Fellow(2016)、國際歐亞科學院院士(2021)。
……
然而,就在一片美好未來的學術道路中,田奇在2018年,卻作出了一個改變人生軌跡的決定:
離開學術界,加入華為諾亞方舟實驗室,出任計算視覺首席科學家。
為什么會如此?
田奇對此解釋說:
我在德克薩斯大學圣安東尼奧分校做了17年的老師,教的本科學生換了一批又一批,永遠是18歲到22歲。
但我一直希望能夠將我們共同做過的東西投入到真實場景中,看能不能給社會提供作用、發揮價值。
從中不難看出,其實在田奇的內心中,一直是有一顆科技向善的種子,他想把技術用起來,要讓技術改變人們的生活、改善產業的運作。
當然,田奇所在的盤古大模型團隊、以及“特戰隊員”們,也是擁有著同樣的理想。
值得一提的是,團隊在組建之后其實是在不斷壯大中的,如今已包括3位華為天才少年、20多位博士、30多位工程師和50多位來自C9高校的參與者。
他們夜以繼日地付出和拼搏,為的是一個共同目標:
引領工業化AI開發的新模式,降低AI使用的門檻,實現低成本、大規模的復制。
當然,除了田奇和他的隊員們,盤古大模型的成功出道,同時也離不開華為云各部門之間的整體協作和付出。
最后,對于盤古大模型接下來的發展計劃,田奇表示:
大模型不光是一個算法、架構這么簡單,它實則是一個產品。
而一個真正的產品和一個模型之間,還有很長的一段距離。
這個里面牽扯到各個環節:如何持續打磨這個產品的質量,讓它的用戶體驗、性能會越來越好。
以及在性能、體驗提升的過程當中,又如何做到盡可能的減少碳排放,做到綠色AI,這也是田奇和團隊要發力的地方。
……
那么華為云的科學家們,能帶著固有的初心,將盤古大模型這個產品打磨到何種程度?
是值得拭目以待了。
BERT綜述:
https://www.jianshu.com/p/4dbdb5ab959b?from=singlemessage
HDC直播:
https://live.huawei.com/hdc2021/meeting/cn/8283.html
- 給機器人打造動力底座,微悍動力發布三款高功率密度關節模組2025-12-08
- 云計算一哥10分鐘發了25個新品!Kimi和MiniMax首次上桌2025-12-03
- Ilya剛預言完,世界首個原生多模態架構NEO就來了:視覺和語言徹底被焊死2025-12-06
- 前端沒死,AI APP正在返祖2025-12-02




