華為最新大模型來了!盤古3.0問世,千億參數(shù)規(guī)模3萬億tokens,放話「不作詩只做事」
現(xiàn)場(chǎng)演示行業(yè)大模型
明敏 發(fā)自 東莞
量子位 | 公眾號(hào) QbitAI
終于,華為的大模型動(dòng)向來了!
盤古大模型3.0,今天正式發(fā)布。
最底層的基礎(chǔ)大模型包括100億參數(shù)、380億參數(shù)、710億參數(shù)和1000億參數(shù)四個(gè)版本,預(yù)訓(xùn)練使用了超3萬億tokens。

但和早先的傳言不同,盤古大模型3.0并非是盤古版ChatGPT,而是一個(gè)面向行業(yè)的大模型系列。
用華為自己的話來說就是:
盤古大模型,不作詩。
(而且現(xiàn)場(chǎng)全程沒有cue到“生成式”這個(gè)關(guān)鍵詞)
所以在慣例的現(xiàn)場(chǎng)演示環(huán)節(jié),華為也都是派行業(yè)大模型出戰(zhàn)。
比如讓政務(wù)大模型判斷照片中除了貨車外還有哪些車輛違規(guī),可以看到大模型標(biāo)出了三輛小轎車,而且給出了原因。

與此同時(shí),可提供2000P Flops單集群的昇騰AI云服務(wù)在烏蘭察布和貴安同時(shí)上線。
“千億規(guī)模大模型具備涌現(xiàn)、思維鏈能力”
不想作詩的盤古大模型3.0,想做的事是面向行業(yè)。
這從它的架構(gòu)上就可以感受到,盤古大模型3.0分為三層:
- L0:基礎(chǔ)大模型,包括自然語言、視覺、多模態(tài)、預(yù)測(cè)、科學(xué)計(jì)算;
- L1:N個(gè)行業(yè)大模型,比如政務(wù)、金融、制造、礦山、氣象等;
- L2:更細(xì)化場(chǎng)景的模型,提供“開箱即用”的模型服務(wù)
其中L0層的基礎(chǔ)大模型負(fù)責(zé)提供通用技能。
模型可分為自然語言大模型和多模態(tài)大模型兩類。能力覆蓋了對(duì)話問答、文案生成、圖像生成、圖像理解等。

預(yù)訓(xùn)練數(shù)據(jù)中包含了超過3萬億tokens,使用了超過1000+TB數(shù)據(jù)訓(xùn)練,指令微調(diào)數(shù)據(jù)也在千萬級(jí)。

并且盤古基礎(chǔ)大模型是一個(gè)可伸縮、高可擴(kuò)展的稀疏-稠密語言大模型。
千億級(jí)別稠密模型已經(jīng)具備涌現(xiàn)、思維鏈能力,構(gòu)成了底座;通過稀疏化使其成為不同“行業(yè)專家”,這樣可使得推理過程更加高效。

L1層由N個(gè)行業(yè)大模型構(gòu)成。
在這方面,華為使用行業(yè)公開數(shù)據(jù)訓(xùn)練了多個(gè)行業(yè)通用大模型,如政務(wù)、金融、制造、礦山、氣象等。
比如氣象方面,盤古氣象大模型的最新成果剛剛登上Nature正刊,只需要1.4秒就能完成24小時(shí)全球氣象預(yù)報(bào)。
此外,行業(yè)可以換也能基于自有數(shù)據(jù)在L0、L1基礎(chǔ)上,訓(xùn)練自己的專用大模型。

L2層則提供更加細(xì)化場(chǎng)景的模型,主打“開箱即用”。可專注于政務(wù)熱線、網(wǎng)點(diǎn)助手、先導(dǎo)藥物篩選、傳送帶異物檢測(cè)、臺(tái)風(fēng)路徑預(yù)測(cè)等具體行業(yè)應(yīng)用或特定業(yè)務(wù)場(chǎng)景。
據(jù)了解,為快速適配、快速滿足行業(yè)需求,盤古大模型采用完全的分層解耦設(shè)計(jì)。
在L0和L1大模型的基礎(chǔ)上,華為云還提供了大模型行業(yè)開發(fā)套件,通過對(duì)自有數(shù)據(jù)二次訓(xùn)練,就可以擁有自己的專屬行業(yè)大模型。
同時(shí),根據(jù)客戶不同的數(shù)據(jù)安全與合規(guī)訴求,盤古大模型還提供了公用云、大模型云專區(qū)、混合云多樣化的部署形態(tài)。
華為在最底層構(gòu)建了以鯤鵬和昇騰為基礎(chǔ)的AI算力云平臺(tái),以及異構(gòu)計(jì)算架構(gòu)CANN、全場(chǎng)景AI框架昇思MindSpore,AI開發(fā)生產(chǎn)線ModelArts等,能為大模型開發(fā)和運(yùn)行提供分布式并行加速,算子和編譯優(yōu)化、集群級(jí)通信優(yōu)化等關(guān)鍵能力。
基于華為的AI根技術(shù),大模型訓(xùn)練效能可以調(diào)優(yōu)到業(yè)界主流GPU的1.1倍。

華為云2000P Flops單集群的昇騰AI云服務(wù)在烏蘭察布和貴安同時(shí)上線。
披露數(shù)據(jù)表明,昇騰云AI服務(wù)的千卡訓(xùn)練30天長(zhǎng)穩(wěn)率達(dá)到90%,斷點(diǎn)恢復(fù)時(shí)長(zhǎng)不超過10分鐘。
除了支持華為的AI框架Mindspore外,還支持Pytorch,Tensorflow等主流AI框架,框架中的90%算子,都可以通過華為的遷移工具從GPU平滑遷移到昇騰。
例如,美圖僅用30天就將70個(gè)模型遷移到了昇騰,同時(shí)華為云和美圖團(tuán)隊(duì)一起進(jìn)行了30多個(gè)算子的優(yōu)化以及流程的并行加速,AI性能較原有方案提升了30%。
氣象大模型登上Nature正刊
在展示盤古大模型3.0的基礎(chǔ)能力后,華為也對(duì)盤古大模型的一系列行業(yè)應(yīng)用做了數(shù)據(jù)披露。
最近,盤古氣象大模型登上Nature的消息刷屏了。
據(jù)悉,盤古氣象大模型是首個(gè)精度超過傳統(tǒng)數(shù)值預(yù)報(bào)方法的AI預(yù)測(cè)模型,同時(shí)預(yù)測(cè)速度也有大幅提升。
原來預(yù)測(cè)一個(gè)臺(tái)風(fēng)未來10天的路徑,需要在3000臺(tái)服務(wù)器的高性能計(jì)算機(jī)集群上花費(fèi)5小時(shí)進(jìn)行仿真。現(xiàn)在基于預(yù)訓(xùn)練的盤古氣象大模型,通過AI推理的方式,研究者只需單臺(tái)服務(wù)器上單卡配置,10秒內(nèi)就可以獲得更精確的預(yù)測(cè)結(jié)果。

在藥物研發(fā)領(lǐng)域,原來一款新藥研發(fā)平均需要10年時(shí)間、花費(fèi)10億美金。盤古藥物分子大模型助力西安交通大學(xué)第一附屬醫(yī)院劉冰教授團(tuán)隊(duì)發(fā)現(xiàn)全球40年來首個(gè)新靶點(diǎn)、新類別的抗生素,并將先導(dǎo)藥物研發(fā)周期縮短至1個(gè)月、研發(fā)成本降低70%。
在鐵路領(lǐng)域,盤古鐵路大模型能精準(zhǔn)識(shí)別現(xiàn)網(wǎng)運(yùn)行的67種貨車、430多種故障,無故障圖片篩除率高達(dá)95%,成為貨運(yùn)列檢員身邊有力的數(shù)字助手,將列檢員從每日數(shù)百萬張的“圖海”檢測(cè)中解放出來。

華為常務(wù)董事、華為云CEO張平安給最新動(dòng)向,做了最凝練的總結(jié):
盤古大模型要讓每個(gè)行業(yè)、每個(gè)企業(yè)、每個(gè)人都擁有自己的專家助手,讓工作更高效更輕松。
我們始終堅(jiān)持AI for Industries的戰(zhàn)略,在深耕行業(yè)的道路上不斷前行。我堅(jiān)信大模型將重塑千行百業(yè),而每一個(gè)開發(fā)者,都將是改變世界的英雄。

- DeepSeek-V3.2-Exp第一時(shí)間上線華為云2025-09-29
- 你的AI助手更萬能了!天禧合作字節(jié)扣子,解鎖無限新功能2025-09-26
- 你的最快安卓芯片發(fā)布了!全面為Agent鋪路2025-09-26
- 任少卿在中科大招生了!碩博都可,推免學(xué)生下周一緊急面試2025-09-20



