華為最新大模型來了！盤古3.0問世，千億參數(shù)規(guī)模3萬億tokens，放話「不作詩只做事」

明敏 2023-07-08 08:02:31 來源：量子位

現(xiàn)場(chǎng)演示行業(yè)大模型

明敏發(fā)自東莞

量子位 | 公眾號(hào) QbitAI

終于，華為的大模型動(dòng)向來了！

盤古大模型3.0，今天正式發(fā)布。

最底層的基礎(chǔ)大模型包括100億參數(shù)、380億參數(shù)、710億參數(shù)和1000億參數(shù)四個(gè)版本，預(yù)訓(xùn)練使用了超3萬億tokens。

華為最新大模型來了！盤古3.0問世，千億參數(shù)規(guī)模3萬億tokens，放話「不作詩只做事」

但和早先的傳言不同，盤古大模型3.0并非是盤古版ChatGPT，而是一個(gè)面向行業(yè)的大模型系列。

用華為自己的話來說就是：

盤古大模型，不作詩。

（而且現(xiàn)場(chǎng)全程沒有cue到“生成式”這個(gè)關(guān)鍵詞）

所以在慣例的現(xiàn)場(chǎng)演示環(huán)節(jié)，華為也都是派行業(yè)大模型出戰(zhàn)。

比如讓政務(wù)大模型判斷照片中除了貨車外還有哪些車輛違規(guī)，可以看到大模型標(biāo)出了三輛小轎車，而且給出了原因。

與此同時(shí)，可提供2000P Flops單集群的昇騰AI云服務(wù)在烏蘭察布和貴安同時(shí)上線。

“千億規(guī)模大模型具備涌現(xiàn)、思維鏈能力”

不想作詩的盤古大模型3.0，想做的事是面向行業(yè)。

這從它的架構(gòu)上就可以感受到，盤古大模型3.0分為三層：

L0：基礎(chǔ)大模型，包括自然語言、視覺、多模態(tài)、預(yù)測(cè)、科學(xué)計(jì)算；
L1：N個(gè)行業(yè)大模型，比如政務(wù)、金融、制造、礦山、氣象等；
L2：更細(xì)化場(chǎng)景的模型，提供“開箱即用”的模型服務(wù)

其中L0層的基礎(chǔ)大模型負(fù)責(zé)提供通用技能。

模型可分為自然語言大模型和多模態(tài)大模型兩類。能力覆蓋了對(duì)話問答、文案生成、圖像生成、圖像理解等。

預(yù)訓(xùn)練數(shù)據(jù)中包含了超過3萬億tokens，使用了超過1000+TB數(shù)據(jù)訓(xùn)練，指令微調(diào)數(shù)據(jù)也在千萬級(jí)。

并且盤古基礎(chǔ)大模型是一個(gè)可伸縮、高可擴(kuò)展的稀疏-稠密語言大模型。

千億級(jí)別稠密模型已經(jīng)具備涌現(xiàn)、思維鏈能力，構(gòu)成了底座；通過稀疏化使其成為不同“行業(yè)專家”，這樣可使得推理過程更加高效。

L1層由N個(gè)行業(yè)大模型構(gòu)成。

在這方面，華為使用行業(yè)公開數(shù)據(jù)訓(xùn)練了多個(gè)行業(yè)通用大模型，如政務(wù)、金融、制造、礦山、氣象等。

比如氣象方面，盤古氣象大模型的最新成果剛剛登上Nature正刊，只需要1.4秒就能完成24小時(shí)全球氣象預(yù)報(bào)。

此外，行業(yè)可以換也能基于自有數(shù)據(jù)在L0、L1基礎(chǔ)上，訓(xùn)練自己的專用大模型。

L2層則提供更加細(xì)化場(chǎng)景的模型，主打“開箱即用”。可專注于政務(wù)熱線、網(wǎng)點(diǎn)助手、先導(dǎo)藥物篩選、傳送帶異物檢測(cè)、臺(tái)風(fēng)路徑預(yù)測(cè)等具體行業(yè)應(yīng)用或特定業(yè)務(wù)場(chǎng)景。

據(jù)了解，為快速適配、快速滿足行業(yè)需求，盤古大模型采用完全的分層解耦設(shè)計(jì)。

在L0和L1大模型的基礎(chǔ)上，華為云還提供了大模型行業(yè)開發(fā)套件，通過對(duì)自有數(shù)據(jù)二次訓(xùn)練，就可以擁有自己的專屬行業(yè)大模型。

同時(shí)，根據(jù)客戶不同的數(shù)據(jù)安全與合規(guī)訴求，盤古大模型還提供了公用云、大模型云專區(qū)、混合云多樣化的部署形態(tài)。

華為在最底層構(gòu)建了以鯤鵬和昇騰為基礎(chǔ)的AI算力云平臺(tái)，以及異構(gòu)計(jì)算架構(gòu)CANN、全場(chǎng)景AI框架昇思MindSpore，AI開發(fā)生產(chǎn)線ModelArts等，能為大模型開發(fā)和運(yùn)行提供分布式并行加速，算子和編譯優(yōu)化、集群級(jí)通信優(yōu)化等關(guān)鍵能力。

基于華為的AI根技術(shù)，大模型訓(xùn)練效能可以調(diào)優(yōu)到業(yè)界主流GPU的1.1倍。

華為云2000P Flops單集群的昇騰AI云服務(wù)在烏蘭察布和貴安同時(shí)上線。

披露數(shù)據(jù)表明，昇騰云AI服務(wù)的千卡訓(xùn)練30天長(zhǎng)穩(wěn)率達(dá)到90%，斷點(diǎn)恢復(fù)時(shí)長(zhǎng)不超過10分鐘。

除了支持華為的AI框架Mindspore外，還支持Pytorch，Tensorflow等主流AI框架，框架中的90%算子，都可以通過華為的遷移工具從GPU平滑遷移到昇騰。

例如，美圖僅用30天就將70個(gè)模型遷移到了昇騰，同時(shí)華為云和美圖團(tuán)隊(duì)一起進(jìn)行了30多個(gè)算子的優(yōu)化以及流程的并行加速，AI性能較原有方案提升了30%。

氣象大模型登上Nature正刊

在展示盤古大模型3.0的基礎(chǔ)能力后，華為也對(duì)盤古大模型的一系列行業(yè)應(yīng)用做了數(shù)據(jù)披露。

最近，盤古氣象大模型登上Nature的消息刷屏了。

據(jù)悉，盤古氣象大模型是首個(gè)精度超過傳統(tǒng)數(shù)值預(yù)報(bào)方法的AI預(yù)測(cè)模型，同時(shí)預(yù)測(cè)速度也有大幅提升。

原來預(yù)測(cè)一個(gè)臺(tái)風(fēng)未來10天的路徑，需要在3000臺(tái)服務(wù)器的高性能計(jì)算機(jī)集群上花費(fèi)5小時(shí)進(jìn)行仿真。現(xiàn)在基于預(yù)訓(xùn)練的盤古氣象大模型，通過AI推理的方式，研究者只需單臺(tái)服務(wù)器上單卡配置，10秒內(nèi)就可以獲得更精確的預(yù)測(cè)結(jié)果。

在藥物研發(fā)領(lǐng)域，原來一款新藥研發(fā)平均需要10年時(shí)間、花費(fèi)10億美金。盤古藥物分子大模型助力西安交通大學(xué)第一附屬醫(yī)院劉冰教授團(tuán)隊(duì)發(fā)現(xiàn)全球40年來首個(gè)新靶點(diǎn)、新類別的抗生素，并將先導(dǎo)藥物研發(fā)周期縮短至1個(gè)月、研發(fā)成本降低70%。

在鐵路領(lǐng)域，盤古鐵路大模型能精準(zhǔn)識(shí)別現(xiàn)網(wǎng)運(yùn)行的67種貨車、430多種故障，無故障圖片篩除率高達(dá)95%，成為貨運(yùn)列檢員身邊有力的數(shù)字助手，將列檢員從每日數(shù)百萬張的“圖海”檢測(cè)中解放出來。

華為常務(wù)董事、華為云CEO張平安給最新動(dòng)向，做了最凝練的總結(jié)：

盤古大模型要讓每個(gè)行業(yè)、每個(gè)企業(yè)、每個(gè)人都擁有自己的專家助手，讓工作更高效更輕松。

我們始終堅(jiān)持AI for Industries的戰(zhàn)略，在深耕行業(yè)的道路上不斷前行。我堅(jiān)信大模型將重塑千行百業(yè)，而每一個(gè)開發(fā)者，都將是改變世界的英雄。

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

華為云盤古大模型

明敏

DeepSeek-V3.2-Exp第一時(shí)間上線華為云2025-09-29
你的AI助手更萬能了！天禧合作字節(jié)扣子，解鎖無限新功能2025-09-26
你的最快安卓芯片發(fā)布了！全面為Agent鋪路2025-09-26
任少卿在中科大招生了！碩博都可，推免學(xué)生下周一緊急面試2025-09-20

華為最新大模型來了！盤古3.0問世，千億參數(shù)規(guī)模3萬億tokens，放話「不作詩只做事」

“千億規(guī)模大模型具備涌現(xiàn)、思維鏈能力”

氣象大模型登上Nature正刊

相關(guān)閱讀

華為云：做厚算力“黑土地”，成就行業(yè)AI先鋒

華為這臺(tái)「技術(shù)暴力輸出機(jī)」，亮出「云原生2.0」，研發(fā)效率飆升10倍！

華為云發(fā)布CloudMatrix 384超節(jié)點(diǎn) 已通過昇騰云正式商用

華為率先把大模型接入手機(jī)！小藝+大模型，智慧助手智商+++

DeepSeek-V3.2-Exp第一時(shí)間上線華為云

華為云田奇：云原生時(shí)代，視覺預(yù)訓(xùn)練大模型探索與實(shí)踐

熱門文章

英偉達(dá)巧用8B模型秒掉GPT-5，開源了

“豆包手機(jī)”在二手市場(chǎng)價(jià)格都翻倍了……

DeepSeekV3.2技術(shù)報(bào)告還是老外看得細(xì)

谷歌新架構(gòu)突破Transformer超長(zhǎng)上下文瓶頸！Hinton靈魂拷問：后悔Open嗎？

SpaceX估值8000億美元超OpenAI，IPO就在明年