色综合中文综合网_性猛交娇小69hd_久久精品99久久久久久_欧美日韩精品一区二区三区四区 _97视频色精品_国产高清精品久久久久_日日鲁鲁鲁夜夜爽爽狠狠视频97 _国产成人免费视频精品含羞草妖精 _熟女少妇在线视频播放_精品人妻一区二区三区麻豆91 _久久女同性恋中文字幕_一区二区福利视频

百川智能上新超千億大模型Baichuan 3,沖榜成績:若干中文任務超車GPT-4

重點打磨邏輯推理和強化學習

衡宇 發自 凹非寺

量子位 | 公眾號 QbitAI

走月更路線的百川智能,在年前猛地加速,變成了半月更:

發布了超千億參數的最新版本大模型Baichuan 3,是百川智能基礎模型第三代——就在20天前,這家由王小川創辦的大模型公司,剛剛發布過角色大模型Baichuan-NPC。

更具標志性的是,百川智能這次模型更新,重點展示了模型在醫療場景的能力。

這既是商用落地的方向性揭示,還是王小川一直以來的技術健康理想,更在客觀上表明了領先性,因為醫療領域,也被業內類比為“大語言模型皇冠上的明珠”。

大模型落地醫療領域,既需要豐富的醫療知識、合適的Prompt,還需要模型本身的推理能力過硬

當然,醫療能力都秀了,更何況文學創作。Baichuan 3也秀了一把文學創作的能力,據說背后是在強化學習方面狠狠下了一番功夫。

具體怎么樣?一起前排來康康。

百川智能上新超千億大模型Baichuan 3,沖榜成績:若干中文任務超車GPT-4

Baichuan 3的能力怎么樣?

Baichuan 3是百川智能發布的基礎模型第三代版本,對比9月推出的Baichuan 2,各方面性能有了大幅提升。

話不多說,來看看Baichuan 3的測試成績。

首先是對基礎榜單的一系列刷新。

包括MMLU、CMMLU、GAOKAO、AGI-Eval、ARC等業內榜單,都成了百川智能秀新肌肉的背景板。

在MMLU測試集上,Baichuan 3最終成績為81.69,達到GPT-4 94.55%的水平。而在CMMLU和GAOKAO這兩個中文任務評測中,Baichuan 3甚至超越了GPT-4。

可以看到除ARC-Easy(含3年級到9年級科學考試內容的多選題問答數據集)以外,Baichuan 3在各個主流榜單上的能力都大幅超越GPT-3.5,達到接近GPT-4的水平

百川智能上新超千億大模型Baichuan 3,沖榜成績:若干中文任務超車GPT-4

一般來說,千億參數以上大模型通常還會“闖關”數學和編程能力,以展現自身的深層次邏輯思考能力和問題解決技能。

Baichuan 3在這方面也表現出眾。

可以看到,評測數學能力的GSM8K和MATH上,Baichuan 3均達到了GPT-4九成以上的能力;而HumanEval和MBPP這類鑒別編程能力的評測集,Baichuan 3的表現超過了GPT-4。

百川智能上新超千億大模型Baichuan 3,沖榜成績:若干中文任務超車GPT-4

至于對齊能力方面,Baichuan 3在MT-Bench和IFEval評測中,僅低于GPT-4。

其中,MT-Bench(Multi-turn Benchmark)專門評估大模型多輪對話任務表現,由80個多輪對話問題組成,涵蓋了寫作、角色扮演、推理、數學、編碼、知識(STEM)和人文社會科學等多個領域。

而IFEval(Instruction-Following Eval)則專注評估大模型遵循指令的能力,包含關鍵詞檢測、標點控制、輸出格式要求等25種任務。

百川智能上新超千億大模型Baichuan 3,沖榜成績:若干中文任務超車GPT-4

開篇我們提到,百川智能的這一代超千億大模型,開始嘗試挑戰醫療場景

看看其在醫療相關評測任務中取得的結果,也確實拿得出手:中文相關評測任務超過GPT-4水準,英文相關評測任務中,也大大縮短了與SOTA的距離。

百川智能上新超千億大模型Baichuan 3,沖榜成績:若干中文任務超車GPT-4

為了防止官方進行“Cherry-Pick”(從大量數據集中精選出符合某特定標準的某些部分或個體),我們在體驗過程中,隨機驗證了一道醫療問診題目:

百川智能上新超千億大模型Baichuan 3,沖榜成績:若干中文任務超車GPT-4

Fine,淺試了一下,專業度可以。

再來看Baichuan 3頗引以為傲的文學創作能力,在極高難度的唐詩宋詞創作方面,Baichuan 3對唐詩宋詞的語義理解和生成能力大幅提升。

那就丟它一個“命題作文”,試試寫首詞,主題是奧特曼在OpenAI的《甄嬛傳》事件,詞牌名就選《定風波》。

笑不活了,Baichuan 3反饋回來的作品居然還是雙語的,句式、對仗完全OK:

百川智能上新超千億大模型Baichuan 3,沖榜成績:若干中文任務超車GPT-4

同樣的題目,丟給ChatGPT試試?

它懂了咱要它寫詞,但沒完全懂。大概ChatGPT還沒學明白“定風波”不是整個事件的定論,是句式、聲韻、對仗有特別規律的詞牌名。

百川智能上新超千億大模型Baichuan 3,沖榜成績:若干中文任務超車GPT-4

后來又試了試別的,發現不是Baichuan 3運氣好,這家伙應該是真的懂詞牌名。

來看這首《滿江紅》:

百川智能上新超千億大模型Baichuan 3,沖榜成績:若干中文任務超車GPT-4

后來的測試過程,我們又蹭了蹭農歷新年的熱度,順便在文學創作能力的基礎上,加點多輪對話的能力。

結果ChatGPT還是出現了“不懂詞為何物”的bug。

至于詞的內容怎么樣,要是有愛好文學的小伙伴,可以在評論區分別品鑒一下:

百川智能上新超千億大模型Baichuan 3,沖榜成績:若干中文任務超車GPT-4
百川智能上新超千億大模型Baichuan 3,沖榜成績:若干中文任務超車GPT-4

百川智能新模型解析

從各項數據和具體效果來看,Baichuan 3已經完成了全方位升級,在中文能力有超越GPT的表現。

它是如何做到的?技術上做了哪些創新和迭代?

百川智能上新超千億大模型Baichuan 3,沖榜成績:若干中文任務超車GPT-4

關于Baichuan 3,百川方面并未公布模型具體參數,但明確表示了參數量超千億

也就是說,整體來看,百川智能的路線和OpenAI的路線一致,即業內認可的暴力美學,參數出涌現。

然而眾所周知的是,即使有百億甚至幾百億級別模型的訓練基礎,對此前的“小”大模型,千億參數大模型的訓練也會面臨不少新的問題。

比如數據制備、參數矩陣初始化方法的選擇、優化方法選擇,或者是讓人頭疼不已的梯度爆炸、Loss跑飛、模型不收斂等。

百川智能上新超千億大模型Baichuan 3,沖榜成績:若干中文任務超車GPT-4

百川智能的解決策略,從訓練初期就開始切入。

首先,針對超千億大模訓練初期模型不穩定性增強的情況,百川智能提出了一個漸進式初始化方法,叫“重要度保持”(Salience-Consistency)。

訓練過程中,團隊還通過細粒度監控、“異步CheckPoint存儲”機制等措施,保證Baichuan 3的穩定訓練至少在一個月之上。

如果臨時出了問題,也能在10分鐘內完成故障修復。

其次,Baichuan 3對訓練框架進行了優化,實現了減少同步開銷、減少通信延時、減少流水并行分段數量,并且降低了空泡率。

第三,為了提高模型最后的收斂效果,訓練過程中,百川智能團隊不僅監控梯度、loss等指標,還引入了參數“有效秩”,保證盡快發現訓練過程出現的問題。

話到這里就多提兩句,千億模型的訓練,動輒要幾千卡訓練N個月,因此訓練過程的監控需要格外重視。

據團隊介紹,為了確保訓練的超大模型遵循“Scaling Law”,百川智能依靠小模型以及訓練的不同FLOPS時期對大模型的Loss進行預測。

實驗表明,大模型完美復刻了團隊預期的loss。

百川智能上新超千億大模型Baichuan 3,沖榜成績:若干中文任務超車GPT-4

再者說,百川智能在數據的優化和采樣方面也有所創新。

團隊提出了一套基于因果采樣的方法在模型訓練過程中動態地選擇訓練數據的方案

詳細流程如下圖所示:

百川智能上新超千億大模型Baichuan 3,沖榜成績:若干中文任務超車GPT-4

也就是說,訓練千億模型時在穩定性、收斂性、并行方式等多個層面可能面臨的問題,Baichuan 3逐個擊破,進行優化,這才有了評測集上的亮眼成績。

至于Baichuan 3能在中文醫療場景的表現能超過GPT,秘方也被我們打聽了個底朝天。

得到的答案是,大模型在醫療領域落地,需要具備三方面的能力:

  • 第一點,模型需要具備足夠的醫療領域知識;
  • 第二點,模型需要具備很強的邏輯推理能力;
  • 第三點,需要精心調教合適的Prompt,讓模型能夠激發出相關的知識、結合合適的推理。

用一句話概括,就是需要大模型具備足夠的醫療知識,然后利用自身邏輯能力進行癥狀預測,并結合Prompt調優,作出適當取舍,然后完成問診過程。

Baichuan 3能當個不錯的中文醫生,原因在于模型預訓練階段匯集了達到千億Token的醫療相關數據,同時構建了一個含數十萬條記錄的醫療微調數據集。

同時,為了讓整體模型相關能力得到更好地激發,百川智能在模型推理階段針對Prompt做了系統性的研究和調優。

簡單來說,百川智能在醫療領域的秘訣=基礎模型能力+準確描述任務+恰當的示例樣本。

百川智能上新超千億大模型Baichuan 3,沖榜成績:若干中文任務超車GPT-4

而Baichuan 3能寫唐詩、能仿宋詞,也是有苦功夫在背后,招式主要有三。

一方面,百川智能團隊自研了訓練推理雙引擎融合、多模型并行調度的PPO訓練框架,支持千億模型,效率比業界主流框架提升400%。

又將傳統強化學習中的多種穩定訓練的方法以及超參數調優的策略引入,實現連續穩定的Reward提升的訓練過程。

另一方面,團隊結合RLHF與RLAIF,也就是既要人類反饋,也要大模型自己反饋,然后生成高質量優質偏序數據,平衡數據質量和數據成本。

做到這兩點后,Baichuan 3實現了迭代式強化學習(Iterative RLHF&RLAIF)。

模型通過多次的強化學習版本爬坡,大大緩解原先強化學習起點模型(SFT后的模型)無法探索到優質結果限制效果的問題。

下一站,多模態和Agent

王小川曾公開表達過對大模型開發的看法,在他眼中,這個階段離不開算力、財力和智力的支持。

縱觀目前國內外的大模型創業賽道,百川智能的確是擁有著這三樣硬實力的玩家。

在這樣的條件基礎上,百川智能從去年4月公開亮相后,一直實際地向前推進。

并且節奏風格非常鮮明:平均每個月都有一款新模型對外面世

對關注大模型賽道的人來說,每個月追更一次百川智能的大模型,變成了和翻一頁新的月歷一樣的平常事。

這次還打破自身常規地突然卷了一把,在新一年的第一個月尾緊急加更,甩出了Baichuan 3這一超千億版本,驚喜來得猝不及防。

量子位還打探到,多模態和Agent,是團隊未來會有更多探索的兩個方向。

而這應該就直接與明牌“超級應用”有關了。

從成立到現在9個月的時間里,百川智能有技術、有實力、有答卷、備受期望,毋庸置疑是技術性的一年。

而或許從現在開始,百川智能將要展現的另一面,就是有產品、有落地、有商用,實現技術模型到商用模型的飛輪閉環。

這或許也是為什么2024年剛開年,就有如此規模的基座模型迭代亮相。

百川智能要提速,技術勢能和產品動能要合體了。

百川智能上新超千億大模型Baichuan 3,沖榜成績:若干中文任務超車GPT-4
版權所有,未經授權不得以任何形式轉載及使用,違者必究。
成人午夜精品一区二区三区| 国产精品久久久午夜夜伦鲁鲁| 日韩中文字幕视频在线| 丰满人妻老熟妇伦人精品| 国产成人avxxxxx在线看| 日本sm残虐另类| 自拍偷拍视频在线| 亚洲一区二区三区在线看| 国产十八熟妇av成人一区| 亚洲视频在线观看| 国产日本精品视频| 久久影院理伦片| 亚洲欧洲日韩一区二区三区| 国产又黄又嫩又滑又白| 亚洲性猛交xxxxwww| 国产人妖一区二区| 日韩中文字幕一区二区| 亚洲精品老司机| 久久精品国产亚洲av麻豆| 久久久精品视频成人| 久久人人超碰| 精品国产av无码一区二区三区| 欧洲日韩一区二区三区| 国产一二三四在线| 亚洲一区二区三| 国产精品久久久久久久蜜臀| 中文字幕在线播放视频| 欧美激情精品久久久久久蜜臀| 蜜臀久久99精品久久久久宅男| 阿v天堂2018| 欧美一区二区三区白人| 最近中文字幕在线免费观看| 清纯唯美一区二区三区| 福利一区视频在线观看| 欧美激情图片小说| 96精品久久久久中文字幕| 国产精品天美传媒| 人妻av无码一区二区三区 | 国产精品白嫩美女在线观看| 国产成人在线观看| 色噜噜狠狠一区二区三区狼国成人| 亚洲欧洲高清在线| 日韩精品欧美精品| 日韩一级片播放| 亚洲日韩第一页| 久久综合九色| 丝袜制服一区二区三区| 中文字幕欧美精品日韩中文字幕| 老妇喷水一区二区三区| 黄色片视频在线播放| 精品一区二区三区四区在线| 久久精品日韩欧美| 91av俱乐部| 日韩一区二区av| 国产精品一级黄| 乱码一区二区三区| 26uuu另类亚洲欧美日本一 | 在线播放/欧美激情| 91麻豆一区二区| 大片在线观看网站免费收看| 欧美成人vps| 污视频软件在线观看| 337p亚洲精品色噜噜狠狠p| 亚洲成人免费在线视频| 久久免费国产| 在线播放免费视频| 91极品视频在线| 日本一区二区成人| 欧美大片xxxx| 欧美午夜视频在线| 欧美日韩精品一二三区| 亚洲av永久无码国产精品久久 | 在线播放av中文字幕| 久久久久一本一区二区青青蜜月 | 91久久国产综合久久91| 一区二区三区av在线| 精品国产一区二区三区久久影院 | 天天干天天玩天天操| 久久久久久久久久久免费| 久久久国际精品| 亚洲国产成人精品综合99| 日本中文不卡| 日韩精品视频免费| 国产风韵犹存在线视精品| 欧美做受xxxxxⅹ性视频| 92国产精品久久久久首页| 色综合久久中文综合久久97| 亚洲国产福利视频| 免费成年人高清视频| 欧美专区在线视频| 亚洲成年人影院| 国产永久免费视频| 中文字幕永久视频| 国产aⅴ夜夜欢一区二区三区| 亚洲一区二区三区三| 7777久久亚洲中文字幕| 一区二区三区网址| 国产精品久久久久久久久久久不卡 | 亚洲第一精品福利| 国产大陆精品国产| 中文字幕亚洲欧美日韩| 日本丰满少妇黄大片在线观看| 中文字幕国产亚洲2019| 欧美国产禁国产网站cc| 国产免费www| 国产精品无码av无码| 国产精品第一第二| 欧美日韩一级黄| 久久66热re国产| gv天堂gv无码男同在线观看| 亚洲精品久久区二区三区蜜桃臀| 在线视频欧美性高潮| 国产精品免费视频网站| 在线观看免费观看在线| 亚洲热在线视频| 国产二区一区| 亚洲视频自拍偷拍| 国产精品九色蝌蚪自拍| 国产精品热久久| 潘金莲一级淫片aaaaa| 韩国精品一区二区三区六区色诱| 精品视频在线观看日韩| 欧美激情在线免费观看| 国产又粗又黄视频| 日本天堂在线播放| 免费亚洲一区二区| 中文字幕亚洲综合久久| 悠悠色在线精品| 美女久久网站| 秋霞欧美一区二区三区视频免费| www插插插无码免费视频网站| 欧美一级大片视频| 91精品国产色综合久久| 26uuu久久天堂性欧美| 中文字幕永久免费视频| 亚洲成年人在线观看| 日本在线观看一区| 久久青草精品视频免费观看| 91国产丝袜在线播放| 国产精品一区二区久激情瑜伽 | 波多野结衣在线观看视频| 欧美视频亚洲图片| 欧美福利精品| 欧美极品在线播放| 欧美日韩亚洲国产综合| 91在线视频在线| a天堂视频在线| 丁香激情五月少妇| 波多野结衣家庭教师在线播放| 成人高清视频观看www| 国产视频亚洲视频| 亚洲在线中文字幕| 韩国女主播成人在线| 欧美日韩一级黄色片| 97人妻精品一区二区三区免费| 欧美在线视频全部完| 久久久国产精品麻豆| 日本亚洲三级在线| 日韩高清中文字幕一区| 黑人操亚洲女人| 中文区中文字幕免费看| 最近中文字幕在线观看视频| 国产福利一区在线| 国产做a爰片久久毛片| 国产极品999| 麻豆久久久久久久久久| 小泽玛利亚一区二区三区视频| 国产午夜小视频| 免费黄色网址在线| 国产农村妇女毛片精品| 国产xxx精品视频大全| 成人动漫一区二区在线| 亚洲成人黄色影院| 欧美最新大片在线看| 在线观看91视频| 欧美男同性恋视频网站| 精品国产乱码91久久久久久网站| 日日狠狠久久偷偷四色综合免费| 欧美日本精品在线| 97人人爽人人喊人人模波多| 亚洲已满18点击进入在线看片 | 国产精品久久99| 亚洲精品成人久久久| 久久精品国产亚洲| 欧美性一区二区三区| 国产拍精品一二三| 在线观看污视频| 久久综合久久久| 400部精品国偷自产在线观看 | 69av在线视频| 91精品国产综合久久香蕉922 | 粗暴蹂躏中文一区二区三区| 国产原创popny丨九色| 亚洲一区二区在线视频观看| 国产一区二区调教| 国产精品视频不卡| 国产一二三av| 精品久久久国产精品999| 成人黄色一区二区| 亚洲精品中文字幕乱码三区| www.日日操| 久久一区二区视频| 400部精品国偷自产在线观看| 久久精品动漫| 亚洲精品一线二线三线| 神马一区二区影院| 国产婷婷在线视频| 日韩一区二区免费视频| av在线com| 午夜视频1000| 亚洲国产精品综合小说图片区| 国产精品视频一区二区高潮| www.日韩一区| 中文亚洲视频在线| 日本不卡一区二区三区四区| 人妻无码中文字幕| 久久天天躁狠狠躁夜夜爽蜜月| youjizz.com国产| 久久高清免费视频| 亚洲日韩欧美视频| 波多野结衣电影免费观看| 亚洲午夜视频在线| 亚洲女人在线观看| 色综合久久中文综合久久牛| 国产成人精品视频免费看| 国产一区二区免费在线| 日韩精品在线观看网站| 欧美日韩在线中文| 日精品一区二区三区| 久久中文字幕在线| 这里只有久久精品| 久久亚洲欧洲| 欧美一区二区美女| 久久亚洲综合网| 99热在线观看精品| 国产精品久久久久影院| 成人影片在线播放| 丰满熟妇乱又伦| 久久全球大尺度高清视频| 久热在线视频观看| 亚洲午夜电影在线| 国产精品igao| 欧美日韩中文字幕精品| 久久久久99精品成人片毛片| 国产日韩精品在线| 91色视频在线| 欧美精品第三页| 日韩一区二区在线看片| 成年人小视频网站| 99久久久无码国产精品| 成人一区二区电影| 中文字幕在线观看免费| 国产一区二区三区高清在线观看| 日韩av加勒比| 欧美日韩国产影片| 国产大尺度在线观看| 亚洲天堂狠狠干| 日韩一级二级三级精品视频| www.国产二区| 日韩不卡免费视频| 欧美国产精品日韩| 伊人网中文字幕| 奇门遁甲1982国语版免费观看高清| 超碰人人干人人| 欧美成人vr18sexvr| 亚洲一区二区三区四区五区六区| 欧美精品一区二区三区高清aⅴ| 99在线精品视频免费观看软件| 黄色www在线观看| 欧美夫妻性生活| 久久精品一区二区三区中文字幕| 欧美日韩一区二区三| 岛国av一区二区三区| 黄色性视频网站| 亚洲的天堂在线中文字幕| 日韩综合第一页| 欧美v国产在线一区二区三区| 欧美一区二区三区成人精品| 亚洲精品720p| av免费播放网站| 在线观看av不卡| 艳妇乳肉豪妇荡乳xxx| 精品欧美一区二区三区| 欧美黄色一区二区三区| 国产91免费视频| 日韩精品久久久久久| 欧美日韩亚洲在线| 国产精品网站一区| 51自拍视频在线观看| 国产亚洲欧洲一区高清在线观看| 中文字幕日韩精品无码内射| 91国偷自产一区二区三区观看| 少妇人妻好深好紧精品无码| 国产97在线观看| 91久久精品一区二区| www日本高清| www.51色.com| 国产欧美一区二区| 亚洲黄色在线视频| 中文字幕欧美色图| 国产精品视频免费一区二区三区| 亚洲天堂av老司机| 欧美色图另类小说| 91国产福利在线| 亚洲自拍偷拍另类| 97人妻天天摸天天爽天天| 在线观看日韩av先锋影音电影院| 国产精品久久中文字幕| 中文字幕一区二区三区精华液| 亚洲成人激情小说| 日韩中文字幕国产精品| 丝袜亚洲另类欧美| 熟女性饥渴一区二区三区| 欧洲色大大久久| 精品欧美一区二区三区免费观看| 97在线视频免费观看| 亚洲人成在线观看一区二区| 国产免费不卡视频| 国产传媒视频在线| 国产精品第157页| 97欧美精品一区二区三区| 综合在线观看色| 99久久久国产精品无码免费| 日韩电影大全在线观看| 欧美日韩亚洲视频| 日本二区三区视频| 国产欧亚日韩视频| 中文字幕一区二区视频| 国产精品1000部啪视频| 91在线在线观看| 日韩人在线观看| 日韩久久久久久久久| 日韩av第一页| 激情综合网最新| www.四虎成人| 亚洲精品久久7777777| 中日精品一色哟哟| 国产综合18久久久久久| 色婷婷综合视频在线观看| 二区三区在线视频| 国产3p在线播放| 国产亚洲精品激情久久| 另类调教123区| 国产一区二区三区四区五区六区| 亚洲一区二区免费在线| 欧美一级一区二区| 亚洲精品视频网址| 色综合666| 91精品综合久久久久久| 国产成人三级一区二区在线观看一| 国内精品国语自产拍在线观看| 精品日韩一区二区三区免费视频| 日韩一区免费视频| 三日本三级少妇三级99| 国模吧一区二区三区| 91丨九色丨黑人外教| 好吊视频在线观看| 亚洲一区二区三区四区在线播放| 亚洲图中文字幕| 日韩欧美国产网站| 久久精品国产999大香线蕉| 日本丰满少妇裸体自慰| 999精品视频一区二区三区| 亚洲精品一区二区三区四区高清| 日韩国产成人在线| 5g国产欧美日韩视频| 日韩精品一区二区在线观看| 成人av网站大全| 在线免费观看av片| 97人人爽人人| 国产精品视频一| 精品久久久久久中文字幕一区奶水 | 一级日韩一区在线观看| 欧美裸体bbwbbwbbw| 国产成人无码av| 在线看的黄色网址| 成人av影视在线| 亚洲少妇激情视频| 一二三四社区欧美黄| 免费中文字幕在线观看| 欧美日韩一区二区三区免费| 精品久久久久久久人人人人传媒| 成人黄色在线视频| 精品国产黄色片| 国产精品不卡av| 久久偷拍免费视频| 成人精品在线观看| 亚洲国产成人精品电影| 久久久久久久综合| 久久精选视频| 日韩特级黄色片| 综合久久国产| 日韩精品免费一线在线观看| 亚洲国产va精品久久久不卡综合| 性xxxxbbbb| 亚洲国产精品无码久久久| 国产伦精品一区三区精东| 性久久久久久久久久久久久久| 色午夜这里只有精品| 青青草国产成人av片免费| 无码人妻av一区二区三区波多野 | 久久久久久久久综合| 亚洲欧美成人网| 亚洲第一福利在线观看| 日韩欧美亚洲国产精品字幕久久久| 色老汉一区二区三区| 日韩欧美成人区| 香蕉成人啪国产精品视频综合网| 91首页免费视频| 国产一区不卡在线|