色综合中文综合网_性猛交娇小69hd_久久精品99久久久久久_欧美日韩精品一区二区三区四区 _97视频色精品_国产高清精品久久久久_日日鲁鲁鲁夜夜爽爽狠狠视频97 _国产成人免费视频精品含羞草妖精 _熟女少妇在线视频播放_精品人妻一区二区三区麻豆91 _久久女同性恋中文字幕_一区二区福利视频

月之暗面開源改進版Muon優化器,算力需求比AdamW銳減48%,DeepSeek也適用

Muon原作者也來點贊祝賀

克雷西 發自 凹非寺
量子位 | 公眾號 QbitAI

算力需求比AdamW直降48%,OpenAI技術人員提出的訓練優化算法Muon,被月之暗面團隊又推進了一步!

團隊發現了Muon方法的Scaling Law,做出改進并證明了Muon對更大的模型同樣適用

在參數量最高1.5B的不同Llama架構模型上,改進后的Muon算力需求僅為AdamW的52%。

圖片

同時團隊還基于DeepSeek架構訓練出了一個16B的MoE模型,與改進后的優化算法一同開源。

圖片

Muon技術博客發布當時主要適用于較小的模型和數據集,作者留下了三個懸而未決的問題:

  • Muon能否用于更大規模的訓練?
  • Muon能否在更大規模的GPU集群上使用?
  • Muon是否同樣適用于微調和強化學習?
    現在月暗團隊用實驗給出了回答——全部都是Yes。

圖片

消息一出,當時Muon的作者也都很激動,主要作者Keller Jordan表示這是Muon規模化的首個成功報告,為團隊送上了祝賀。

圖片

另一名貢獻者,當時負責Muon規模化實驗的Hyperbolic Labs聯創兼CTO?Yuchen Jin也表示,月暗團隊的這項成果,是Muon的一次勝利。

圖片

將AdamW特點引入Muon

在介紹月暗團隊的工作之前,先來了解一下Muon是個什么樣的技術。

這是一種神經網絡隱藏層的2D參數優化器,主要作者是OpenAI深度學習團隊的Keller Jordan。

這項成果發表于去年的12月8日,而Keller也是去年12月加入的OpenAI。

Muon的核心思想是通過正交化梯度更新矩陣,避免參數更新陷入局部極小,使模型能夠學習到更加多樣化的特征表示。

在94%的精度下,Muon把CIFAR-10在A100上的訓練時間從3.3秒縮短至2.6秒。

圖片

不過當時Muon團隊只證明了其在小型模型和數據集上的可行性,對于較大的模型能否適用則是個未知數。

現在經過月暗團隊的改進之后,Muon被證明對于更大的模型和數據集同樣適用

針對模型本身,團隊吸收了AdamW中的一些特點,移植到了Muon當中,具體包括兩個方面。

一是引入了權重衰減機制,在權重更新公式中添加了一個帶有衰減系數的項。

圖片

這樣做的原因是作者發現直接將Muon應用到大規模訓練時,模型權重和層輸出的幅度會持續增長,最終超出bf16的高精度表示范圍,損害模型性能。

在訓練一個8億參數模型至100B tokens(約5倍計算預算最優)的過程中,團隊對比了AdamW、無權重衰減的Muon和帶權重衰減的Muon。

結果顯示,帶權重衰減的Muon在過擬合階段取得了最佳效果,驗證了權重衰減的必要性。

圖片

第二項改進,是調整了Muon的參數更新尺度,使不同形狀矩陣參數的更新幅度保持一致,并與AdamW的更新幅度匹配。

Muon的一個特點是,對于形狀為[A,B]的矩陣參數,其理論更新幅度為sqrt(1/max(A,B))。

這導致不同形狀矩陣參數的更新幅度差異很大,比如對于MLP這種寬矩陣,更新會過小,而將每個head看作獨立矩陣時,更新又會過大。

此外,這個幅度也與AdamW不一致,給超參數的設置帶來困難。

為了讓不同矩陣參數的更新幅度匹配,并與AdamW保持一致,作者嘗試了幾種改進方案,最終選擇直接基于形狀調整每個參數的學習率

其中0.2是通過實驗確定的一個常數,用于將Muon的更新尺度與AdamW對齊。

圖片

除了對Muon本身的改進,要想將Muon用于更大規模的訓練,還需要將其擴展到分布式訓練環境中

由于Muon需要完整的梯度矩陣來計算正交化的更新量,而現有的分布式訓練框架(如ZeRO-1、Megatron-LM等)都假設優化器狀態可以獨立地按元素切分到不同設備上,所以它們無法直接支持Muon。

為了解決這個問題,論文作者提出了分布式Muon的并行化策略。

它在ZeRO-1的基礎上引入了兩個額外的操作:

  • 一是在每個數據并行組內做梯度聚合通信,將分散的梯度切片合并成完整的矩陣;
  • 二是基于聚合后的梯度矩陣并行計算正交化的更新量,然后只保留與本地參數對應的那一部分。

這種實現方式在最小化內存占用和通信開銷的同時,最大限度地保留了原始Muon算法的數學性質。

圖片

證明Muon擴展可行性

基于上述Muon改進,作者取得了以下成果,作者在Llama架構的一系列稠密模型上,進行了Muon和AdamW的模型縮放對比實驗。

結果表明,在計算預算最優的情況下,Muon的樣本效率是AdamW的1.92倍,即訓練FLOPS只需AdamW的52%,就能達到相當的性能。

這一發現證實了Muon在大規模訓練中的效率優勢

圖片

在此基礎之上,作者以DeepSeek-V3-Small架構作為基礎,用改進的Muon訓練了Moonlight模型。

Moonlight是一個MoE模型,具有15.29B的總參數和2.24B激活參數,訓練token量為5.7T。

與相同規模和數據量的模型相比,Moonlight在英語理解與推理(MMLU、TriviaQA、BBH)、代碼生成(HumanEval、MBPP)、數學推理(GSM8K、MATH、CMATH)、中文理解(C-Eval、CMMLU)等各類任務上都取得了明顯更好的性能。

即使與使用更大數據集訓練的稠密模型相比,Moonlight也展現了極強的競爭力。

圖片

與多個知名語言模型的對比表明,Moonlight在性能-訓練預算平面上推進了帕累托前沿(Pareto Frontier)。

(注:帕累托前沿是一個經濟學和管理學中的概念,描述的是在多目標決策問題中所有可能的最優解的集合,這些解在多個目標之間取得了最佳平衡。在帕累托前沿上的每一個點,都意味著一個目標的改善必然以犧牲另一個目標為代價,因此它代表了在多個目標之間實現的最佳權衡。)

圖片

為了進一步分析Muon更新矩陣參數的內在機制,作者對比了Muon和AdamW訓練得到的模型在不同訓練階段的參數矩陣奇異值譜。

結果發現,Muon優化的矩陣在各層各類參數上,總是比AdamW有更高的奇異值熵。這從經驗上驗證了Muon通過正交化來學習更多樣化表示的直覺。

圖片

最后,在Moonlight模型的基礎上,作者還探索了Muon在指導微調階段的效果,結果表明,在預訓練和微調階段均使用Muon的效果是最佳的。

圖片

技術報告:
https://github.com/MoonshotAI/Moonlight/blob/master/Moonlight.pdf
Code:
https://github.com/MoonshotAI/Moonlight
Moonlight模型:
https://huggingface.co/moonshotai/Moonlight-16B-A3B

版權所有,未經授權不得以任何形式轉載及使用,違者必究。
久久九九全国免费| 在线不卡一区二区| 日韩二区三区四区| 国内毛片毛片毛片毛片| 黑人操亚洲女人| 国产亚洲小视频| 国产欧美日韩激情| 国产精品成人一区二区| 久久精品视频1| 久久国产生活片100| 99伊人久久| 国产精品乱码一区二区三区软件| 中文字幕一区综合| 激情综合五月天| 亚洲免费视频观看| 91久久精品www人人做人人爽| 国产中文字幕二区| 久久婷婷综合国产| 国产精品麻豆视频| 国产一区二区在线观看免费| 日韩国产精品91| 99视频在线观看一区三区| 精品一区精品二区高清| 日韩中文第一页| 可以看的av网址| 天天操天天干天天操| 亚洲欧美日韩国产精品| 亚洲图片欧美日韩| 九九九九九九精品| 久久久久久久电影| 国产免费黄色一级片| 国产制服丝袜一区| 日韩在线免费av| 国产成人艳妇aa视频在线| 国产男女猛烈无遮挡91| 国产美女精品在线观看| 91久久偷偷做嫩草影院| 一区二区av| 韩国三级在线播放| 91在线视频网址| 日本亚洲欧美成人| 久久综合色视频| 91日韩一区二区三区| 欧美在线视频一区二区| 国产一区二三区| fc2成人免费视频| 亚洲美女久久久| a级片在线播放| 国产精品久久久久久久久影视| 国产男女无遮挡| 捆绑调教美女网站视频一区| 欧美一区第一页| 黄色一级大片在线观看| 亚洲综合网av| 久久天天躁日日躁| 偷拍精品一区二区三区| 最新国产精品拍自在线播放 | 久久综合一区二区三区| 综合久久中文字幕| 国产精品一区一区| 久久人人九九| 欧美 国产 日本| 品久久久久久久久久96高清| 五月婷婷久久久| 亚洲性无码av在线| 午夜影院免费版| 国产三级精品三级在线专区| 国产精品美女无圣光视频| 精品少妇人妻一区二区黑料社区| 亚洲精品一区二区网址| 2025国产精品自拍| 欧美日本一区二区在线观看| 在线黄色免费看| 国产精品一二三| xxxx性欧美| 日本三级黄色大片| 奇米影视首页 狠狠色丁香婷婷久久综合| 欧美日韩综合一区| 色窝窝无码一区二区三区| 久久精品视频91| 欧美日韩在线播放三区| 男人操女人下面视频| 自拍偷拍欧美精品| 欧美久久在线观看| 国产免费观看久久| 97超级碰在线看视频免费在线看| 蜜臀99久久精品久久久久小说 | 吴梦梦av在线| 日韩美女啊v在线免费观看| 3d动漫精品啪啪| 日韩精品一区二区亚洲av性色| 亚洲一区二区三区777| 欧美视频在线免费看| www.黄色小说.com| 亚洲第一中文av| 岛国精品视频在线播放| 天天干天天操天天干天天操| 99这里只有精品| 亚洲一区二区免费视频软件合集 | 污污视频网站在线| 91精品国产综合久久久蜜臀粉嫩| 亚洲一区二区三区综合| 欧美日韩亚洲综合在线 欧美亚洲特黄一级 | 免费在线观看av的网站| 国产成人在线视频网址| 亚洲精品国产精品久久| 久久久久久亚洲精品杨幂换脸| 日韩欧美一区二区在线| 亚洲国产www| 欧美一区二区三区四区视频| 日韩精彩视频| 国产免费一区二区三区免费视频| 色综合久久综合网欧美综合网| 国产欧美欧洲| 91porny九色| 亚洲精品动漫100p| 国产主播中文字幕| 69p69国产精品| 欧美日韩不卡在线视频| 久久只有这里有精品| 国产成人精品影视| 日韩最新免费不卡| 无人码人妻一区二区三区免费| 亚洲国产精品18久久久久久| 最近免费中文字幕视频2019| 一道本在线观看| 国产精品成人免费一区久久羞羞| 欧美国产97人人爽人人喊| 成人性生交大片免费看视频直播| 日韩av女优在线观看| 日韩午夜中文字幕| 性感美女一区二区三区| 色哟哟精品一区| 婷婷激情四射五月天| 国产精品区一区二区三| 裸体裸乳免费看| av不卡在线播放| 日韩视频专区| 91亚洲大成网污www| 亚洲国产精品影视| 成人18精品视频| 色噜噜色狠狠狠狠狠综合色一| 美女视频一区二区| 男人天堂1024| 91网址在线看| 久久久青草婷婷精品综合日韩| 内射毛片内射国产夫妻| 日韩国产精品久久| 91精品久久久久久久久久| www.亚洲天堂.com| 国产又爽又黄的激情精品视频| 久久高清内射无套| 国产香蕉97碰碰久久人人| 日韩片在线观看| 日韩精品在线视频美女| 国产狼人综合免费视频| 后入内射无码人妻一区| 久久久午夜电影| 自拍视频一区二区三区| 国产亚洲欧美激情| 欧美成人黑人猛交| 成人午夜在线视频一区| 亚洲精品网站在线观看| 亚洲乱码一区av黑人高潮| 国产在线观看99| 欧美成人高潮一二区在线看| 成人无码一区二区三区| 国产精品区一区二区三在线播放| 国产乱子伦视频一区二区三区 | 国产91精品久久久久久| 国产又色又爽又黄的| 伊人久久婷婷色综合98网| 欧美精品在线免费观看| 亚洲激情图片qvod| 国产精品资源站在线| 天堂国产一区二区三区| a毛片在线免费观看| 亚洲最大成人av| 日本久久久久久久久久| 国产精品一区二区久久| 91视频免费播放| 182在线视频| 日韩中文字幕精品| 国产成人日日夜夜| 日本在线视频免费| 午夜肉伦伦影院| 黄色av网址在线播放| 亚洲自拍偷拍网址| 亚洲美女搞黄| 中文字幕第88页| 91ts人妖另类精品系列| 久久久久人妻一区精品色| 久草国产在线观看| 校园春色 亚洲色图| 久久久久久麻豆| 四虎国产精品免费| 和岳每晚弄的高潮嗷嗷叫视频| 国产精品va在线播放我和闺蜜| 在线看日韩精品电影| 亚洲乱码在线观看| 中文字幕第28页| 中文字幕1区2区3区| 手机在线免费看片| 青青草视频播放| www.久久91| 亚洲精品在线免费看| 亚洲天堂av图片| 中文字幕成人在线| 欧美一区二区高清| 8x福利精品第一导航| 欧美精品日日鲁夜夜添| 国产精品久久毛片| 性中国古装videossex| 日韩欧美a级片| 色欲狠狠躁天天躁无码中文字幕 | 欧美 日韩 人妻 高清 中文| 成人aaaa免费全部观看| 精品日产卡一卡二卡麻豆| 国产精品丝袜白浆摸在线 | 日韩成人av毛片| 久久精品国产亚洲av无码娇色| 少妇高潮一区二区三区喷水| 午夜激情福利在线| 绯色av蜜臀vs少妇| 久久美女免费视频| 国产精品白丝在线| 久久国产美女视频| 亚洲综合在线网站| 久久96国产精品久久99软件| 欧美成年人在线观看| 国产一区国产精品| 一区二区免费在线观看| 久久涩涩网站| www.一区二区.com| 凹凸国产熟女精品视频| 福利在线一区二区| 97成人资源站| 激情综合网最新| 黄瓜视频在线免费观看| 国产一区福利在线| 99热精品国产| 久久综合久久久久88| 国产精品免费aⅴ片在线观看| 亚洲午夜三级在线| 欧美日韩精品一区二区在线播放| 精品久久久精品| 亚洲精品中文字幕乱码三区| 午夜精品在线视频一区| 欧美群妇大交群中文字幕| 久久久这里只有精品视频| 97在线免费观看视频| 国产伦精品一区二区三区视频孕妇| 国产精品宾馆在线精品酒店| 青娱乐国产在线视频| 国产欧美在线看| 欧美高跟鞋交xxxxhd| 一本色道久久综合亚洲二区三区| 91久久精品视频| 日韩视频在线观看国产| 国产精品宾馆在线精品酒店| 成年人看的毛片| 激情五月六月婷婷| 欧美久久久久久久久久久| 自拍视频一区二区| 泷泽萝拉在线播放| 日本在线播放视频| av一级黄色片| 天天操天天干天天操天天干| 欧美福利电影网| 一本色道a无线码一区v| 日韩电影免费观看在| 国产一区二区动漫| 久久久久久久久久久一区| 一本色道久久亚洲综合精品蜜桃| 欧美人妻一区二区三区| 全程偷拍露脸中年夫妇| 天堂中文资源在线观看| 国产三级久久久| 日韩不卡在线观看| 久久久久久国产免费| 国产富婆一区二区三区 | 国产一区激情在线| 日韩一区国产二区欧美三区| 操91在线视频| 免费成人进口网站| 欧美成人aaa片一区国产精品| 国产高清精品软件丝瓜软件| 爽好多水快深点欧美视频| 九九99久久| 黄色一级免费大片| 国产手机在线视频| 欧美亚洲日本国产| 美脚丝袜一区二区三区在线观看| 亚洲国产天堂av| 波多野结衣视频一区| 久久综合电影一区| 久久久久天天天天| 麻豆精品传媒视频| 制服.丝袜.亚洲.中文.综合懂色| 亚洲人亚洲人成电影网站色| 中文字幕亚洲一区二区三区五十路 | 婷婷无套内射影院| 国产精品特级毛片一区二区三区| 精品久久久久久久久国产字幕 | 精品动漫一区二区| 色综合影院在线| 久久人人九九| 精品国产欧美日韩不卡在线观看 | 国产稀缺精品盗摄盗拍| 国内精品国产成人| 孩xxxx性bbbb欧美| 中文字幕xxx| 国产大片一区二区| 精品少妇一区二区三区| 成人资源av| 性高潮视频在线观看| 亚洲国产你懂的| 中文字幕成人精品久久不卡| 日本一区二区三区视频在线观看| 日本美女视频网站| 欧美一区二区三区黄片| 最近2019中文字幕大全第二页| 美女喷白浆视频| 手机在线观看毛片| 国产精品麻豆欧美日韩ww| 国产一区二区动漫| 深夜做爰性大片蜜桃| 91超碰在线电影| 国产精品theporn动漫| 亚洲欧美国产三级| 亚洲国产日韩在线一区模特 | 2014亚洲精品| www日本在线观看| 久久国产精品无码网站| 亚洲免费人成在线视频观看| 图片区偷拍区小说区| 欧美日韩国产丝袜另类| 亚洲乱码日产精品bd在线观看| 欧美高清69hd| 亚洲精品一区二区三区婷婷月| 欧美熟妇精品一区二区| 国产精品家庭影院| 日韩少妇内射免费播放| 久久九九久久九九| 久久精品中文字幕一区二区三区| 九九热视频在线免费观看| 欧美日韩精品一区视频| 久久久久久久久久久视频| 99re66热这里只有精品3直播| 粉嫩高清一区二区三区精品视频| 久久性色av| 国产精品自拍偷拍| 日韩精品人妻中文字幕有码| 国产91精品一区二区| 日本久久亚洲电影| 九九热这里有精品视频| 在线视频综合导航| 国内少妇毛片视频| 成人丝袜18视频在线观看| 日韩免费av一区二区三区| 国产+成+人+亚洲欧洲自线| 成人动漫网站在线观看| 中文字幕在线2021| 91av视频导航| 日本一级一片免费视频| 国产精品资源网站| 亚洲精品久久久久久久久| 日韩欧美在线一区二区| 久久久久亚洲av成人片| 国产精品久久毛片a| 欧美亚洲另类视频| 在线免费看黄色片| 成人精品一区二区三区四区| 欧美大尺度激情区在线播放| 中文字幕无码毛片免费看| 三级久久三级久久| 久久精品电影一区二区| 欧美一级裸体视频| 黄网站免费久久| 97视频在线观看成人| 国产精品亚洲无码| 亚洲伊人色欲综合网| 黄色录像特级片| 六月丁香婷婷久久| 最近2019年中文视频免费在线观看 | 日韩视频在线观看一区| 亚洲黄色片在线观看| 成人综合网网址| 香蕉免费毛片视频| 欧美日韩精品高清| 欧美视频在线免费播放| 蜜乳av一区二区| 国产脚交av在线一区二区| 欧美日韩大片在线观看| 香蕉影视欧美成人| 日韩资源av在线| 国产激情精品久久久第一区二区 | 久久亚洲国产成人精品无码区| 日本激情视频在线| 91精彩刺激对白露脸偷拍| 日韩人妻无码一区二区三区99| 亚洲a视频在线观看| 粉嫩高潮美女一区二区三区| 中文字幕一区二区不卡| 3d动漫精品啪啪1区2区免费| 久热在线中文字幕色999舞| 97中文在线观看| 免费一级特黄毛片| 国产探花视频在线播放| 国产精品无码AV|