色综合中文综合网_性猛交娇小69hd_久久精品99久久久久久_欧美日韩精品一区二区三区四区 _97视频色精品_国产高清精品久久久久_日日鲁鲁鲁夜夜爽爽狠狠视频97 _国产成人免费视频精品含羞草妖精 _熟女少妇在线视频播放_精品人妻一区二区三区麻豆91 _久久女同性恋中文字幕_一区二区福利视频

手機實現GPT級智能,比MoE更極致的稀疏技術:省內存效果不減|對話面壁&清華肖朝軍

一條與MoE不同的路徑——神經元級稀疏激活

量子位智庫
量子位 | 公眾號 QbitAI

在大模型爭霸的時代,算力與效率的平衡成為決定勝負的關鍵。

端側部署一直是大模型落地的最后一公里,卻因算力瓶頸困難重重。

面壁智能和清華走出了一條與MoE不同的路徑——神經元級稀疏激活,讓模型在保持性能的同時大幅降低資源消耗。

這次技術探索的背后,是一個融合腦科學靈感與工程創新的故事。

手機實現GPT級智能,比MoE更極致的稀疏技術:省內存效果不減|對話面壁&清華肖朝軍

△《Configurable Foundation Models: Building LLMs from a Modular Perspective》論文

本期「大模型創新架構」主題訪談量子位邀請到面壁智能&清華CFM論文作者肖朝軍,聊聊這場算力與效率的博弈以及大模型架構創新的未來。

以下為量子位面壁智能&清華CFM論文作者肖朝軍的對話實錄整理:

探索原生稀疏

量子位:能簡單介紹一下CFM(Configurable Foundation Models)技術的核心優勢嗎?

肖朝軍:CFM是一種原生稀疏技術,利用模型本來就有的稀疏激活性質,相比MoE可以極大提升模型參數效率。

量子位:參數效率是什么?極大提升參數效率意味著哪些優勢?

肖朝軍:參數效率是指模型單位參數的有效性,一般能夠反映在相同參數規模下,模型是否表現更好。參數效率提升最直接的影響就是省顯存、省內存。

尤其手機端不可能像云端一樣用好幾臺GPU服務器一起推幾千億參數規模的模型。手機內存有限,操作系統占一部分,個人應用需要一部分,如果大模型把內存占滿,那手機基本上就不可用了,所以參數效率在端側應用里非常重要

量子位:CFM與MoE(Mixture of Experts)的區別在哪里?

肖朝軍:我們的稀疏粒度更細,更強調神經元級別的稀疏,可以說CFM的顆粒度比其他許多在FFN層做稀疏化改進的工作要更細,在稀疏化上走得更極致。

現在超大參數規模的MoE稀疏化可能已經成為主流,但不適合端側。MoE的稀疏粒度是專家級別,CFM是神經元級別,而且CFM動態性也強于MoE。MoE固定激活Top k個expert,CFM是靠模型自己的激活函數來定義具體激活多少expert。

任務難的話可能需要激活10-100個,任務簡單可能就激活1-2個。

手機實現GPT級智能,比MoE更極致的稀疏技術:省內存效果不減|對話面壁&清華肖朝軍

△CFM積木式組合構建高效任務模型

量子位:為什么MoE不使用你們這種更強的動態性?

肖朝軍:本質是參數效率原因。

MoE的目的是增大模型參數,比如600B的模型無法在一臺機器上放下,必須在訓練過程就卡死激活專家的數量,必須限制住最多激活top k或top p個專家,要不然就可能算不下了。

他們必須在訓練階段就要有負載均衡的loss,使每個expert和每個token大致均衡。而我們參數效率高,所有參數可以放在一起像傳統稠密模型的FFN一樣計算。

手機實現GPT級智能,比MoE更極致的稀疏技術:省內存效果不減|對話面壁&清華肖朝軍

△涌現模塊的形成過程示意圖

模型架構之爭

量子位:你怎么看待像Mamba、RWKV這些計算復雜度為線性的非transformer架構模型帶來的挑戰?

肖朝軍:從模型效果上來說,transformer仍是天花板最高的架構。當前所有其他的非transformer架構探索都是在做效率,而不是效果

我觀察目前優化路徑大概有兩種:

一種是線性派,包括Mamba、Linear Attention、Gated Linear Attention、RWKV等;

另一種是基于transformer,但對KV cache做管理,比如KV eviction、KV compression等。做FFN改進的其實不多,我們強調的稀疏可能是FFN改進中非常重要的一點。

量子位:很多非transformer架構都在多個測試集上打敗了主流transformer模型,你怎么看?

肖朝軍:需要辯證看待。

首先要考慮公平性,比如Mamba實際上有固定的memory,在短文本時可能memory size更大,這可能是用更多存儲換取更好效果。

像RULER等一系列長文本評測中,線性模型目前還是打不過transformer。大家報的結果都是”在某方面比transformer好”,但為什么沒有廣泛應用?因為沒辦法全面打敗transformer

量子位:今年1月份大模型六小強中的一家訓的千億參數線性attention模型在RULER上打敗了GPT-4o、Claude-3.5-Sonnet等transformer模型,你怎么看?
肖朝軍:他們的模型是混合架構,純線性很難做到同樣的表現。但能有這樣的成績說明他們混合之后的效果還是很厲害的。

量子位:如何才能客觀評價模型架構之間的優劣?

肖朝軍:確實很難有一個放之四海而皆準的評判方式。transformer之所以取代CNN和RNN成為主流,是因為它真的能scaling。

之前的架構是scaling不了的,transformer帶來了一種新可能性:我們可以訓練很大的模型,用很多數據獲得更多智能。而且它不需要任何trick,不需要人為調參就能獲得好效果。

量子位:你認為transformer成為主流架構有偶然性嗎?

肖朝軍:既有偶然性也有必然性。有個概念叫“硬件彩票”

軟件往往走在硬件前面,我們會開發很多算法,但真正實現加速的是被硬件廠商選中的那種。transformer高強度對著GPU設計,真能打滿GPU利用率,所以踩中了硬件彩票。

現在的Mamba、RWKV誰能踩中下一波硬件彩票,誰也說不準。

手機實現GPT級智能,比MoE更極致的稀疏技術:省內存效果不減|對話面壁&清華肖朝軍

△硬件彩票內涵

小模型與智能未來

量子位:目前一個小模型的定義是多大size?最小能在什么尺寸的模型里壓縮進主流大模型的能力?這個極限在哪?

肖朝軍:現在小模型的大小沒有明確定義,基本上端側的話,可能還是在2-3B的范圍算小模型。

關于模型壓縮極限,我們發表過Densing Law的論文,但極限在哪里我們確實還不知道。很多人問未來是不是用64個比特就能放下GPT-4,那顯然不可能,但具體極限還不明確。

量子位:智能的本質是壓縮嗎?

肖朝軍:這樣說有點怪。之前有一篇“語言模型即壓縮”的論文,只是把壓縮率和PPL做了轉換,這很難說成本質。

Ilya最早提出智能本質是壓縮這個思想的時候,強調的是“壓縮器”能夠很好地建模數據分布規律,而不是直接用語言模型來構建數據壓縮器。

Hinton說過,智能的本質是學習,就是學習能力才是智能的本質。我認為抽象能力可能更接近智能本質。你看語言本身就是一種符號,能表征世間萬物,承載人類知識,是抽象和總結的載體。

量子位:面壁智能的小模型落地情況如何?

肖朝軍:我們開源的最大模型是是MiniCPM-3-4B,也有一些未開源的項目級模型可能有幾十B。

我們的端側場景很廣泛,包括手機端、電腦端、智能家居等都在射程范圍。

手機實現GPT級智能,比MoE更極致的稀疏技術:省內存效果不減|對話面壁&清華肖朝軍

△面壁智能官網

量子位:精度優化方面,你們怎么看FP8等低精度計算?

肖朝軍:精度降低后模型效果會變差,需要非常多的設計才能保證效果。

但現在DeepSeek已經開源FP8算子部分了,只要跟著做一些補全就行,現在再訓新模型的只要有卡肯定都上FP8了,25年會更多人做FP8,做的更實用更激進。未來還會有FP4,一步步發展。

量子位:小模型在多模態方面有限制嗎?

肖朝軍:效果都挺好的。小模型在多模態這塊,從打榜上看差異沒有那么大。你會發現多模態現在還沒有一個非常漂亮的scaling law。

而且也還沒有一個統一共識的多模態模型架構。知識能力上,小模型可能還有差距,差距主要體現在對知識的調度和理解上。

量子位:你怎么看o1的這條技術路線?

肖朝軍:o1主要是用強化學習和高質量數據,強調強化學習和推理的scaling。
當前強化學習整個推理過程很慢,硬件利用率也不高,這會使強化學習過程需要使用大量算力但模型思考步數不深、探索空間不夠。

未來肯定會繼續往高效的深思考方向發展,讓模型能夠生成超長的思維鏈,之后會像pre-training一樣,先把強化學習的訓練規模做上來,然后再往小做、往高效做。

量子位:超長文本推理會是transformer架構的下一個突破點嗎?

肖朝軍:對,CoT(思維鏈)是目前很重要的方向。這種長思考一定是下一波大家要突破的點

目前o1這種長思維鏈和普通的長文本大海撈針完全不同。大海撈針只是找到信息就完事了,而o1的長思維鏈需要回到當時的狀態,重新做推理、重新搜索。

思考的時候走一條路走到底之后,可能還要繼續之前考慮過的另一條路。現有測試集都很難全面評測o1這種長思維鏈能力。

手機實現GPT級智能,比MoE更極致的稀疏技術:省內存效果不減|對話面壁&清華肖朝軍

△直接推理與思維鏈區別示意

o1之后,我覺得下一步還有一個很重要的問題是創新能力的問題。就像OpenAI的技術規劃,到后面有個innovation

現在的搜索還是在已有的語義空間去搜索,但是真的要讓AI去做創新出之前沒有的東西,去探索一些新的未知的事物的時候,它一定要跳出之前預訓練階段見過的所有的東西去突破,但這個事情咋做?還不知道。

量子位:對于長文本推理,線性架構會有優勢嗎?

肖朝軍:目前沒有實證研究證明純RNN模型的推理能力,我個人認為類RNN的線性架構技術路線大概率會失敗,混合架構另當別論

效果為王,解決不了效果問題,談效率是不現實的

現有RNN模型其實等價于滑動窗口,在推理中會對記憶不斷乘一個遺忘系數。即使遺忘系數連續一萬步都是0.999這么大,那一萬步之前的內容也會遺忘完,上限天然太低。

量子位:大模型不可能三角(大模型無法同時實現低計算復雜度、高性能和并行化)問題有解決方案嗎?

手機實現GPT級智能,比MoE更極致的稀疏技術:省內存效果不減|對話面壁&清華肖朝軍

△大模型不可能三角示意

肖朝軍:這個問題依舊存在,Mamba也依然沒有解決。如果真解決了,現在大家都會用起來。

Mamba等線性模型在短文本上能與transformer打平或更好,但長文本上仍有壓縮,而壓縮一定代表信息損失。我們還是無法兼顧計算復雜度和效果。

這個問題也許長期來看可以解決,因為人類思考也不是O(n2)復雜度的,不需要把之前所有KV都算一遍。但人腦存儲可能是分級的,有長期記憶和短期記憶,還可能利用外部工具如筆記本。具體怎么解決,目前還沒有摸到答案。

論文地址:
https://arxiv.org/abs/2409.02877

版權所有,未經授權不得以任何形式轉載及使用,違者必究。
国产精品久久久久久久久久东京| 欧美激情性做爰免费视频| 天堂精品一区二区三区| 亚洲精品国产精华液| 鲁鲁狠狠狠7777一区二区| 国产精品视频99| 日韩欧美视频免费在线观看| 一区二区三区免费播放| 国产无码精品视频| 国产一区二区看久久| 亚洲国产精品嫩草影院| 亚洲欧美视频在线| 懂色中文一区二区在线播放| 亚洲欧美一二三| 精品一卡二卡三卡四卡日本乱码| 欧美精品在线免费观看| eeuss中文| 精品国产乱码久久久久久1区2区| 国产精品888| 岛国毛片在线播放| 神马午夜电影一区二区三区在线观看| 一区二区www| 97国产一区二区| 精品国产伦理网| 精品一区二区三区国产| 荫蒂被男人添免费视频| 美女精品在线 | 亚洲第一综合网| 少妇av一区二区三区无码| 久久精品久久久久久国产 免费| 日一区二区三区| 久无码久无码av无码| 青草草在线视频| 欧美做受高潮6| 日本亚洲欧美在线| 国产视频一区二区在线观看| 日韩大片在线观看视频| 免费看成人av| 99热在线观看精品| 91毛片在线观看| 在线播放日韩精品| 日韩视频 中文字幕| 久久国产视频播放| 亚洲女同女同女同女同女同69| 日韩在线观看免费网站| 国产深夜男女无套内射| 中文字幕理论片| 婷婷亚洲久悠悠色悠在线播放 | 特级黄色片视频| 精品人妻久久久久一区二区三区| 欧洲人成人精品| 国产精品久久国产精品| 2017亚洲天堂| 日本一二三不卡| 91精品国产91| 一边摸一边做爽的视频17国产| 久久成人精品无人区| 亚洲激情中文字幕| 欧美国产日韩激情| 亚洲国产精品久久久久| 国产精品扒开腿做| jlzzjlzz亚洲日本少妇| 99re热这里只有精品视频| 中文字幕亚洲欧美一区二区三区| 午夜不卡久久精品无码免费| 波多野结衣在线aⅴ中文字幕不卡| 在线91免费看| 日韩亚洲在线观看| 国产成人在线一区| 韩国成人一区| 波多野结衣中文字幕在线播放| 无码人妻一区二区三区在线| 精品国产日本| 97在线视频精品| 亚洲国产精久久久久久久| 欧美视频在线观看一区| 国产一区二区自拍| 正在播放91九色| 国产一区二区在线播放视频| 亚洲国产日韩精品| 8x8ⅹ国产精品一区二区二区| 99久久婷婷国产综合精品电影| 亚洲va欧美va国产综合剧情| 激情视频在线播放| 99久久久精品| 精品国产乱码久久久久久图片| 久久免费在线观看| 国产裸体舞一区二区三区| 一区二区在线免费观看视频| 粉嫩av一区二区三区天美传媒 | 国产激情视频一区二区三区欧美 | 韩国av中国字幕| 成人午夜精品视频| 亚洲欧美一区二区不卡| 国产女人水真多18毛片18精品视频| 欧美成人精品激情在线观看| 色一情一乱一乱一区91| 国产精品815.cc红桃| 国产黄色片免费观看| 亚洲精品写真福利| 日韩一级黄色片| 国产精品私人自拍| 亚洲乱码中文字幕| 欧美日韩精品在线观看| 欧美日韩美少妇| 色婷婷777777仙踪林| 一区二区三区在线观看欧美| 国产福利91精品| 在线中文字幕日韩| 2014亚洲天堂| 国产成人中文字幕| 麻豆国产精品777777在线| 91免费版黄色| 国产麻豆精品95视频| 亚洲欧美日韩中文视频| 国产一区免费在线观看| 日本一二三区不卡| 久久久国产精品不卡| 97国产真实伦对白精彩视频8| 国产在线一区二| 老司机福利av| 日韩三级电影网址| 天天色天天干天天色| 少妇一级淫片日本| 欧美视频中文一区二区三区在线观看| 国产日本欧美一区二区三区| 欧美尤物一区| a天堂在线视频| 欧美日韩中文字幕在线播放| 成人91在线观看| 久久久久亚洲av无码专区桃色| 久久久精品一区二区| 亚洲高清在线观看视频| 国产成人精彩在线视频九色| 中文 日韩 欧美| 久久国产婷婷国产香蕉| 久久91亚洲人成电影网站| 小早川怜子一区二区的演员表| 国产成人精品无码播放| 精彩视频一区二区三区| 欧美一级黑人aaaaaaa做受| 亚欧精品视频一区二区三区| 一区二区三区加勒比av| 欧美极品视频一区二区三区| 日本视频免费在线| 亚洲欧美日韩久久久久久| 一本一道人人妻人人妻αv| 欧美日韩在线播放一区二区| 色综合久久综合网欧美综合网| 亚洲精品视频大全| 欧美日免费三级在线| 五月婷婷激情久久| 亚洲天堂开心观看| 亚洲资源在线播放| 日韩在线观看免费全集电视剧网站| 国产一区二区视频在线观看| 三上悠亚在线观看视频| 国产精品久久久久久搜索| 黄色av一区二区三区| 国产激情视频一区| 青青草国产成人av片免费| 欧美亚洲成人xxx| 777一区二区| 欧美日韩一区三区| 国产毛片毛片毛片毛片毛片| 人妻激情偷乱视频一区二区三区| 国产精品久久av| 欧美色精品在线视频| 国产又粗又黄又爽| 精品一区二区三区免费毛片| av亚洲精华国产精华精| 国内精品视频在线播放| 亚洲午夜久久久久久久久电影网| 高清av免费看| 狠狠躁夜夜躁人人躁婷婷91 | 少妇人妻精品一区二区三区| 中文久久久久久| 国产亚洲欧美日韩精品| 这里只有精品6| 精品91一区二区三区| 亚洲国产一区二区三区青草影视| 亚洲成人精品视频在线观看| 69av.com| 国产激情视频一区| 99久久精品99国产精品| 男男做爰猛烈叫床爽爽小说| 日本一区二区三区久久| 国精产品一区一区三区mba视频| 成人av色在线观看| 美国三级日本三级久久99| 国产精品一区二区欧美黑人喷潮水| 激情偷乱视频一区二区三区| 色偷偷综合社区| 一区二区国产精品精华液| 日韩精品一区二区三区四区| 欧美成人黄色网址| 亚洲欧美国产日韩天堂区| 捆绑调教美女网站视频一区| 亚洲丁香久久久| 精品综合久久久久久8888| 成人在线国产视频| 久久国产精品久久久久久| 中文字幕字幕中文在线中不卡视频| 男女全黄做爰文章| 国模精品一区二区三区色天香| 无码任你躁久久久久久久| 蜜桃传媒视频第一区入口在线看| 欧美性生活一区| 五月天婷婷丁香网| 精品国内产的精品视频在线观看| 波多野结衣视频在线看| 中文字幕第24页| 亚洲xxxxx性| 精品久久久精品| 色噜噜色狠狠狠狠狠综合色一| 亚洲成色777777女色窝| 加勒比av中文字幕| 国产精品视频精品视频| 欧美丝袜第三区| 久久精品亚洲乱码伦伦中文| 亚洲精品18p| 国产又粗又猛又爽视频| 久久久免费精品| 韩国欧美国产一区| 一起操在线视频| 清纯唯美日韩制服另类| 中文字幕一区二区三| 久久精品老司机| 国产精品我不卡| 亚洲免费伊人电影在线观看av| 亚洲欧美怡红院| 国产美女免费看| 日本精品www| 一区二区三区欧美成人| 亚洲人吸女人奶水| 538精品视频| 色婷婷综合久久久久中文字幕| 亚洲精品永久www嫩草| 清纯唯美一区二区三区| 久久婷婷开心| 小泽玛利亚av在线| 日本xxxxxxxxxx75| 日本黄大片在线观看| 热99在线视频| 中文字幕亚洲欧美日韩在线不卡 | 中文字幕免费高清| 亚洲天堂第一区| 韩国精品久久久999| 黄色精品一区二区| 国产精品高清无码在线观看| 国产精品电影久久久久电影网| 91在线观看视频| 无码人妻丰满熟妇啪啪欧美| 国产91视觉| 91精品国产高清久久久久久91| 日韩西西人体444www| 国产午夜精品一区二区三区嫩草 | 欧美一区在线直播| 日韩性xxxx| 麻豆精品视频| 99精品视频免费在线观看| 最近日本中文字幕| 99久久99久久精品国产片| 国产精品久久久久影院| 久久久亚洲国产精品| 日本在线不卡视频| 国产在线日韩在线| 亚洲欧美偷拍三级| 毛片基地在线观看| 日本成人三级电影网站| 亚洲美女av黄| 日本韩国精品在线| 国产成人在线网站| 天天色综合久久| 在线观看国产免费视频| 好吊色欧美一区二区三区 | 国产综合在线看| 亚洲精品一区二区三区蜜桃下载| 91av视频免费观看| 国模大尺度视频| 无码内射中文字幕岛国片| 国产精品美女免费看| 精品999久久久| 国产精品视频在线看| 蜜桃精品在线观看| 中文字幕一区二区免费| 四虎永久免费在线观看| 免费在线观看av网址| 国产亚洲小视频| 啪啪小视频网站| 久久人妻无码aⅴ毛片a片app| 在线观看免费国产视频| 国产又粗又黄又爽视频| a在线播放不卡| 欧美日韩一区三区四区| www.久久色.com| 色姑娘综合网| 午夜理伦三级做爰电影| 成年人视频在线免费看| 韩国av电影在线观看| xxxx国产精品| 亚洲AV无码成人片在线观看| 丰满少妇久久久久久久| 亚洲午夜av在线| 中文字幕欧美专区| 97超级碰碰碰| 日韩在线小视频| 亚洲色图五月天| 亚洲欧洲在线视频| 日韩欧美国产系列| 色呦呦国产精品| 91精品福利视频| 精品国产乱码久久久久久免费| 亚洲午夜激情免费视频| 国产精品日韩久久久久| 国产精品日日摸夜夜添夜夜av| 男人的天堂avav| 一区二区伦理片| 国产精品午夜在线| 91久久精品日日躁夜夜躁国产| 少妇熟女视频一区二区三区 | 国产熟女一区二区丰满| 日本不卡一区二区三区| 天天操天天干天天综合网| 高跟丝袜欧美一区| 亚洲欧美日韩高清| 国产69精品久久久久99| 亚洲激情一区二区三区| 亚洲 欧美 另类人妖| 五月天婷婷丁香网| 视频一区二区三区在线| 色呦呦日韩精品| 色噜噜狠狠狠综合曰曰曰88av| 2020国产精品视频| 国产在线a不卡| 毛片毛片毛片毛| 战狼4完整免费观看在线播放版| 精品人妻一区二区三区潮喷在线| 精品久久久久中文慕人妻| 悠悠色在线精品| 欧美黑人巨大xxx极品| 日本a级片久久久| 五月丁香综合缴情六月小说| 久久久久亚洲AV| 亚洲天堂中文字幕| 国产69精品久久久久99| 不卡一区二区三区视频| 日本久久精品视频| 右手影院亚洲欧美| 狠狠色丁香婷婷综合| 欧美日韩国产天堂| 精品无码一区二区三区| 无码人妻丰满熟妇区96| y111111国产精品久久婷婷| 毛片精品免费在线观看| 日韩女优av电影在线观看| 亚洲永久精品大片| 久久综合成人精品亚洲另类欧美 | 成人有码在线视频| 久久精品91久久香蕉加勒比| 欧美美女激情18p| 亚洲视频小说图片| 成人午夜激情视频| 首页亚洲欧美制服丝腿| 国产又色又爽又黄又免费| 亚洲精品久久久久久国| 亚洲成a人无码| 免费观看成人网| 亚洲午夜精品一区二区三区| 国产成人av一区二区三区| 国产成人精品一区| 欧美—级高清免费播放| 最近2019免费中文字幕视频三| 日韩免费电影网站| 欧美日韩色综合| 日韩欧美成人区| 一区二区三区在线视频播放| 中文字幕第一区二区| 成人精品免费网站| 久久99精品国产麻豆婷婷| 亚洲精品一区二区三区四区| 日韩不卡高清视频| 成人在线免费看视频| 精品无码黑人又粗又大又长| 亚洲aaa视频| 老司机福利在线观看| 波多野结衣av在线观看| 特级特黄刘亦菲aaa级| www.久久com| 特黄特色免费视频| 九色91porny| 天天av天天操| 国产成人精品综合久久久久99| 亚洲国产日韩欧美在线观看| 91制片厂毛片| 中文字幕一区久久| 国产sm在线观看| 欧美成人三级伦在线观看| 人体私拍套图hdxxxx| 中文字幕在线播放一区| 国产精品一区二区无码对白| 国产 xxxx| 谁有免费的黄色网址| 欧美肥妇bbwbbw| 豆国产97在线 | 亚洲| 日韩在线播放中文字幕| 国产精品毛片一区视频播| 黄色成人一级片| 日本欧美在线观看| 成人一区二区在线观看|