色综合中文综合网_性猛交娇小69hd_久久精品99久久久久久_欧美日韩精品一区二区三区四区 _97视频色精品_国产高清精品久久久久_日日鲁鲁鲁夜夜爽爽狠狠视频97 _国产成人免费视频精品含羞草妖精 _熟女少妇在线视频播放_精品人妻一区二区三区麻豆91 _久久女同性恋中文字幕_一区二区福利视频

ICML2024高分!魔改注意力,讓小模型能打兩倍大的模型

動態(tài)組合多頭注意力

彩云科技團隊 投稿
量子位 | 公眾號 QbitAI

改進Transformer核心機制注意力,讓小模型能打兩倍大的模型

ICML 2024高分論文,彩云科技團隊構建DCFormer框架,替換Transformer核心組件多頭注意力模塊(MHA),提出可動態(tài)組合的多頭注意力(DCMHA)。

DCMHA解除了MHA注意力頭的查找選擇回路和變換回路的固定綁定,讓它們可以根據(jù)輸入動態(tài)組合,從根本上提升了模型的表達能力。

可以近似理解為,原來每層有固定的H個注意力頭,現(xiàn)在用幾乎同樣的參數(shù)量和算力,可按需動態(tài)組合出多至HxH個注意力頭。

DCMHA即插即用,可在任何Transformer架構中替換MHA,得到通用、高效和可擴展的新架構DCFormer。

ICML2024高分!魔改注意力,讓小模型能打兩倍大的模型

這項工作由來自北京郵電大學、AI創(chuàng)業(yè)公司彩云科技的研究人員共同完成。

研究人員用在DCFormer基礎上打造的模型DCPythia-6.9B,在預訓練困惑度和下游任務評估上都優(yōu)于開源Pythia-12B。

DCFormer模型在性能上與那些計算量是其1.7-2倍的Transformer模型相當。

ICML2024高分!魔改注意力,讓小模型能打兩倍大的模型

多頭注意力模塊有何局限?

大模型的scaling law告訴我們,隨著算力的提升,模型更大、數(shù)據(jù)更多,模型效果會越來越好。雖然還沒有人能明確說明這條路的天花板有多高,能否達到AGI,但這確實是目前大家最普遍的做法。

但除此以外,另一個問題同樣值得思考:目前絕大多數(shù)大模型都基于Transformer,它們都是用一個一個Transformer塊像搭積木一樣搭起來的,那作為積木塊的Transformer本身,還有多大的改進提升空間?

這是模型結(jié)構研究要回答的基本問題,也正是彩云科技和北京郵電大學聯(lián)合完成的DCFormer這項工作的出發(fā)點。

在Transformer的多頭注意力模塊(MHA)中,各個注意力頭彼此完全獨立的工作。

這個設計因其簡單易實現(xiàn)的優(yōu)點已在實踐中大獲成功,但同時也帶來注意力分數(shù)矩陣的低秩化削弱了表達能力、注意力頭功能的重復冗余浪費了參數(shù)和計算資源等一些弊端?;诖?,近年來有一些研究工作試圖引入某種形式的注意力頭間的交互。

ICML2024高分!魔改注意力,讓小模型能打兩倍大的模型
ICML2024高分!魔改注意力,讓小模型能打兩倍大的模型
ICML2024高分!魔改注意力,讓小模型能打兩倍大的模型
ICML2024高分!魔改注意力,讓小模型能打兩倍大的模型

研究人員注意到,查找(從哪拿)和變換(拿什么)本來是獨立的兩件事,理應可以分別指定并按需自由組合(就像在SQL查詢中,WHERE后的選擇條件和SELECT后的屬性投影是分開寫的一樣),MHA硬把它們放到一個注意力頭的QKOV里“捆綁銷售”,限制了靈活性和表達能力。

例如,假設有個模型存在注意力頭A、B、C其QK和OV回路能夠完成上面的例子=,那換成:

ICML2024高分!魔改注意力,讓小模型能打兩倍大的模型

需要交叉組合現(xiàn)有注意力頭的QK和OV回路,模型就可能“轉(zhuǎn)不過彎兒”了(經(jīng)研究人員系統(tǒng)構造的合成測試集驗證,<=6B的中小尺寸模型在這類看似簡單的任務上確實表現(xiàn)不佳)。

動態(tài)組合多頭注意力長啥樣?

以此為出發(fā)點,本文研究團隊在MHA中引入compose操作

ICML2024高分!魔改注意力,讓小模型能打兩倍大的模型

如下圖所示,得到DCMHA:

ICML2024高分!魔改注意力,讓小模型能打兩倍大的模型

△圖1. DCMHA總體結(jié)構

ICML2024高分!魔改注意力,讓小模型能打兩倍大的模型

例如圖2(c)中將head 3和7的QK回路與head 1的OV回路組合在一起,形成一個“新的”注意力頭。

ICML2024高分!魔改注意力,讓小模型能打兩倍大的模型
ICML2024高分!魔改注意力,讓小模型能打兩倍大的模型

△圖2. 8個注意力頭的簡化的典型composition map的功能,淺色表示大值

為了最大限度的增強表達能力,研究人員希望映射矩陣由輸入動態(tài)生成,即動態(tài)決定注意力頭怎樣組合。

ICML2024高分!魔改注意力,讓小模型能打兩倍大的模型

在不犧牲效果的前提下,將計算和參數(shù)復雜度降低到幾乎可以忽略的程度(詳見論文中復雜度分析)。再結(jié)合JAX和PyTorch實現(xiàn)層面的優(yōu)化,讓DCFormer可以高效訓練和推理。

ICML2024高分!魔改注意力,讓小模型能打兩倍大的模型

△圖3. Compose的計算

效果如何?

規(guī)模擴展

評估一個架構的好壞,研究人員關注的最核心指標是算力轉(zhuǎn)化為智能的效率(或叫性能算力比),即投入單位算力能帶來的模型性能提升——花更少的算力,得到更好的模型。

從圖4和圖5的scaling law曲線(在對數(shù)坐標下,每個模型架構的損失隨算力的變化可畫出一條近似直線,損失越低,模型越好)可以看出,DCFormer可以達到1.7~2倍算力的Transformer模型的效果,即算力智能轉(zhuǎn)化率提升了1.7~2倍。

ICML2024高分!魔改注意力,讓小模型能打兩倍大的模型

△圖4. Transformer和DCFormer的規(guī)模擴展效果

ICML2024高分!魔改注意力,讓小模型能打兩倍大的模型

△圖5. Pythia和DCPythia的規(guī)模擴展效果

怎么理解這個提升幅度呢?

自2017年Transformer誕生至今,從改進性能算力比的角度,GLU MLP和旋轉(zhuǎn)位置編碼RoPE是經(jīng)大量實踐驗證普適有效且被廣泛采用的為數(shù)不多的兩項架構改進。

在原始Transformer中加入這兩項改進的架構也叫Transformer++,Llama、Mistral等最強開源模型均采用該架構。無論Transformer還是Transformer++架構,都可通過DCMHA獲得顯著改進。

在1.4B模型規(guī)模下,DCMHA的改進幅度大于Transformer++的兩項改進之和,且擴展性更好(圖4下藍綠線和黑線的對比,DCMHA的改進幅度隨算力增加衰減的更慢,以及圖4和圖5的對比)。

可以說,DCFormer讓Transformer的能力又躍上一個新臺階。

下游任務評測

研究團隊訓練了DCPythia-2.8B和DCPythia-6.9B兩個模型在主流NLP下游任務上進行測評并和同規(guī)模的開源模型Pythia進行比較(訓練采用和Pythia完全相同超參數(shù)設置)。

ICML2024高分!魔改注意力,讓小模型能打兩倍大的模型

△表1. DCFormer 和 Pythia 在下游任務中的表現(xiàn)

從表1中可以看出,DCPythia-2.8B和6.9B不僅在Pile驗證集上的ppl 更低,而且在大部分下游任務上都顯著超過了Pythia,DCPythia6.9B在 ppl 和下游任務上的平均準確率甚至超過了Pythia-12B

DCFormer++2.8B相對于DCPythia-2.8B有進一步的提升,驗證了DCMHA和Lllama架構結(jié)合的有效性。

訓練和推理速度

雖然引入DCMHA會帶來額外的訓練和推理開銷,但是從表2中可以看出DCFormer++的訓練速度是Transformer++的74.5%-89.2%,推理速度則是81.1%-89.7%,而且隨著模型參數(shù)的增長,額外的計算開銷會逐漸降低。

ICML2024高分!魔改注意力,讓小模型能打兩倍大的模型

△表2. Transformer++和DCFormer++的訓練和推理速度對比

訓練速度是在TPU v3 pod,序列長度為2048,batch_size為1k的情況下對比得到的;推理速度是在A100 80G GPU上進行評測的,輸入長度1024,生成長度128。

消融實驗

結(jié)果如下:

ICML2024高分!魔改注意力,讓小模型能打兩倍大的模型

△表3. DCMHA的消融實驗

從表3中可以看出以下幾點:

  • 雖然加入靜態(tài)的組合權重就可以降低ppl,但引入動態(tài)的組合權重可以進一步降低ppl,說明了動態(tài)組合的必要性。
  • 低秩動態(tài)組合比動態(tài)門控的效果更好。
  • 只用query-wise或者key-wise的動態(tài)組合得到的ppl相當,與DCFormer++的差距很小。
  • 在softmax后做注意力頭組合比在softmax前做更有效,可能是因為softmax后的概率能更直接影響輸出。
  • 動態(tài)組合權重的秩無需設置過大,也說明了組合權重的低秩性。

此外,研究人員還通過增加局部注意力層的比例和只用query-wise動態(tài)組合的方式去進一步減少訓練和推理開銷,詳見論文Table 10。

總的來說,研究團隊有兩點總結(jié)。

關于動態(tài)權重:近期Mamba,GLA,RWKV6,HGRN等SSM和線性注意力/RNN的工作,通過引入動態(tài)(input-dependent)權重的方式,追趕上了Transformer++,但DCFormer用動態(tài)組合注意力頭的方式說明了在使用 softmax 注意力的情況下,通過引入動態(tài)權重也可以大幅提升Transformer++的效果。

關于模型架構創(chuàng)新:這項工作表明,如果存在一個具有極限算力智能轉(zhuǎn)化效率的“理想模型架構”,當前的Transformer架構雖已非常強大,但距離這個理想架構很可能還存在很大的差距,仍有廣闊的提升空間。因此,除了堆算力堆數(shù)據(jù)的大力出奇跡路線,模型架構創(chuàng)新同樣大有可為。

研究團隊還表示,彩云科技會率先在旗下產(chǎn)品彩云天氣、彩云小譯、彩云小夢上應用DCformer。

有關更多研究細節(jié),可參閱原始論文。

ICML2024論文鏈接:https://icml.cc/virtual/2024/poster/34047
Arxiv 論文鏈接:https://arxiv.org/abs/2405.08553
代碼鏈接:https://github.com/Caiyun-AI/DCFormer

版權所有,未經(jīng)授權不得以任何形式轉(zhuǎn)載及使用,違者必究。
国产精品1区2区3区在线观看| 免费中文字幕视频| 男女啪啪的视频| 欧美午夜aaaaaa免费视频| 日日噜噜夜夜狠狠久久丁香五月| 国产精品igao视频| 色8久久人人97超碰香蕉987| 亚洲乱码国产乱码精品精可以看 | 日韩激情视频在线| 久久久久久久久久久久av| 国产精品999999| 美女少妇精品视频| 欧美日韩国产成人在线观看| www.亚洲一区| 亚洲男人天堂古典| 亚洲精品久久久久久久久| 日韩精品一区国产麻豆| 91黄色激情网站| 欧美成人三级在线| 亚洲一区二区久久| 午夜精品久久久久久久99热| 国产欧美一区二区三区久久| 久久偷看各类wc女厕嘘嘘偷窃| 日韩精品 欧美| av 日韩 人妻 黑人 综合 无码| 免费影院在线观看一区| 26uuu另类亚洲欧美日本一| 亚洲欧美日韩网| 欧美在线观看视频| 自慰无码一区二区三区| 美女脱光内衣内裤| 国产精品一区二区视频| 国产第一页在线观看| 狠狠人妻久久久久久综合| 亚洲 欧美 日韩系列| 天天爽夜夜爽视频| 少妇饥渴放荡91麻豆| 欧美综合一区二区| 国产欧美精品一区二区| 人妻少妇精品久久| 天堂中文字幕在线观看| 91爱爱小视频k| 91亚洲一区二区| 日本美女视频一区二区| 国产伦精品一区二区三区免.费| 日日摸夜夜添夜夜添精品视频 | 色屁屁影院www国产高清麻豆| 成人午夜免费电影| 亚洲精品一区二区三区四区高清| 国产女人18毛片| 色av性av丰满av| 蜜桃av一区二区在线观看| 精品视频在线播放| 视频一区视频二区在线观看| 亚洲视频在线观看视频| 五月六月丁香婷婷| 成人黄色网址在线观看| 日韩理论片中文av| 先锋影音欧美| 国产精品国产三级国产aⅴ中文| 性欧美精品中出| 国产精品免费电影| 国产农村妇女毛片精品久久麻豆| 911福利视频| 国产精品久久毛片av大全日韩| 国产精品成熟老女人| 日本在线视频免费| 欧美国产日本高清在线 | 亚洲成人福利在线观看| 亚洲欧洲国产日韩| 国产黑丝在线视频| 欧美日韩性生活视频| 黑人无套内谢中国美女| 激情五月激情综合| 精品三级在线观看| 人成免费在线视频| 精品国产一区二区三区久久狼黑人 | 日韩 欧美 自拍| 很污很黄的网站| 日本电影亚洲天堂一区| 精品视频一区二区在线| 欧美日韩综合在线观看| 精品欧美乱码久久久久久1区2区 | 欧美日韩在线观看成人| 在线观看网站黄不卡| 欧美日韩国产精品激情在线播放| 精品电影在线观看| 超碰成人在线免费观看| 久久精品国产亚洲一区二区三区| 久久99精品久久久久久三级| 一区二区三区中文在线观看| 在线观看免费黄色网址| 日韩一区二区麻豆国产| 在线观看成人免费| 成人综合婷婷国产精品久久| 国产女人水真多18毛片18精品 | 亚洲精品少妇一区二区| 国产精品区一区二区三| 在线日韩av永久免费观看| 波多野结衣在线一区| 97精品视频在线| 国产特黄一级片| 久久久99爱| 欧美a在线播放| 91亚色免费| 久久久久久99精品| 午夜视频在线观看国产| av一区二区三区黑人| 国产一区免费在线| 欧美国产一区在线| 精品乱码一区二区三区| 欧洲精品久久一区二区| 91香蕉视频导航| 久热精品视频在线观看| 爽好多水快深点欧美视频| 亚洲中文字幕久久精品无码喷水 | 国产精品久久久久久av福利软件 | 欧美日产国产成人免费图片| 午夜一区二区三区在线观看| 精品人妻一区二区三区四区不卡 | 日本不卡免费新一二三区| 国产精品网曝门| 日本成人性视频| 综合久久久久综合| 韩国理伦片一区二区三区在线播放| 色戒在线免费观看| 精品国产3级a| 日韩精品一二三区| xvideos成人免费中文版| 国产91丝袜在线播放| 国产欧美一区二区三区在线观看视频| 国产成人在线免费视频| 国产亚洲黄色片| 欧美大香线蕉线伊人久久| 亚洲女同性videos| www.日韩大片| 欧美日韩亚洲一二三| 久久久久久免费毛片精品| 两女双腿交缠激烈磨豆腐| 欧美激情视频免费观看| 久久99国产精品尤物| 欧美黑人xxx| 日韩在线观看视频一区| 亚洲日本精品国产第一区| 久久亚洲私人国产精品va| 亚洲国产sm捆绑调教视频| 久久久久久久久久久久久久免费看| 国产在线精品二区| av网站在线观看免费| 欧美国产极速在线| 欧美绝品在线观看成人午夜影视| 日本亚洲欧美天堂免费| 国产香蕉视频在线| 欧美日韩国产精品一区二区| 欧美日韩国产影片| 国产又色又爽又黄又免费| 精品一区二区三区三区| 成人av资源网站| 日韩视频在线免费播放| 色狠狠一区二区| 91亚洲国产成人精品一区二区三| 波多野结衣一区二区三区四区| 国产av熟女一区二区三区| 亚洲国产精品va在线看黑人| 老司机免费视频一区二区三区| 国产91沈先生在线播放| 91在线|亚洲| 久久免费视频在线观看| 久久精品小视频| 欧美精品久久久久a| 亚洲电影中文字幕| 日韩精品一二三| 久久精品这里有| 永久免费看mv网站入口| 国产视频精品视频| 欧美一区观看| 色综合久久综合| 美女一区二区三区在线观看| 免费在线观看av网址| 欧美精品二区三区四区免费看视频 | 国内精品写真在线观看| 久久精品一二区| 国产91在线免费| 亚洲偷熟乱区亚洲香蕉av| 欧美日韩视频专区在线播放| 欧美一区二区三区黄片| 在线观看视频中文字幕| 97超碰青青草| 男男一级淫片免费播放| 欧美做爰爽爽爽爽爽爽| 少妇高潮av久久久久久| 黄色污污网站在线观看| 911亚洲精选| 噜噜噜噜噜久久久久久91| 91国产精品视频在线| 亚洲综合丝袜美腿| 国产精品视频观看| 成人在线免费看视频| 五月天男人天堂| 99re国产在线播放| 欧美一区亚洲二区| 欧美激情精品久久久久久蜜臀| 日韩精品小视频| 日韩欧美成人激情| 日韩欧美国产亚洲| 成人无码精品1区2区3区免费看 | 国产v亚洲v天堂无码| 国模精品娜娜一二三区| 欧美国产视频一区二区| 亚洲国产裸拍裸体视频在线观看乱了 | 日韩人妻精品一区二区三区| 精品视频久久久久久久| 精品久久久久久久久久久久久| 精品成人一区二区三区| 亚洲国产精品成人精品| 欧美日韩一区二区免费在线观看 | 欧美人动与zoxxxx乱| 日韩欧美高清一区| 亚洲第一免费播放区| 欧美xxxxxxxx| 亚洲国产日韩欧美在线动漫| 欧美日韩久久一区| 亚洲一区二区美女| 91最新地址在线播放| 成人一区二区视频| 日韩精品国产欧美| 911国产在线| 亚洲精品视频三区| 亚洲制服在线观看| 亚洲国产一区二区精品视频| 国产欧美精品一区二区三区| 黄色免费网址大全| 蜜臀视频在线观看| 一边摸一边做爽的视频17国产| 欧美成人午夜精品免费| 欧美特级一级片| 波多野结衣家庭教师在线播放| 好吊色欧美一区二区三区四区 | 国产亚洲欧美一区二区| 午夜精品亚洲一区二区三区嫩草| 国产精品xxx在线观看www| 欧美国产日产韩国视频| 欧洲成人午夜免费大片| 久久综合久久美利坚合众国| 久久69精品久久久久久久电影好| 亚洲人成在线观看一区二区| 国产婷婷色一区二区三区| 亚洲第一偷拍网| 国产精品乱码视频| 91久久国产综合久久91精品网站| 亚洲影院污污.| 少妇人妻互换不带套| 四虎免费在线观看视频| 日韩成人av电影在线| 超碰97人人射妻| 亚洲成年人av| 丝袜亚洲另类欧美综合| 精品国产一区二区三区久久久蜜月| 国产综合第一页| 亚洲天堂黄色片| 亚洲国产一区二区a毛片| 久久久久久久久久亚洲| 精品综合久久久| 女人床在线观看| 亚洲欧美视频二区| 337人体粉嫩噜噜噜| av大片免费在线观看| 天天射天天操天天干| 国产又粗又猛视频| 国产资源在线一区| 欧美性猛交xxxx乱大交| av一区二区三区四区电影| 亚洲综合av一区| 中文字幕在线1| 九色综合国产一区二区三区| 欧美人成免费网站| 亚洲精品免费电影| 亚洲精选中文字幕| 日产精品高清视频免费| 免费黄色国产视频| 最新久久zyz资源站| 亚洲综合在线做性| 中文字幕在线免费看线人| 久久久久久一二三区| 亚洲高清一二三区| 日韩av毛片网| 亚洲国产精品毛片| 国产3级在线观看| 日本美女一级片| 亚洲一线二线三线视频| 色综合天天综合网国产成人综合天| 日韩av一区二区在线| 国产一区二区色| 加勒比在线一区| 色综合久久88色综合天天| 欧美日韩国产高清一区二区三区| 97人摸人人澡人人人超一碰| 亚洲第一综合网| 国产黄人亚洲片| 国产精品99久| 国内成人精品视频| 国产特级黄色大片| 国产精品久久无码一三区| 国产美女三级无套内谢| 欧洲在线/亚洲| 国产91成人在在线播放| 亚洲成人第一| 精品人妻二区中文字幕| 免费观看毛片网站| 777xxx欧美| 中文字幕一区二区三区乱码| 久久福利小视频| 少妇高潮一区二区三区99小说| 国产精品伦一区二区三级视频| 在线看国产精品| 亚洲精品无码一区二区| 欧美中文字幕不卡| 国产欧美亚洲日本| 亚洲综合图片一区| 99国产精品视频免费观看| 国产精品igao视频| 午夜在线观看一区| 中文字幕二区三区| 一本大道久久加勒比香蕉| 亚洲视频第二页| 国产精品美女视频| 日本大胆人体视频| 国产精品色在线观看| 男人的天堂狠狠干| 亚洲一区二区av在线| 看av免费毛片手机播放| 亚洲成人综合视频| 97久久天天综合色天天综合色hd| 国产三级av片| 色综合天天在线| av免费看网址| 国产经典欧美精品| 91po在线观看91精品国产性色| 7799精品视频天天看| 91美女片黄在线观看91美女| 欧美第一页在线| 久久中文字幕人妻| 中文字幕五月欧美| aaaaaa亚洲| 亚洲欧洲成人av每日更新| 91在线中文字幕| 日本学生初尝黑人巨免费视频| 欧美日韩国产一二三| 亚洲午夜久久久久久久久| 国产乱一区二区| 亚洲精品永久免费| 三级网站在线免费观看| 欧美日韩午夜视频在线观看| 亚洲精品影院| 欧美日本国产在线| 社区色欧美激情 | 久久亚洲精品小早川怜子66| 久久国产精品首页| 亚洲91精品在线| 国产成人精品999| 国产精品视频白浆免费视频| 亚洲va电影大全| 久久国产精品一区二区三区| 五月天久久综合网| 无码人妻少妇伦在线电影| 国产男女无遮挡| 中文字幕日韩久久| 人妻丰满熟妇aⅴ无码| 日韩精品一区二区三区在线视频| 精品在线视频观看| 亚洲综合成人av| 人成网站在线观看| 黑人精品欧美一区二区蜜桃| 91丨九色丨黑人外教| 国产精品女主播av| 欧美性xxxx在线播放| 精品国偷自产国产一区| 久久视频免费在线播放| 国产成人中文字幕| 久久伦理网站| 人妻夜夜添夜夜无码av| xxx中文字幕| 中文字幕电影av| 一本色道久久综合精品婷婷| 在线观看xxx| 久久久久久9999| 色婷婷久久综合| 亚洲精品wwww| 欧美一级大胆视频| 国产在线一区二区三区四区| 波多野结衣三级在线| 热久久久久久久久| 18啪啪污污免费网站| 在线观看不卡的av| 久久国产福利国产秒拍| 国产人伦精品一区二区| 亚洲国产精品久久艾草纯爱| 精品国偷自产国产一区| 国内精品久久久久久久久| 99久久久久国产精品免费| 99国产精品白浆在线观看免费| 在线成人免费av| xxxx日本少妇| 北条麻妃一二三区| 91丝袜呻吟高潮美腿白嫩在线观看| 天天影视网天天综合色在线播放| 亚洲精选在线观看| 成人性教育视频在线观看| 性一交一乱一伧国产女士spa| 亚洲成人av免费在线观看|