色综合中文综合网_性猛交娇小69hd_久久精品99久久久久久_欧美日韩精品一区二区三区四区 _97视频色精品_国产高清精品久久久久_日日鲁鲁鲁夜夜爽爽狠狠视频97 _国产成人免费视频精品含羞草妖精 _熟女少妇在线视频播放_精品人妻一区二区三区麻豆91 _久久女同性恋中文字幕_一区二区福利视频

英偉達新研究:上下文長度虛標嚴重,32K性能合格的都不多

4大類13項任務,升級大海撈針

西風 發(fā)自 凹非寺

量子位 | 公眾號 QbitAI

無情戳穿“長上下文”大模型的虛標現(xiàn)象——

英偉達新研究發(fā)現(xiàn),包括GPT-4在內的10個大模型,生成達到128k甚至1M上下文長度的都有。

但一番考驗下來,在新指標“有效上下文”上縮水嚴重,能達到32K的都不多。

英偉達新研究:上下文長度虛標嚴重,32K性能合格的都不多

新基準名為RULER,包含檢索、多跳追蹤、聚合、問答四大類共13項任務。RULER定義了“有效上下文長度”,即模型能保持與Llama-7B基線在4K長度下同等性能的最大長度。

英偉達新研究:上下文長度虛標嚴重,32K性能合格的都不多

這項研究被學者評價為“非常有洞察力”。

英偉達新研究:上下文長度虛標嚴重,32K性能合格的都不多

不少網(wǎng)友看到這項新研究后,也非常想看到上下文長度王者玩家Claude和Gemini的挑戰(zhàn)結果。(論文中并未覆蓋)

英偉達新研究:上下文長度虛標嚴重,32K性能合格的都不多
英偉達新研究:上下文長度虛標嚴重,32K性能合格的都不多

一起來看英偉達是如何定義“有效上下文”指標的。

英偉達新研究:上下文長度虛標嚴重,32K性能合格的都不多

測試任務更多、更難

要評測大模型的長文本理解能力,得先選個好標準,現(xiàn)圈內流行的ZeroSCROLLS、L-Eval、LongBench、InfiniteBench等,要么僅評估了模型檢索能力,要么受限于先驗知識的干擾。

所以英偉達剔除的RULER方法,一句話概括就是“確保評估側重于模型處理和理解長上下文的能力,而不是從訓練數(shù)據(jù)中回憶信息的能力”

RULER的評測數(shù)據(jù)減少了對“參數(shù)化知識”的依賴,也就是大模型在訓練過程中已經(jīng)編碼到自身參數(shù)里的知識。

具體來說,RULER基準擴展了流行的“大海撈針”測試,新增四大類任務。

英偉達新研究:上下文長度虛標嚴重,32K性能合格的都不多

檢索方面,從大海撈針標準的單針檢索任務出發(fā),又加入了如下新類型:

  • 多針檢索(Multi-keys NIAH, MK-NIAH):上下文中插入多個干擾針,模型需檢索指定的那一個
  • 多值檢索(Multi-values NIAH, MV-NIAH):一個鍵(key)對應多個值(values),模型需要檢索出與特定鍵關聯(lián)的所有值。
  • 多查詢檢索(Multi-queries NIAH, MQ-NIAH):模型需根據(jù)多個查詢在文本中檢索出相應的多個針。

除了升級版檢索,RULER還增加了多跳追蹤(Multi-hop Tracing)挑戰(zhàn)。

具體來說,研究人員提出了變量追蹤(VT),模擬了指代消解(coreference resolution)的最小任務,要求模型追蹤文本中變量的賦值鏈,即使這些賦值在文本中是非連續(xù)的。

挑戰(zhàn)第三關是聚合(Aggregation),包括:

  • 常見詞匯提取(Common Words Extraction, CWE):模型需要從文本中提取出現(xiàn)次數(shù)最多的常見詞匯。
  • 頻繁詞匯提取(Frequent Words Extraction, FWE):與CWE類似,但是詞匯的出現(xiàn)頻率是根據(jù)其在詞匯表中的排名和Zeta分布參數(shù)α來確定的。
英偉達新研究:上下文長度虛標嚴重,32K性能合格的都不多

挑戰(zhàn)第四關是問答任務(QA),在現(xiàn)有閱讀理解數(shù)據(jù)集(如SQuAD)的基礎上,插入大量干擾段落,考查長序列QA能力。

各模型上下文實際有多長?

實驗階段,如開頭所述,研究人員評測了10個聲稱支持長上下文的語言模型,包括GPT-4,以及9個開源模型開源模型Command-R、Yi-34B、Mixtral(8x7B)、Mixtral(7B)、ChatGLM、LWM、Together、LongChat、LongAlpaca。

這些模型參數(shù)規(guī)模范圍從6B到采用MoE架構的8x7B不等,最大上下文長度從32K到1M不等。

在RULER基準測試中,對每個模型評測了13個不同的任務,覆蓋4個任務類別,難度簡單到復雜的都有。對每項任務,生成500個測試樣例,輸入長度從4K-128K共6個等級(4K、8K、16K、32K、64K、128K)。

英偉達新研究:上下文長度虛標嚴重,32K性能合格的都不多

為了防止模型拒絕回答問題,輸入被附加了answer prefix,并基于recall-based準確性來檢查目標輸出的存在。

英偉達新研究:上下文長度虛標嚴重,32K性能合格的都不多

研究人員還定義了“有效上下文長度”指標,即模型在該長度下能保持與基線Llama-7B在4K長度時的同等性能水平。

為了更細致的模型比較,使用了加權平均分數(shù)(Weighted Average, wAvg)作為綜合指標,對不同長度下的性能進行加權平均。采用了兩種加權方案:

  • wAvg(inc):權重隨長度線性增加,模擬以長序列為主的應用場景
  • wAvg(dec):權重隨長度線性減小,模擬以短序列為主的場景

來看結果。

普通大海撈針和密碼檢索測試看不出差距,幾乎所有模型在其聲稱的上下文長度范圍內均取得滿分。

而使用RULER,盡管很多模型聲稱能夠處理32K token或更長的上下文,但除了Mixtral外,沒有模型在其聲稱的長度上保持超過Llama2-7B基線的性能。

英偉達新研究:上下文長度虛標嚴重,32K性能合格的都不多

其他結果如下,總的來說,GPT-4在4K長度下表現(xiàn)最佳,并且在上下文擴展到128K時顯示出最小的性能下降(15.4%)。

開源模型中排名前三的是Command-R、Yi-34B和Mixtral,它們都使用了較大的基頻RoPE,并且比其它模型具有更多的參數(shù)。

英偉達新研究:上下文長度虛標嚴重,32K性能合格的都不多
英偉達新研究:上下文長度虛標嚴重,32K性能合格的都不多
英偉達新研究:上下文長度虛標嚴重,32K性能合格的都不多
英偉達新研究:上下文長度虛標嚴重,32K性能合格的都不多
英偉達新研究:上下文長度虛標嚴重,32K性能合格的都不多

此外,研究人員還對Yi-34B-200K模型在增加輸入長度(高達256K)和更復雜任務上的表現(xiàn)進行了深入分析,以理解任務配置和失敗模式對RULER的影響。

他們還分析了訓練上下文長度、模型大小和架構對模型性能的影響,發(fā)現(xiàn)更大的上下文訓練通常會帶來更好的性能,但對長序列的排名可能不一致;模型大小的增加對長上下文建模有顯著好處;非Transformer架構(如RWKV和Mamba)在RULER上的表現(xiàn)顯著落后于基于Transformer的Llama2-7B。

更多細節(jié),感興趣的家銀們可以查看原論文。

論文鏈接:https://arxiv.org/abs/2404.06654

參考鏈接:
https://twitter.com/rohanpaul_ai/status/1797231094195962266

版權所有,未經(jīng)授權不得以任何形式轉載及使用,違者必究。
久久精品国产一区| 日本激情视频网站| 日韩中文不卡| 欧美日韩一区不卡| 国产乱人乱偷精品视频| 成人毛片视频网站| 欧美激情亚洲国产| 久久久精品国产99久久精品芒果| 天天干天天草天天| 亚洲欧洲中文天堂| 91老司机福利 在线| 丝袜美腿小色网| 99在线热播| 在线观看www91| 国产亚洲第一页| 成人在线观看你懂的| 欧美日韩成人在线播放| 欧美日韩加勒比精品一区| 一级特黄aa大片| 天天做天天爱天天高潮| 亚洲精品一区二区三区香蕉| 国产精品一区二区在线播放| 精品在线视频观看| 亚洲av首页在线| 一本一本久久a久久精品综合小说 一本一本久久a久久精品牛牛影视 | 久久99久久久欧美国产| 国产a级黄色片| 精品国产一区二区三区免费| 少妇久久久久久| 自拍偷拍欧美激情| 一级一片免费看| 国产av麻豆mag剧集| 国产欧美日韩综合精品| 俺也去精品视频在线观看| 亚洲欧洲成人精品av97| 一区二区 亚洲| 女性隐私黄www网站视频| 国产日韩精品一区二区| 久久黄色av网站| 一区二区三区精品在线| 午夜精品久久久久久久99热黄桃| 亚洲少妇18p| 国产在线精品播放| 欧美日韩一区在线| 国产亚洲一区二区三区四区| 无码精品视频一区二区三区 | 国产一级免费观看| www日本在线观看| 青青草原成人| 精品无人区一区二区三区竹菊| 亚洲第一页中文字幕| 成人精品免费网站| 视频一区二区欧美| 国产情侣av在线| 亚欧视频在线观看| 97人妻天天摸天天爽天天| 亚洲精品国产系列| 精品免费视频123区| 国产精品中文字幕在线观看| 这里只有精品在线观看| 亚洲精品美女在线| 欧美性生活久久| 一区二区三区免费网站| 亚洲欧美日本韩国| 国产精品久久久久久久蜜臀 | 成年人在线看片| 欧美激情精品久久久久久小说| 日韩一级特黄毛片| 日本高清视频免费在线观看| 日韩av在线电影观看| 日韩av一区二区三区美女毛片| 精品欧美日韩| 美女亚洲精品| 精品久久久久亚洲| 国产成人精品视频在线| 国产日韩一区在线| 国产精品xxxx| 免费在线成人av| 亚洲成人自拍| 69堂免费视频| 亚洲精品性视频| 亚洲天堂国产视频| 污视频网址在线观看| 亚洲熟女一区二区三区| 国产一区第一页| 2014亚洲天堂| 国产午夜在线播放| 亚洲自拍偷拍另类| 久久精品国产久精国产| 韩国欧美国产1区| 国产网站一区二区| 日韩精品中文字幕在线一区| 久久国产精品久久久久久| 午夜精品久久久99热福利| 欧美xxxx14xxxxx性爽| 成人精品水蜜桃| 在线观看日韩羞羞视频| 亚欧美在线观看| 88av在线播放| 国产精品亚洲lv粉色| 成人午夜免费电影| 亚洲日本va在线观看| 亚洲美女屁股眼交3| 亚洲夜晚福利在线观看| 亚洲综合20p| 91精品中文在线| 日本va中文字幕| 女人18毛片毛片毛片毛片区二 | 亚洲欧美国产va在线影院| 国产福利精品在线| 亚洲精品女av网站| 在线观看的毛片| 久久中文免费视频| 日韩影院在线观看| 色哟哟一区二区三区| 久久久国产精彩视频美女艺术照福利 | 91高清在线观看| 国内精品久久久久伊人av| 欧洲精品在线播放| 国产又粗又硬视频| 91麻豆国产视频| 一本色道综合亚洲| 91手机视频在线观看| 啊啊啊一区二区| 国产又爽又黄的视频| 久久久久久久一区| 一区国产精品视频| 国产亚洲情侣一区二区无| 手机看片福利视频| 亚洲精品一区二区三区蜜桃| 一区二区三区蜜桃| 俄罗斯精品一区二区三区| 在线中文字日产幕| 激情伊人五月天久久综合| 亚洲精品一二区| 一区二区三区四区视频在线观看 | 午夜精品福利在线| 久久人人爽国产| 黄色片免费在线观看视频| 国产日韩免费视频| 欧美蜜桃一区二区三区| http;//www.99re视频| 九九热最新地址| 国产亚洲制服色| 日韩福利视频在线观看| 日韩精品视频在线观看视频| 国产成人精品毛片| 精品国产一区久久| 青青草视频在线视频| 在线免费a视频| 欧美xxxxxxxx| 18禁裸男晨勃露j毛免费观看| 国产又粗又猛又黄视频| 欧美一级片在线看| 路边理发店露脸熟妇泻火| 久久久国产精品一区二区中文| 日韩国产中文字幕| 久久综合伊人77777麻豆最新章节| 欧美 日韩 中文字幕| 中文字幕一区日韩电影| 手机在线观看日韩av| 成人午夜免费av| 国产精品偷伦一区二区| 中文字幕精品三级久久久 | 亚洲热线99精品视频| 国产成人av片| 91免费看视频| 免费观看成人在线| 日韩国产精品久久| 欧美在线视频观看| 日韩av在线天堂| 色狠狠综合天天综合综合| 能看的毛片网站| 国产精品久久一卡二卡| 视频一区亚洲| 国产99一区视频免费| 97超级在线观看免费高清完整版电视剧| www.蜜臀av| 91成人天堂久久成人| 在线观看你懂的网站| 亚洲网站在线观看| 大胸美女被爆操| 亚洲国产精品久久久久秋霞不卡| 超碰97在线资源站| 精品少妇一区二区三区日产乱码 | 国产午夜精品福利视频| 欧美日韩小视频| 国产精品无码自拍| 色爱区综合激月婷婷| 污污视频在线免费| 制服丝袜国产精品| 99久久精品免费视频| 欧美美女黄视频| 性欧美精品中出| 欧美精品一区二| 国产福利在线导航| 日韩欧美一级精品久久| 四虎影视一区二区| 欧美激情亚洲精品| a天堂在线视频| 视频在线99| 欧美日韩人人澡狠狠躁视频| 久久久无码人妻精品无码| 日韩av影视在线| 中文字幕第三页| 欧美成人中文字幕| 高清一区二区三区四区| 神马影院我不卡| 国产91色在线|亚洲| 亚洲高清视频中文字幕| 69视频免费看| 亚洲一区二区三区免费看| 欧美色图在线观看| 国产高清免费在线观看| 香港三日本8a三级少妇三级99| 午夜精品一区二区三区在线| 久久99精品国产.久久久久久 | 久久精品视频在线免费观看| 亚洲婷婷在线视频| 亚洲视频在线播放免费| 亚洲人高潮女人毛茸茸| 日韩大片免费在线观看| 久久最新资源网| 久久精品国产免费| 国产第一页精品| 精品中文字幕av| 亚欧在线免费观看| 99热这里只有精品4| 一本到在线视频| 2021国产精品久久精品| 亚洲日本欧美天堂| 国产欧美综合在线| 国产麻豆精品视频| 亚洲精品久久久蜜桃动漫| 亚洲精品女人久久久| 992kp免费看片| 久久99蜜桃综合影院免费观看| 国产精品久久久久久久久久 | 欧美日韩中文国产| 国产黄色av片| 波多野结衣一二三区| 久久综合福利| 久久久久高清| 国产精品久久久久久久久男| 日韩1区2区3区| 伊人网站在线观看| 99在线精品视频免费观看20| 国产男女无遮挡| 亚洲国产日韩一区| jizz一区二区| 久久中文字幕在线观看| 久激情内射婷内射蜜桃| 久久久久久久久久久免费| 一区二区成人在线视频| 国产男女猛烈无遮挡| 亚洲图片 自拍偷拍| 国产精品海角社区在线观看| 欧美三级乱人伦电影| 日韩av一区二区在线影视| 97在线观看免费视频| 亚洲成人免费网站| 成人一区二区三区在线观看| 免费一级片在线观看| 国产91视频一区| 91高清在线免费观看| 欧美区一区二区三区| 亚洲国产成人av网| 亚洲黄色在线网站| 国产66精品久久久久999小说| 亚洲精品自拍第一页| 国产精品福利一区| 日韩不卡一二三区| 最近中文字幕在线观看视频| 欧美 日韩 成人| 一级做a爱视频| 久久午夜夜伦鲁鲁一区二区| 国产精品入口免费| 国产aⅴ夜夜欢一区二区三区| 国产亚洲精品高潮| 欧美丰满美乳xxx高潮www| 亚洲免费观看视频| 久久久久久久久久久黄色| 国产免费黄色大片| 在线观看免费小视频| 制服.丝袜.亚洲.中文.综合懂| 国产无套内射久久久国产| 99在线视频播放| 国产精品久久久久久久久久久新郎 | 中文字幕日韩一区二区三区| 男女裸体影院高潮| 丁香婷婷综合激情| 热久久最新地址| 97视频com| 国产v综合ⅴ日韩v欧美大片| 91精品国产91久久久久久一区二区 | 久久久久久久精| 99久久久精品| 欧美一二三不卡| 国产伦精品一区二区三区精品视频| 欧美xxxx综合视频| 欧美sm美女调教| 亚洲三级av在线| 日韩最新av在线| 亚洲欧美另类在线观看| 欧美精品1区2区3区| 亚洲国产精品久久久久久| 欧美日韩精品专区| 日韩成人av网| 欧美国产亚洲精品久久久8v| 久久精品成人一区二区三区| 亚洲精品视频中文字幕| 欧美国产亚洲精品久久久8v| 国产精品久久久久久久美男| 91在线在线观看| 91大片在线观看| 3d精品h动漫啪啪一区二区| 欧美激情视频给我| 欧美成人免费播放| 有码一区二区三区| 精品一区二区三区在线观看| 熟妇无码乱子成人精品| 亚洲一区二区三区日韩| 毛片aaaaaa| 天堂av网手机版| 精品美女久久久久| 精品亚洲免费视频| 狠狠躁18三区二区一区| 国产午夜精品久久久 | 日韩一级精品视频在线观看| 亚洲同性gay激情无套| 亚洲男人天堂2019| 电影午夜精品一区二区三区| 91导航在线观看| 国产女人18水真多18精品一级做| 国产精品视频自在线| 在线观看黄色国产| 日韩亚洲欧美高清| 成人一对一视频| 国产精品夜夜嗨| 日韩久久免费电影| 影音先锋欧美资源| 青青草视频成人| 国产女人水真多18毛片18精品视频| 日本高清不卡一区| 成人三级在线| 韩国一级黄色录像| 精彩视频一区二区三区| 欧美日韩午夜剧场| 视频直播国产精品| 日韩 欧美 高清| 粉嫩av一区二区三区在线播放| 日韩毛片中文字幕| 国产精品免费小视频| 中文字幕在线观看免费高清| 老汉av免费一区二区三区| 日韩在线视频线视频免费网站| 91色中文字幕| 欧美一级视频在线播放| 在线播放国产一区| 91精品国产综合久久国产大片| 色欲色香天天天综合网www| 亚洲欧美日韩在线| 熟妇人妻va精品中文字幕| 亚洲一卡二卡三卡四卡无卡久久| 日本福利视频导航| 粉嫩aⅴ一区二区三区四区五区 | 国产乱叫456在线| 日韩欧美在线视频观看| 精品1区2区| 天堂资源在线亚洲视频| 国产精品热久久| 久久免费视频网站| 在线观看国产免费视频| 国产精品久久影视| 欧美一区二区三区免费大片| 精品网站在线看| 亚洲天堂视频网站| 欧美午夜不卡视频| 天天操天天干天天玩| 久国产精品韩国三级视频| 7777精品视频| 在线观看av大片| 亚洲国产日韩一区| 蜜臀视频一区二区三区| 久久午夜视频| 久久在线免费观看视频| 日韩黄色短视频| 欧洲精品一区二区三区久久| 一区二区三区的久久的视频| 一区二区三区四区五区视频| 日韩三级电影网站| 相泽南亚洲一区二区在线播放| 欧美极品视频一区二区三区| 快播日韩欧美| 中文字幕在线亚洲精品| 中文字幕久久一区| 国产深夜男女无套内射| 精品99在线视频| 伊人成人222| 日本国产在线视频| 性欧美精品男男| 青娱乐国产盛宴| 欧美交换国产一区内射| 99精品人妻国产毛片| 一区二区日韩在线观看| 视频一区二区欧美| 国产成人久久精品77777最新版本 国产成人鲁色资源国产91色综 | av av片在线看| 韩国av免费在线| 久久av资源站|