色综合中文综合网_性猛交娇小69hd_久久精品99久久久久久_欧美日韩精品一区二区三区四区 _97视频色精品_国产高清精品久久久久_日日鲁鲁鲁夜夜爽爽狠狠视频97 _国产成人免费视频精品含羞草妖精 _熟女少妇在线视频播放_精品人妻一区二区三区麻豆91 _久久女同性恋中文字幕_一区二区福利视频

1萬tokens是檢驗長文本的新基準,超過后18款大模型集體失智

升級版“大海撈針”實測

聞樂 發自 凹非寺

量子位 | 公眾號 QbitAI

上下文擴展至1萬tokens,LLM集體“失智”!

且“智商”不是均勻下降,而是在一些節點突然斷崖式下跌。

比如Claude Sonnet 4,就是在1000tokens后準確率一路下滑,從90%降到60%。

或者是下降后放緩再下降,比如GPT-4.1Gemini 2.5 Flash

最終,當上下文長度來到1萬tokens,大家都只剩50%準確率。

1萬tokens是檢驗長文本的新基準,超過后18款大模型集體失智

這也就意味著,大模型在讀同一本書第10頁和第100頁時的“智商”可能不一樣。

并且不同大模型在“讀這本書”時突然降智的頁數也不同。

GPT-4.1可能讀到第10頁就“失智”了,Claude興許能堅持到第100頁。

1萬tokens是檢驗長文本的新基準,超過后18款大模型集體失智

這是Chroma團隊的最新研究結論,他們用升級版“大海撈針”(NIAH)測試了包括GPT-4.1、Claude 4、Gemini 2.5和Qwen3等在內的18個開源和閉源的主流大模型。

結果顯示,隨著輸入長度的增加,模型的性能越來越差

實驗還首次系統性地揭示了輸入長度對模型性能并非均勻影響,不同模型性能可能在某一tokens長度上準確率發生驟降。

這項工作得到了網友的肯定:

以往人們或許會遇到當輸入長度增加時大模型會出現性能不佳的情況,但并沒有人深入探究過這個問題。

1萬tokens是檢驗長文本的新基準,超過后18款大模型集體失智

目前代碼已開源,感興趣的朋友可復現~

1萬tokens是個坎兒

Gemini 1.5 Pro在2024年首次引入了1M上下文窗口,隨后GPT-4.1也加入到了1M上下文隊伍中。

更長的上下文意味著LLM每次調用可以處理更多信息,似乎能生成更合理的輸出。

確實,這些模型在“大海撈針”(NIAH)這些基準測試中表現良好。但實際上,現有基準測試有一個局限性是在于它們傾向于把輸入長度與任務難度混為一談

NIAH本質上是一個簡單的檢索任務,它是將一個已知事實(“針”)放置在一大段不相關文本(“干草堆”)中,然后要求模型檢索它。

1萬tokens是檢驗長文本的新基準,超過后18款大模型集體失智

這種方法主要評估大模型直接的詞匯匹配能力,無法代表更靈活、面向語義的任務。

其他更復雜的任務,例如包含非詞匯匹配的NoLiMa和測試文本片段缺失識別的AbsenceBench,已經揭示了模型性能在輸入長度增加時出現的顯著下降,但沒有進行更深入地探討。

為了解決經典NIAH的局限性,并更好地探究僅輸入長度對模型性能的影響,研究人員擴展了標準的NIAH任務。

研究人員基于保持任務復雜度不變,只改變輸入長度核心原則,設計了四項對照實驗。

先說結論,四項對照實驗(針-問題相似度、干擾信息、針-干草堆相似度、干草堆結構實驗)共同證明了LLMs的性能會隨輸入長度增加而顯著且非均勻地下降,且這種衰減受輸入內容的語義特征、結構等因素影響。

具體表現為

  1. 輸入長度是性能衰減的核心變量,無論任務簡單與否,模型處理長文本的可靠性都會下降;
  2. 語義關聯性(如針-問題相似度低、針與干草堆語義融合)會加劇衰減;
  3. 干擾信息和文本結構(如邏輯連貫的干草堆)會進一步削弱模型在長上下文任務中的表現;
  4. 不同模型對這些因素的敏感程度存在差異,但整體均無法維持穩定性能。

第一項是針-問題相似度實驗:驗證“針”與“問題”的語義相似度是否會影響模型在長上下文任務中的表現,尤其是輸入長度增加時,低相似度是否會加劇性能衰減。

實驗選取了保羅?格雷厄姆散文(PG essay)和arXiv論文作為背景數據(干草堆),針對其核心主題設計問題,并為每個問題生成8個與主題匹配且未出現在干草堆中的 “針”,通過5種嵌入模型計算“針-問題”余弦相似度,分為高、低相似度兩組。

實驗控制任務復雜度和干草堆內容,僅調整輸入長度(102到10?tokens)和相似度,以模型回答準確率為指標(由GPT-4.1評估,與人類判斷一致性超過99%)。

1萬tokens是檢驗長文本的新基準,超過后18款大模型集體失智

結果顯示,所有模型性能均隨輸入長度增加而下降,到1萬token左右下降最明顯,且低相似度組衰減更顯著——

高相似度組在10?tokens 時準確率約60%-80%,低相似度組降至40%-60%,高性能模型雖在短輸入時表現更好,長輸入下仍難避免衰減。

這表明,“針-問題”語義相似度是關鍵影響因素,相似度越低,長輸入下模型性能衰減越劇烈,揭示了現有模型處理模糊信息的局限性。

第二項是干擾信息實驗:探究當輸入長度變化時,與目標信息(針)相關但不匹配的干擾內容對LLMs性能的影響,尤其是干擾項數量和個體差異是否會加劇性能衰減。

研究團隊從保羅?格雷厄姆散文和arXiv論文兩類干草堆中,選取與問題語義相似度較高的“針”,并手動設計4個干擾項。

實驗設置了三種條件:基線(僅含“針”,無干擾項)、單一干擾項(“針”+1條隨機位置的干擾項)、多重干擾項(“針”+4條隨機分布的干擾項)。

1萬tokens是檢驗長文本的新基準,超過后18款大模型集體失智

通過控制任務復雜度(僅需檢索“針”并回答問題),僅調整輸入長度(從102到10?tokens)和干擾項數量,以模型回答的準確率為指標。

1萬tokens是檢驗長文本的新基準,超過后18款大模型集體失智

結果顯示,即使單一干擾項也會導致模型性能低于基線,而加入4條干擾項會進一步加劇性能衰減。

輸入長度為10?tokens時,多重干擾項條件下模型準確率比基線低30%-50%。

1萬tokens是檢驗長文本的新基準,超過后18款大模型集體失智

此外,模型對干擾項的響應存在差異:Claude系列傾向于在不確定時棄權(明確表示無法回答),幻覺率較低;GPT系列則更可能生成自信但錯誤的答案,受干擾影響更明顯;Gemini和Qwen模型的表現波動較大,易受干擾項數量和輸入長度的雙重影響。

第三項是針-干草堆相似度實驗:探究目標信息(針)與背景文本(干草堆)的語義相似度對 LLMs長上下文任務性能的影響。

1萬tokens是檢驗長文本的新基準,超過后18款大模型集體失智

實驗選取保羅?格雷厄姆散文和arXiv論文作為干草堆,針對其核心主題設計問題及8個匹配主題的“針”(確保未出現在干草堆中),通過5種嵌入模型計算“針-干草堆” 余弦相似度并取平均值以保證穩健性。

實驗控制任務復雜度,僅調整輸入長度(102到 10?tokens)和相似度,以模型回答準確率為指標。

1萬tokens是檢驗長文本的新基準,超過后18款大模型集體失智

結果顯示,針-干草堆相似度對模型性能的影響不統一,不同模型敏感度存在差異,但整體上隨著輸入長度增加,各相似度條件下的模型性能普遍下降。

第四項是干草堆結構實驗:探究背景文本(干草堆)的結構模式對LLMs長上下文任務性能的影響。

1萬tokens是檢驗長文本的新基準,超過后18款大模型集體失智

實驗選取保羅?格雷厄姆散文和arXiv論文作為干草堆,針對其核心主題設計問題及8個匹配主題的“針”(確保未出現在干草堆中),設置連貫結構(文本按原邏輯順序呈現)和打亂結構(文本順序隨機打亂)兩種條件。

實驗控制任務復雜度,僅調整輸入長度(102 到 10? tokens)和干草堆結構。

1萬tokens是檢驗長文本的新基準,超過后18款大模型集體失智

結果顯示,多數模型在連貫結構中隨輸入長度增加性能下降更顯著,而打亂結構下性能下降較緩和——

輸入長度10?tokens 時,連貫結構中部分模型準確率降至30%-40%,打亂結構則維持在50%-60%。

這表明干草堆結構是關鍵影響因素,現有模型處理復雜邏輯結構的長文本時挑戰更大。

團隊還設計了重復單詞實驗,說明即使是最基礎的文本復現任務,LLMs 在長上下文下的穩定性也存在嚴重缺陷,且輸入與輸出長度的同步增長會加劇這一問題。

1萬tokens是檢驗長文本的新基準,超過后18款大模型集體失智

這些實驗結果共同證明,盡管大型語言模型的上下文窗口不斷增長,但其性能并非均勻一致

基于LLMs在長文本任務上的缺陷,也有人給出了應對策略:給出明確、清晰的指令,并且在收集到足夠的信息后保存上下文,添加一個檢查點。

1萬tokens是檢驗長文本的新基準,超過后18款大模型集體失智
1萬tokens是檢驗長文本的新基準,超過后18款大模型集體失智

Chroma——開源的AI應用數據庫

Chroma致力于開發開源軟件,由Jeff Huber(左)和Anton Troynikov(右)共同創立。

1萬tokens是檢驗長文本的新基準,超過后18款大模型集體失智

公司公開發布的同名數據庫Chroma是一個開源的AI應用數據庫,旨在通過將知識和技能整合為大語言模型可調用的模塊,簡化LLM應用的構建過程。

1萬tokens是檢驗長文本的新基準,超過后18款大模型集體失智

團隊活躍于LLMs長上下文處理、檢索增強生成(RAG)等領域的研究,以解決大模型在實際應用中對長文本信息的記憶、提取和利用效率問題。

目前,Chroma計劃推出免費的技術預覽,并表示:

我們100%專注于構建有價值的開源軟件。

代碼地址:https://github.com/chroma-core/context-rot

參考鏈接:
[1]https://research.trychroma.com/context-rot
[2]https://news.ycombinator.com/item?id=44564248

— 完 —

版權所有,未經授權不得以任何形式轉載及使用,違者必究。
国产精品不卡av| 日本在线观看一区二区| 蜜桃精品视频在线观看| 麻豆极品一区二区三区| 美女啪啪无遮挡免费久久网站| 国产成人精品一区二区三区福利| 国产第一页精品| 国产吞精囗交久久久| 国产大片一区二区| 久久伊人免费视频| 亚洲乱熟女一区二区| 国产欧美一区二区三区另类精品| 国产免费高清视频| 色播久久人人爽人人爽人人片视av| 91传媒免费看| 级毛片内射视频| 99精品桃花视频在线观看| 舔着乳尖日韩一区| 色婷婷av一区二区三区久久| 性猛交富婆╳xxx乱大交天津| 欧美乱妇一区二区三区不卡视频| 久久一区免费| 免费看一级一片| 欧美风情第一页| 国产婷婷一区二区| 久久中文字幕一区| www.成人免费视频| 日本五级黄色片| 精品无码久久久久成人漫画| 欧美精品一区在线观看| 操bbb操bbb| 一区二区三区四区视频在线| 亚洲av无码乱码国产麻豆| 亚洲丝袜在线观看| 午夜小视频免费| 欧美一级黄色片| 这里只有精品丝袜| www.自拍偷拍| 国产精品久久一| 国产在线看一区| 五月天激情图片| 天天操天天色综合| 国产精品欧美亚洲| 欧美一级午夜免费电影| 国产精品久久网| 久久精品亚洲一区二区| 97视频在线观看播放| 亚洲中文字幕无码一区二区三区| 狠狠色综合日日| 欧美日韩一区二区区别是什么| 经典一区二区三区| 成年人三级视频| 亚洲欧美精品伊人久久| 欧美在线亚洲一区| 亚洲黄色小说网址| 亚洲天堂国产视频| xxav国产精品美女主播| 午夜性色福利影院| 日韩精品无码一区二区| 色悠悠久久久久| 波多野结衣网站| 亚洲欧美中文另类| 黄色片在线观看免费| 99re66热这里只有精品3直播 | 日本美女bbw| 色8久久人人97超碰香蕉987| 水蜜桃色314在线观看| 久久中文在线| 国产精品久久久久久久av电影| 国产精品综合网| 久久99精品视频一区97| 二区三区四区视频| 欧美日韩中字一区| 男人操女人免费软件| 91蜜桃在线观看| 黄色91av| 日本午夜精品视频在线观看| 国产成人精品一区二区在线| 精品国产青草久久久久96| 日韩视频在线一区| 97caocao| 久久久久久久国产精品视频| 国产精品美女久久久久av爽| 日韩精品一区二区三区蜜臀 | 国产熟女高潮一区二区三区| 夜夜操天天操亚洲| 69精品丰满人妻无码视频a片| 亚洲资源中文字幕| 泷泽萝拉在线播放| 欧美国产日韩一区| 亚洲成人第一网站| 色偷偷av一区二区三区乱| 国产三级在线观看视频| 欧美乱偷一区二区三区在线| 国产精品影视在线观看| 中文字幕无码精品亚洲35| 中文字幕一区二区三区四区不卡 | ww亚洲ww在线观看国产| 日韩 欧美 亚洲| 成人短视频在线观看免费| 亚洲精品欧美一区二区三区| 一区二区免费av| 日韩欧美色电影| 国产成人麻豆免费观看| 久久www免费人成精品| 美美哒免费高清在线观看视频一区二区| 特级毛片在线免费观看| 久久久久国产成人精品亚洲午夜 | 国产精品久久午夜夜伦鲁鲁| 成人在线免费观看网址| 欧洲一区在线电影| 免费观看一区二区三区| 久久夜色精品国产欧美乱| 丝袜国产日韩另类美女| 久久久噜噜噜www成人网| 亚洲国产欧美另类丝袜| 无尽裸体动漫2d在线观看| 亚洲片在线观看| 深夜福利视频网站| 国产精品我不卡| 成人动漫一区二区在线| 国产日韩欧美大片| 日韩三级在线免费观看| 亚洲精品综合久久| 丰满少妇被猛烈进入高清播放| 日韩精品极品视频免费观看| 国产精品500部| 欧美极品美女视频网站在线观看免费| 国产乱码一区二区三区| 亚洲成人精品在线播放| 5252色成人免费视频| 日韩精品亚洲一区二区三区免费| 欧美综合激情| 国产精品久久午夜| 午夜三级在线观看| 国产精品精品软件视频| 91国偷自产一区二区开放时间| 日韩久久久久久久久久| av无码久久久久久不卡网站| 亚洲图片欧美一区| av动漫免费观看| 国产精品久久久久久久久| 欧美一区二区三区四区五区| 精品国产乱码一区二区三| 国产视频一二三四区| 久久精品国产免费| 2022亚洲天堂| 色婷婷综合久久久久| 成人91在线观看| 国产ts丝袜人妖系列视频| 欧洲另类一二三四区| 91激情在线观看| 亚洲熟妇av一区二区三区漫画| www.午夜精品| 国产蜜臀av在线一区二区三区| xxx国产在线观看| 日韩亚洲国产中文字幕欧美| 无码精品人妻一区二区| 超碰在线资源站| 一道本无吗dⅴd在线播放一区| 亚洲手机在线观看| 久久久久久国产精品一区| 欧美精品乱码久久久久久按摩| 日本黄视频在线观看| 在线观看日韩片| 91久久精品一区二区二区| 99精品在线看| 在线视频日韩欧美| 国产精品永久免费在线| 久久久久久日产精品| 日本一区二区欧美| 99er在线视频| 欧美丰满少妇xxxx| 久久丁香综合五月国产三级网站| 国产a级一级片| 日av在线播放中文不卡| 欧洲在线免费视频| 欧美一级bbbbb性bbbb喷潮片| 国产精品萝li| 曰批又黄又爽免费视频| 精品久久久噜噜噜噜久久图片| 91国产免费看| 五十路在线视频| 91麻豆精品国产无毒不卡在线观看| 国产aⅴ精品一区二区三区黄| 91激情在线视频| 日本美女一区二区三区| 在线国产视频一区| 亚洲精品一区二区三区四区五区 | 国产不卡一区视频| 在线一区二区不卡| 91丨九色丨国产在线| 亚洲免费视频中文字幕| 高清国产在线观看| 一区二区三区av| 久久免费少妇高潮久久精品99| 99久久伊人久久99| 在线观看国产免费视频| 欧美久久电影| 日韩天堂在线视频| 天天爽夜夜爽夜夜爽精品视频| 久久欧美肥婆一二区| 成年人二级毛片| 免费毛片小视频| 91精品婷婷国产综合久久蝌蚪| 亚洲美女精品成人在线视频| 亚洲欧美在线观看| 久久午夜无码鲁丝片| 欧美最大成人综合网| 欧美成人免费观看| 欧洲在线/亚洲| 99热精品一区二区| 国产欧美日韩综合精品一区二区三区| 中国xxxx性xxxx产国| 日韩免费中文字幕| 亚洲精品日产精品乱码不卡| 秋霞网一区二区| 国产精品成人69xxx免费视频| 国产成人a亚洲精v品无码| caoporn国产精品免费公开| 在线观看国产91| gogogo免费视频观看亚洲一| 一级黄色片免费看| 黄色国产在线播放| 老熟妇仑乱视频一区二区| 免费不卡欧美自拍视频| 欧洲精品中文字幕| 日本一区二区动态图| 在线观看国产亚洲| 久草免费资源站| 91精品国产综合久久久久久丝袜| 伊人青青综合网站| 欧美色倩网站大全免费| 国产亲近乱来精品视频| 久久精品一区二区国产| 天天操天天干视频| 无码国产69精品久久久久同性| 久久av一区二区三区漫画| 欧美高清不卡在线| 亚洲精品国偷自产在线99热| 久久久噜噜噜久噜久久综合| 婷婷五月综合久久中文字幕| 国产成人无码精品久在线观看| 国产chinese中国hdxxxx| 国产精品久久久久久久免费大片| 欧美激情一区二区久久久| 亚洲爱爱爱爱爱| 好吊成人免视频| 麻豆精品久久精品色综合| 亚洲天堂男人网| 久久久精品视频在线| 国产吞精囗交久久久| 中文字幕一区二区三区四区在线视频| 国产精品video| 在线观看国产精品91| 欧美一区二区三区喷汁尤物| 五月激情综合色| 日本一区二区三区dvd视频在线 | 激情欧美日韩一区二区| 国产免费一区二区三区免费视频| 九九九免费视频| 婷婷色一区二区三区| 亚洲精品在线视频播放| 成人永久免费| 欧美在线激情视频| 超碰日本道色综合久久综合 | 亚洲av色香蕉一区二区三区| 亚洲不卡视频在线观看| 青青草原免费观看| 成人欧美一区二区三区黑人一| 日本aa在线观看| 天天综合色天天综合色hd| 韩日欧美一区二区| 亚洲一区二区福利| 亚洲成a人v欧美综合天堂下载 | 精品国产亚洲在线| 欧美亚洲日本国产| 懂色av一区二区三区免费看| 天天摸天天碰天天爽天天弄| 国产成人精品一区二三区四区五区| 欧美图片第一页| 日本精品一二三| 毛片毛片毛片毛片毛| 免费观看黄色大片| 日本在线高清视频一区| 精品伦精品一区二区三区视频| 91aaaa| 国产va免费精品高清在线| 98精品在线视频| 亚洲精品美女视频| 亚洲第一页中文字幕| 一区二区三区在线不卡| 久久精品国内一区二区三区| 狂野欧美一区| 日本精品久久久久久| 天天操天天干天天爽| 天堂av资源网| 天天操天天干天天操| 天天摸天天碰天天爽天天弄| 久久一二三区| 久久99久久久欧美国产| 国产美女精品一区二区三区| 国产一区二区福利视频| 不卡免费追剧大全电视剧网站| 91丨九色porny丨蝌蚪| 国产亚洲一本大道中文在线| 国产精品狼人久久影院观看方式| 亚洲三级视频在线观看| 国产成人综合网站| 成人综合在线观看| 欧美一级淫片aaaaaa| 亚洲国产欧美另类| 亚洲av成人精品一区二区三区在线播放 | av在线播放中文字幕| 免费看特级毛片| 日韩av无码中文字幕| 日本熟女毛茸茸| 国产精品一品二区三区的使用体验| 亚洲国产福利视频| 久久精品在线| 国产精品中文欧美| 久久综合久久久久88| 日韩不卡手机在线v区| 狠狠色综合播放一区二区| 成人app下载| 亚洲特级片在线| 日韩欧美在线一区| 亚洲妇女屁股眼交7| 欧美在线制服丝袜| 亚洲级视频在线观看免费1级| 日韩一中文字幕| 欧美一级免费视频| 国产精品久久久对白| 影音先锋成人资源网站| 黄色高清无遮挡| 亚洲av网址在线| 国产第一页在线播放| 国产精品九九九九| 国产在线不卡一区| 国产日韩成人精品| 精品成人av一区| 精品免费一区二区三区| 欧美一区二区黄色| 日韩中文字幕久久| 国产欧美日韩中文字幕在线| 国产精品一区二区在线| 欧美一级二级三级九九九| 精品少妇人妻av免费久久洗澡| 黑人巨大猛交丰满少妇| 久久久久亚洲av无码专区体验| www.99热| www.久久精品视频| 日韩精品成人一区二区三区| 久久精品一二三| 色爱区综合激月婷婷| 亚洲日本中文字幕| 国产成人精品午夜| 日韩欧美一区二区在线观看| 欧美少妇性生活视频| 69xxx免费| 国产精品熟女久久久久久| 国产a视频精品免费观看| 亚洲综合一区二区三区| 亚洲精品国产拍免费91在线| 91精品国产网站| 欧美亚洲免费高清在线观看| 欧美大尺度做爰床戏| 伊人成人免费视频| 高h视频免费观看| 精品国产99久久久久久宅男i| 成人福利在线看| 91极品视觉盛宴| 欧美成人在线免费视频| 久久av免费一区| 国产三级生活片| 精品小视频在线观看| 奇米一区二区三区av| 亚洲丶国产丶欧美一区二区三区| 亚洲乱码国产乱码精品精天堂| 成人a级免费视频| 好吊色欧美一区二区三区视频| 国产成人a亚洲精v品无码| 影音先锋男人在线| 黄色小视频免费在线观看| 日韩精品亚洲专区| 亚洲精品一二三| 这里只有精品在线观看| 精品久久精品久久| 亚洲天堂伊人网| 精品国产一区二区三区四| 国产99久久久久| 欧美日韩成人在线| 日韩福利在线播放| 亚洲综合日韩中文字幕v在线| 成人在线观看a| 97人人澡人人爽人人模亚洲| 成人免费高清在线观看| 777午夜精品免费视频| 国产日韩欧美一二三区| 黄色一级大片在线观看| 日韩三级视频在线播放| 成人av电影在线网| 欧美一级视频精品观看| 成人信息集中地欧美| 亚洲欧美久久久久| 中国a一片一级一片| 欧美国产精品劲爆| xxxxx成人.com| 亚洲蜜桃在线| 免费一级suv好看的国产网站|