色综合中文综合网_性猛交娇小69hd_久久精品99久久久久久_欧美日韩精品一区二区三区四区 _97视频色精品_国产高清精品久久久久_日日鲁鲁鲁夜夜爽爽狠狠视频97 _国产成人免费视频精品含羞草妖精 _熟女少妇在线视频播放_精品人妻一区二区三区麻豆91 _久久女同性恋中文字幕_一区二区福利视频

1萬tokens是檢驗長文本的新基準,超過后18款大模型集體失智

升級版“大海撈針”實測

聞樂 發自 凹非寺

量子位 | 公眾號 QbitAI

上下文擴展至1萬tokens,LLM集體“失智”!

且“智商”不是均勻下降,而是在一些節點突然斷崖式下跌。

比如Claude Sonnet 4,就是在1000tokens后準確率一路下滑,從90%降到60%。

或者是下降后放緩再下降,比如GPT-4.1Gemini 2.5 Flash

最終,當上下文長度來到1萬tokens,大家都只剩50%準確率。

1萬tokens是檢驗長文本的新基準,超過后18款大模型集體失智

這也就意味著,大模型在讀同一本書第10頁和第100頁時的“智商”可能不一樣。

并且不同大模型在“讀這本書”時突然降智的頁數也不同。

GPT-4.1可能讀到第10頁就“失智”了,Claude興許能堅持到第100頁。

1萬tokens是檢驗長文本的新基準,超過后18款大模型集體失智

這是Chroma團隊的最新研究結論,他們用升級版“大海撈針”(NIAH)測試了包括GPT-4.1、Claude 4、Gemini 2.5和Qwen3等在內的18個開源和閉源的主流大模型。

結果顯示,隨著輸入長度的增加,模型的性能越來越差

實驗還首次系統性地揭示了輸入長度對模型性能并非均勻影響,不同模型性能可能在某一tokens長度上準確率發生驟降。

這項工作得到了網友的肯定:

以往人們或許會遇到當輸入長度增加時大模型會出現性能不佳的情況,但并沒有人深入探究過這個問題。

1萬tokens是檢驗長文本的新基準,超過后18款大模型集體失智

目前代碼已開源,感興趣的朋友可復現~

1萬tokens是個坎兒

Gemini 1.5 Pro在2024年首次引入了1M上下文窗口,隨后GPT-4.1也加入到了1M上下文隊伍中。

更長的上下文意味著LLM每次調用可以處理更多信息,似乎能生成更合理的輸出。

確實,這些模型在“大海撈針”(NIAH)這些基準測試中表現良好。但實際上,現有基準測試有一個局限性是在于它們傾向于把輸入長度與任務難度混為一談

NIAH本質上是一個簡單的檢索任務,它是將一個已知事實(“針”)放置在一大段不相關文本(“干草堆”)中,然后要求模型檢索它。

1萬tokens是檢驗長文本的新基準,超過后18款大模型集體失智

這種方法主要評估大模型直接的詞匯匹配能力,無法代表更靈活、面向語義的任務。

其他更復雜的任務,例如包含非詞匯匹配的NoLiMa和測試文本片段缺失識別的AbsenceBench,已經揭示了模型性能在輸入長度增加時出現的顯著下降,但沒有進行更深入地探討。

為了解決經典NIAH的局限性,并更好地探究僅輸入長度對模型性能的影響,研究人員擴展了標準的NIAH任務。

研究人員基于保持任務復雜度不變,只改變輸入長度核心原則,設計了四項對照實驗。

先說結論,四項對照實驗(針-問題相似度、干擾信息、針-干草堆相似度、干草堆結構實驗)共同證明了LLMs的性能會隨輸入長度增加而顯著且非均勻地下降,且這種衰減受輸入內容的語義特征、結構等因素影響。

具體表現為

  1. 輸入長度是性能衰減的核心變量,無論任務簡單與否,模型處理長文本的可靠性都會下降;
  2. 語義關聯性(如針-問題相似度低、針與干草堆語義融合)會加劇衰減;
  3. 干擾信息和文本結構(如邏輯連貫的干草堆)會進一步削弱模型在長上下文任務中的表現;
  4. 不同模型對這些因素的敏感程度存在差異,但整體均無法維持穩定性能。

第一項是針-問題相似度實驗:驗證“針”與“問題”的語義相似度是否會影響模型在長上下文任務中的表現,尤其是輸入長度增加時,低相似度是否會加劇性能衰減。

實驗選取了保羅?格雷厄姆散文(PG essay)和arXiv論文作為背景數據(干草堆),針對其核心主題設計問題,并為每個問題生成8個與主題匹配且未出現在干草堆中的 “針”,通過5種嵌入模型計算“針-問題”余弦相似度,分為高、低相似度兩組。

實驗控制任務復雜度和干草堆內容,僅調整輸入長度(102到10?tokens)和相似度,以模型回答準確率為指標(由GPT-4.1評估,與人類判斷一致性超過99%)。

1萬tokens是檢驗長文本的新基準,超過后18款大模型集體失智

結果顯示,所有模型性能均隨輸入長度增加而下降,到1萬token左右下降最明顯,且低相似度組衰減更顯著——

高相似度組在10?tokens 時準確率約60%-80%,低相似度組降至40%-60%,高性能模型雖在短輸入時表現更好,長輸入下仍難避免衰減。

這表明,“針-問題”語義相似度是關鍵影響因素,相似度越低,長輸入下模型性能衰減越劇烈,揭示了現有模型處理模糊信息的局限性。

第二項是干擾信息實驗:探究當輸入長度變化時,與目標信息(針)相關但不匹配的干擾內容對LLMs性能的影響,尤其是干擾項數量和個體差異是否會加劇性能衰減。

研究團隊從保羅?格雷厄姆散文和arXiv論文兩類干草堆中,選取與問題語義相似度較高的“針”,并手動設計4個干擾項。

實驗設置了三種條件:基線(僅含“針”,無干擾項)、單一干擾項(“針”+1條隨機位置的干擾項)、多重干擾項(“針”+4條隨機分布的干擾項)。

1萬tokens是檢驗長文本的新基準,超過后18款大模型集體失智

通過控制任務復雜度(僅需檢索“針”并回答問題),僅調整輸入長度(從102到10?tokens)和干擾項數量,以模型回答的準確率為指標。

1萬tokens是檢驗長文本的新基準,超過后18款大模型集體失智

結果顯示,即使單一干擾項也會導致模型性能低于基線,而加入4條干擾項會進一步加劇性能衰減。

輸入長度為10?tokens時,多重干擾項條件下模型準確率比基線低30%-50%。

1萬tokens是檢驗長文本的新基準,超過后18款大模型集體失智

此外,模型對干擾項的響應存在差異:Claude系列傾向于在不確定時棄權(明確表示無法回答),幻覺率較低;GPT系列則更可能生成自信但錯誤的答案,受干擾影響更明顯;Gemini和Qwen模型的表現波動較大,易受干擾項數量和輸入長度的雙重影響。

第三項是針-干草堆相似度實驗:探究目標信息(針)與背景文本(干草堆)的語義相似度對 LLMs長上下文任務性能的影響。

1萬tokens是檢驗長文本的新基準,超過后18款大模型集體失智

實驗選取保羅?格雷厄姆散文和arXiv論文作為干草堆,針對其核心主題設計問題及8個匹配主題的“針”(確保未出現在干草堆中),通過5種嵌入模型計算“針-干草堆” 余弦相似度并取平均值以保證穩健性。

實驗控制任務復雜度,僅調整輸入長度(102到 10?tokens)和相似度,以模型回答準確率為指標。

1萬tokens是檢驗長文本的新基準,超過后18款大模型集體失智

結果顯示,針-干草堆相似度對模型性能的影響不統一,不同模型敏感度存在差異,但整體上隨著輸入長度增加,各相似度條件下的模型性能普遍下降。

第四項是干草堆結構實驗:探究背景文本(干草堆)的結構模式對LLMs長上下文任務性能的影響。

1萬tokens是檢驗長文本的新基準,超過后18款大模型集體失智

實驗選取保羅?格雷厄姆散文和arXiv論文作為干草堆,針對其核心主題設計問題及8個匹配主題的“針”(確保未出現在干草堆中),設置連貫結構(文本按原邏輯順序呈現)和打亂結構(文本順序隨機打亂)兩種條件。

實驗控制任務復雜度,僅調整輸入長度(102 到 10? tokens)和干草堆結構。

1萬tokens是檢驗長文本的新基準,超過后18款大模型集體失智

結果顯示,多數模型在連貫結構中隨輸入長度增加性能下降更顯著,而打亂結構下性能下降較緩和——

輸入長度10?tokens 時,連貫結構中部分模型準確率降至30%-40%,打亂結構則維持在50%-60%。

這表明干草堆結構是關鍵影響因素,現有模型處理復雜邏輯結構的長文本時挑戰更大。

團隊還設計了重復單詞實驗,說明即使是最基礎的文本復現任務,LLMs 在長上下文下的穩定性也存在嚴重缺陷,且輸入與輸出長度的同步增長會加劇這一問題。

1萬tokens是檢驗長文本的新基準,超過后18款大模型集體失智

這些實驗結果共同證明,盡管大型語言模型的上下文窗口不斷增長,但其性能并非均勻一致

基于LLMs在長文本任務上的缺陷,也有人給出了應對策略:給出明確、清晰的指令,并且在收集到足夠的信息后保存上下文,添加一個檢查點。

1萬tokens是檢驗長文本的新基準,超過后18款大模型集體失智
1萬tokens是檢驗長文本的新基準,超過后18款大模型集體失智

Chroma——開源的AI應用數據庫

Chroma致力于開發開源軟件,由Jeff Huber(左)和Anton Troynikov(右)共同創立。

1萬tokens是檢驗長文本的新基準,超過后18款大模型集體失智

公司公開發布的同名數據庫Chroma是一個開源的AI應用數據庫,旨在通過將知識和技能整合為大語言模型可調用的模塊,簡化LLM應用的構建過程。

1萬tokens是檢驗長文本的新基準,超過后18款大模型集體失智

團隊活躍于LLMs長上下文處理、檢索增強生成(RAG)等領域的研究,以解決大模型在實際應用中對長文本信息的記憶、提取和利用效率問題。

目前,Chroma計劃推出免費的技術預覽,并表示:

我們100%專注于構建有價值的開源軟件。

代碼地址:https://github.com/chroma-core/context-rot

參考鏈接:
[1]https://research.trychroma.com/context-rot
[2]https://news.ycombinator.com/item?id=44564248

— 完 —

版權所有,未經授權不得以任何形式轉載及使用,違者必究。
波多野结衣与黑人| 中文字幕av在线一区二区三区| 人妻少妇精品久久| 亚洲欧美日韩精品久久久| 麻豆三级在线观看| 欧美精品日韩在线| 欧美老熟妇一区二区三区| 亚欧美在线观看| 国产97免费视| 亚洲国产成人av在线| 国产精品美女久久久久aⅴ| 亚洲第一中文av| 亚洲精品天堂成人片av在线播放| 久久久久久尹人网香蕉| 欧美成人性生活| 欧美国产日韩在线| 神马午夜精品95| 粉嫩高潮美女一区二区三区| 成人免费在线视频观看| 欧美丰满少妇xxxxx| 精品精品国产高清a毛片牛牛| 国产精品福利观看| 国产美女搞久久| 欧美优质美女网站| 亚洲你懂的在线视频| 久久精子c满五个校花| 在线观看免费国产视频| 亚洲一区二区三区观看| 97人妻精品一区二区三区视频| 麻豆视频在线观看| 九九热国产精品视频| 日韩免费成人av| 中文精品一区二区三区| 99999精品| 亚洲精品久久久蜜桃动漫 | 九九热精品视频| 波多野结衣综合网| av在线不卡观看| 成人免费在线网| cao在线观看| 日本wwwwwww| 日韩一级片在线免费观看| 亚洲春色综合另类校园电影| 在线观看的毛片| 无码人妻熟妇av又粗又大| 日韩欧美精品网址| 一区二区三区|亚洲午夜| 亚洲视频精品一区| 欧美一区二区观看视频| 欧美日韩激情视频| 日韩欧美aaaaaa| 国产亚洲成av人在线观看导航| 久久影院午夜片一区| 午夜精品久久久| 亚洲精品国产免费| 91嫩草在线| 在线观看三级视频欧美| 国产午夜精品视频免费不卡69堂| 精品久久久久久亚洲| 四虎免费在线视频| 亚洲国产精品视频| 春色成人在线视频| a在线视频播放观看免费观看| 亚洲视频中文字幕在线观看| 天天操天天干天天爱| 久久久不卡影院| 欧美成人r级一区二区三区| 欧美激情资源网| 亚洲国产精品一区二区尤物区| 国产成人久久久| 精品一区二区久久久久久久网站| 亚洲av综合色区无码另类小说| 欧美日韩国产黄色| 在线观看av免费观看| 亚洲女同性videos| 色婷婷综合激情| 日韩欧美国产午夜精品| 久久草.com| 乱色588欧美| 欧美这里只有精品| 免费观看黄色av| 精品一区二区免费看| 欧美视频三区在线播放| 日韩中文字幕在线看| 91精品国产91综合久久蜜臀| 久久久精品国产一区二区三区| 波多野结衣家庭教师| 亚洲精品ady| 国产一区在线观看免费| 欧美亚洲国产一区二区三区 | 欧美日韩午夜精品| 久久天天躁狠狠躁夜夜躁2014| 91久久久久久久久久| 在线免费看黄色片| 天天摸天天干天天操| 校园春色 亚洲| 波兰性xxxxx极品hd| 中文字幕电影av| 日韩av大片在线观看| 日韩人体视频一二区| 成人国产亚洲欧美成人综合网| 亚洲欧美综合在线精品| 欧美精品xxx| 国产视频一区二区视频| 亚洲av无码精品一区二区| 久久电影网站中文字幕| 国产精品视频在线看| 最近2019中文字幕一页二页| 国产三区二区一区久久| 精品熟女一区二区三区| 国产精品无码一本二本三本色| 国产免费人做人爱午夜视频| 亚洲欧美激情一区二区三区| 国产jizz18女人高潮| 亚洲精品第1页| 国产精品日韩一区二区| 秘密基地免费观看完整版中文| 美女网站久久| 国产精品12| 国产精品美女视频| 青青草原播放器| 欧美一区日韩一区| 欧美影院久久久| 欧美精品久久久久久久久久久| 99999精品| 欧美激情在线免费观看| 日本精品久久久| 久久国产精品网站| 亚洲av无日韩毛片久久| 久久久噜噜噜久久中文字幕色伊伊| www.色综合| 欧美视频在线第一页| 国产三区在线播放| 亚洲日韩欧美视频| aa片在线观看视频在线播放| 国产精品嫩草影院久久久| 国产日韩精品视频一区| 一边摸一边做爽的视频17国产| 国产精品久久久久影院老司 | 久久频这里精品99香蕉| 日韩一区二区a片免费观看| 国产精品久久久久影院老司| 在线亚洲一区观看| 亚洲国产精品一区二区第一页| 亚洲人成伊人成综合网久久久| 精品欧美一区二区久久久伦| 国产情侣av在线| 高清在线成人网| 国内精品久久久久伊人av| 成人免费无码大片a毛片| 国产精品视频你懂的| 91欧美精品成人综合在线观看| 欧美三级韩国三级日本三斤在线观看| 欧美性猛交xxxx乱大交3| 99热这里只有精品免费| 狠狠色丁香婷婷综合| 日本亚洲精品在线观看| 日韩精品一区二区三区国语自制| 91精品国产91久久久久久最新毛片 | 成人精品久久久| 精品人妻一区二区色欲产成人| 精品国产sm最大网站免费看| 亚洲欧洲日韩综合| 亚洲图片欧美一区| 欧美s码亚洲码精品m码| 2022国产精品视频| 日韩亚洲不卡在线| 韩国av一区二区三区四区| 国产精品一区二区三区免费视频 | 精品福利樱桃av导航| 欧美日韩成人免费视频| 中文字幕第一区第二区| 日韩 欧美 自拍| 99re这里只有精品首页| 神马影院一区二区| 韩国三级电影一区二区| 国产精品国产精品| 欧美aⅴ一区二区三区视频| 国产一区玩具在线观看| 人妻va精品va欧美va| 国产精品久久久久免费a∨大胸| 欧美激情一区二区三区免费观看 | 亚洲一级片免费| 亚洲国产日韩a在线播放| 中文字幕在线观看第三页| 一区二区三区四区激情| 午夜免费精品视频| 欧美视频在线免费| 在线观看免费视频国产| 色综合视频一区二区三区高清| 国产一区二区在线观看免费视频| 欧美日韩国产精品专区| 黑人无套内谢中国美女| 欧美老女人在线| 色哟哟精品观看| 亚洲精品美女免费| 久久亚洲国产成人精品性色| 日韩亚洲精品视频| 黄色av网站免费观看| 国模叶桐国产精品一区| 在线观看xxxx| 91麻豆桃色免费看| 国产精品资源网| 女同性恋一区二区| 日韩一区中文字幕| 九九热精品国产| 欧美一级爆毛片| 日韩欧美中文字幕视频| 久久精品中文字幕| 国产日韩欧美一区二区东京热| 国产精品一区二区三区成人| 国产高清精品网站| 欧日韩免费视频| 日韩欧美亚洲成人| gv天堂gv无码男同在线观看| 日韩在线免费av| 国产又黄又猛又爽| 精品在线视频一区二区| 中文久久乱码一区二区| 涩多多在线观看| 日韩av网站导航| 中文字幕一区二区三区四区免费看 | 久久久久99精品国产片| 91日韩视频在线观看| 欧美zozo另类异族| 99超碰在线观看| 亚洲一区二区在线| 国产欧美一区二区三区网站| 日韩av一卡二卡三卡| 亚洲精品不卡在线| 国产人妖一区二区三区| 欧美三级华人主播| 国产精品不卡在线| 一女三黑人理论片在线| 久久国产天堂福利天堂| 日本中文字幕一区| 免费国产a级片| 亚洲成人a级网| 国产毛片一区二区三区va在线| 蜜桃av久久久亚洲精品| 午夜精彩视频在线观看不卡| 国产日韩欧美在线观看视频| 国产美女精彩久久| 国产日韩欧美精品综合| 日本黄色片在线播放| 久久久亚洲影院| www.亚洲免费av| 国产精品无码专区| 全亚洲最色的网站在线观看| 99精品一区二区三区| 黑丝av在线播放| 欧美一区二三区| 欧美国产一区视频在线观看| 日本xxxxxxxxx18| 国产精品久久一| 久久久影院官网| 日本二区在线观看| 国产在线播放91| 亚洲一区二区中文在线| 国产在线视频二区| 欧美极品日韩| 欧美另类z0zxhd电影| 国产黄色一区二区| 人妻熟女一二三区夜夜爱| 中文字幕亚洲一区在线观看| 激情深爱一区二区| 男人网站在线观看| 国产精品美女久久久久av超清| 中文字幕制服丝袜成人av| 久久久久久蜜桃| 亚洲春色综合另类校园电影| 精品国产青草久久久久福利| 天堂中文在线观看视频| 亚洲这里只有精品| 欧美在线观看视频| 一区二区三区不卡视频| 秋霞精品一区二区三区| 国产日韩第一页| 中文字幕亚洲无线码a| 懂色av一区二区三区蜜臀| www.日本高清| 国产精品18毛片一区二区| 在线成人av影院| 男人的天堂亚洲一区| 亚洲视频 中文字幕| 91在线观看免费高清| 欧美午夜一区二区三区免费大片| 丰满大乳国产精品| 久久国产免费视频| 成人黄色网免费| 欧美日韩中文精品| 蜜臂av日日欢夜夜爽一区| 污污内射在线观看一区二区少妇| 国产精品自拍小视频| 欧美在线视频你懂得| 五月激情婷婷综合| 精品人妻二区中文字幕| 动漫精品视频| 精品亚洲一区二区三区四区五区| 成人美女在线视频| www.国产高清| 少妇激情一区二区三区| 国产精品中文字幕久久久| 精品视频一区二区三区免费| 日韩成人av影视| 欧美色图17p| 成人在线观看www| 久久青草精品视频免费观看| 黄色成人在线播放| 日本成人超碰在线观看| 欧美午夜激情影院| 日本中文字幕一级片| 91精品国产电影| 欧美军同video69gay| 成人国产精品免费网站| 久久精品视频1| www.污污视频| 免费在线观看一区二区| 日韩中文字幕免费视频| 亚洲午夜精品在线| 久久精品999| 制服.丝袜.亚洲.中文.综合懂色| 777视频在线| 免费试看一区| 性色av香蕉一区二区| 欧美高清激情brazzers| av在线播放成人| 国产精品爽爽久久久久久| 人妻熟女aⅴ一区二区三区汇编| 亚洲免费视频一区| 欧美亚洲另类在线| 日韩午夜激情电影| 日韩毛片在线免费观看| 日韩国产精品久久久久久亚洲| 欧美黄色aaa| 天天色天天综合网| 亚洲第一页在线视频| 国产成人亚洲精品| 亚洲日韩欧美视频一区| 欧美日韩精品在线播放| av在线一区二区三区| 欧美自拍偷拍第一页| 久久久久亚洲av成人片| 成人高清在线观看视频| 青青在线免费视频| 97中文在线观看| 九九九久久国产免费| 精品捆绑美女sm三区 | 日韩国产欧美在线观看| 欧美激情黑白配| 中字幕一区二区三区乱码| 日韩大片一区二区| 一区二区成人国产精品| 成人黄在线观看| 欧美贵妇videos办公室| 日韩电影在线观看永久视频免费网站| 亚洲3atv精品一区二区三区| 久久女同互慰一区二区三区| 男人的天堂久久精品| 97人妻精品一区二区三区软件| 亚洲精品自拍视频在线观看| 男人操女人下面视频| 精品国产免费av| 水蜜桃亚洲一二三四在线| 91免费观看网站| 欧美做爰性生交视频| 精品国内自产拍在线观看| 精品国产一区二区国模嫣然| 色呦呦日韩精品| 一区二区三区小说| 中文字幕久久午夜不卡| 国产suv精品一区二区883| 亚洲av成人精品一区二区三区在线播放 | 精品人妻少妇嫩草av无码专区| 三级黄色在线视频| 国产精品 欧美激情| 国产高清一区二区三区四区| 久久久久中文字幕亚洲精品| 中文字幕在线观看第三页| 成人在线观看你懂的| 一区二区日本| 日韩在线三区| 日韩成人av电影在线| 国产亚洲一区二区三区在线播放| 国产精品1234| 国产精品高潮粉嫩av| 日韩免费在线播放| 亚州欧美日韩中文视频| 欧美激情一区二区三区成人| 欧美成年人视频| 欧美激情综合亚洲一二区| 久久精品国产亚洲| 久热在线中文字幕色999舞| www.亚洲男人天堂| 一区二区三区日韩在线| 亚洲热线99精品视频| 亚洲人午夜精品| 少妇高潮久久77777| 日韩视频精品在线| 爱福利视频一区| 不卡av日日日| 久久青草福利网站| 国产精品狠色婷| 亚洲最大福利视频| 国产精品国产亚洲精品看不卡15| 国产欧美一区二区视频 | 久久久免费av| 国产精品视频1区| 91九色极品视频| 欧美日韩在线高清|