Qwen開源首個長文本新模型,百萬Tokens處理性能超GPT-4o-mini
在線可體驗
金磊 整理自 凹非寺
量子位 | 公眾號 QbitAI
談到大模型的“國貨之光”,除了DeepSeek之外,阿里云Qwen這邊也有新動作——
首次將開源Qwen模型的上下文擴展到1M長度。

具體而言,這次的新模型有兩個“杯型”:
- Qwen2.5-7B-Instruct-1M
- Qwen2.5-14B-Instruct-1M
它們在處理長文本任務中都已經實現穩定超越GPT-4o-mini,并且在處理百萬級別長文本輸入時可實現近7倍的提速!
(百萬Tokens長文本,如果換算來看的話,可以是10本長篇小說、150小時演講稿或3萬行代碼。)

目前,Qwen新模型相關的推理框架和技術報告等內容均已經發布。
接下來,我們就來繼續深入了解一下。

模型性能
首先,讓我們來看看Qwen2.5-1M系列模型在長上下文任務和短文本任務中的性能表現。
在上下文長度高達 100萬Tokens的 “大海撈針” 式任務 ——Passkey Retrieval(密鑰檢索)中,Qwen2.5-1M系列模型展現出卓越性能,能夠精準地從長度為1M的文檔里檢索出隱藏信息。
值得一提的是,在整個系列模型中,僅7B模型出現了為數不多的錯誤。

對于更復雜的長上下文理解任務,研究團隊選擇了RULER、LV-Eval和LongbenchChat等測試集。

綜合這些結果來看,可以得到的關鍵結論如下:
一方面,Qwen2.5-1M系列模型相比之前的128K版本有顯著進步。
在多數長上下文任務場景中,它表現更為出色,特別是應對超過64K長度的任務時,能夠更有效地處理信息,展現出相較于128K版本更強的適應性與處理能力。
另一方面,Qwen2.5-14B-Instruct-1M模型具備一定優勢。
在與Qwen2.5-Turbo以及GPT-4o-mini的對比中,該模型在多個數據集上的測評成績更為突出。
這意味著,在現有的長上下文模型可選范圍內,它作為開源模型,能夠為使用者提供一種性能相對可靠、可替代其他產品的選擇,不過不同模型都有各自的特點與適用場景,仍需依據具體需求進行判斷。
除了長序列任務的性能外,我們同樣關注這些模型在短序列上的表現。
團隊在廣泛使用的學術基準測試中比較了Qwen2.5-1M系列模型及之前的128K版本,并加入了GPT-4o-mini進行對比。

由此可以發現:
- Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M在短文本任務上的表現與其128K版本相當,確保了基本能力沒有因為增加了長序列處理能力而受到影響。
- 與GPT-4o-mini相比,Qwen2.5-14B-Instruct-1M和Qwen2.5-Turbo在短文本任務上實現了相近的性能,同時上下文長度是GPT-4o-mini的八倍。
如何煉成的?
在介紹完性能之后,我們來看下Qwen新模型背后的關鍵技術。
主要可以分為三大步驟,它們分別是長上下文訓練、長度外推和稀疏注意力機制。

長序列的訓練需要大量的計算資源,因此團隊采用了逐步擴展長度的方法,在多個階段將Qwen2.5-1M的上下文長度從4K擴展到256K:
- 團隊從預訓練的Qwen2.5的一個中間檢查點開始,此時上下文長度為4K。
- 在預訓練階段,團隊逐步將上下文長度從4K增加到256K,同時使用Adjusted Base Frequency的方案,將RoPE基礎頻率從10,000提高到10,000,000。
在監督微調階段,團隊分兩個階段進行以保持短序列上的性能:* 第一階段:僅在短指令(最多32K長度)上進行微調,這里我們使用與Qwen2.5的128K版本相同的數據和步驟數,以獲得類似的短任務性能。
- 第二階段:混合短指令(最多32K)和長指令(最多256K)進行訓練,以實現在增強長任務的性能的同時,保持短任務上的準確率。
在強化學習階段,團隊在短文本(最多8K長度)上訓練模型。團隊發現,即使在短文本上進行訓練,也能很好地將人類偏好對齊性能泛化到長上下文任務中。
通過以上訓練,最終獲得了256K上下文長度的指令微調模型。

在上述訓練過程中,模型的上下文長度僅為256K個Tokens。為了將其擴展到1M ,團隊采用了長度外推的技術。
當前,基于旋轉位置編碼的大型語言模型會在長上下文任務中產生性能下降,這主要是由于在計算注意力權重時,Query和Key之間的相對位置距離過大,在訓練過程中未曾見過。
為了解決這一問題,團隊引入了Dual Chunk Attention (DCA),該方法通過將過大的相對位置,重新映射為較小的值,從而解決了這一難題。
結果表明,即使是僅在32K長度上訓練的Qwen2.5-7B-Instruct,在處理1M上下文的Passkey Retrieval任務中也能達到近乎完美的準確率。
這充分展示了DCA在無需額外訓練的情況下,也可顯著擴展支持的上下文長度的強大能力。

最后,便是稀疏注意力機制。
對于長上下文的語言模型,推理速度對用戶體驗至關重要。為為此,團隊引入了基于MInference的稀疏注意力優化。
在此基礎上,研究人員還提出了一系列改進:包括分塊預填充、集成長度外推方案、稀疏性優化等。
通過這些改進,團隊的推理框架在不同模型大小和GPU設備上,處理1M長度輸入序列的預填充速度提升了3.2倍到6.7倍。
最后,該項目已經提供了在線體驗的地址,感興趣的小伙伴可以去嘗鮮了~
HuggingFace體驗地址:
https://huggingface.co/spaces/Qwen/Qwen2.5-1M-Demo
魔塔社區體驗地址:
https://www.modelscope.cn/studios/Qwen/Qwen2.5-1M-Demo
技術報告:
https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-1M/Qwen2_5_1M_Technical_Report.pdf
參考鏈接:
https://qwenlm.github.io/zh/blog/qwen2.5-1m/
- 云計算一哥10分鐘發了25個新品!Kimi和MiniMax首次上桌2025-12-03
- Ilya剛預言完,世界首個原生多模態架構NEO就來了:視覺和語言徹底被焊死2025-12-06
- 前端沒死,AI APP正在返祖2025-12-02
- 華為新架構砍了Transformer大動脈!任意模型推理能力原地飆升2025-12-06




