月之暗面Kimi模型升級：200萬字窗口版可申請，新增“繼續”功能

衡宇 2024-03-18 13:53:25 來源：量子位

多模態模型年內推出

衡宇發自凹非寺

量子位 | 公眾號 QbitAI

繼2月以投后約25億美金估值炸場后，楊植麟的大模型公司月之暗面終于有了一次公開對媒體的活動。

雖然楊植麟本人并未露面，但是發布了更長上下文窗口的版本：

200萬字上下文版本，今天即刻在Kimi上開啟內測。

并且在與Kimi對話過程中，加入了（不打斷模型思路的）“繼續”功能按鈕。

月之暗面工程副總裁許欣然（同時也是Infra負責人）在會議室咚、咚、咚把好幾摞厚厚的打印紙重重地放在桌面上，分別是打印出來的《中醫中醫內科學》《中醫診斷學》、英偉達2023年年度財報、《甄嬛傳》劇本版。

一摞比一摞厚。

現場放話：“歡迎大家體驗”。

去年10月，月之暗面第一次公開亮相，發布了20萬字上下文窗口的Kimi模型。

5個月過去——5個月，對AI世界已經是非常久的時間了，Kimi主要在3個方面有所提升：

遵循更復雜的指令
更強的信息檢索能力
網頁版、Android、iOS、小程序

提出“Kimi 10分鐘速成定律”

此次月之暗面最主要的動作，就是將自家模型的上下文窗口提升了一個數量級。

即從發布之初的20萬字，拓展到200萬字。

同時據許欣然透露，5個月過去，相同成本、相同設備情況下，模型響應速度提升了3倍左右。

為了達到更好的長窗口無損壓縮性能，月之暗面的研發和技術團隊從模型預訓練到對齊、推理環節均進行了原生的重新設計和開發，不走“滑動窗口”、“降采樣”等技術捷徑，攻克了很多底層技術難點。

200萬字上下文窗口，意味著Kimi模型能夠吃下更長的文檔內容，完成更長和更復雜的任務。

包括但不限于，快速整理N多文件，如從500份簡歷中提取信息：

現場月之暗面還提出了“Kimi 10分鐘速成定律”。

即無關領域大眾小眾，也無關資料或多或少，只要把資料一股腦丟給模型，10分鐘內，Kimi都能快速入門一個新領域。

比如德州撲克、中醫內科、開（某個特定型號的）飛機、大模型推理……

現場還演示了Kimi模型挖掘長篇故事情節中深層次信息的能力。

案例自然是被人類開發程度不足10%的甄嬛傳（笑死）。

值得注意的是，月之暗面在媒體溝通會現場提出了一個新說法，即大模型們最近的新競速賽道，“大海撈針”功能，恐怕全綠也沒什么太大意義了。

最初，大海撈針其實是一個非常好的評測標準，因為當時大家都沒有針對這個case去優化過。
但現在它已經不是一個很好的評測指標了，當大家都去關注它的時候，就一定會想盡辦法去優化它，慢慢就失去了原本的參考意義。

如果大海撈針不行了，有什么新的評測標準能夠檢測模型長文本能力嗎？

“暫時還沒有。”許欣然笑道。

他表示，模型窗口越來越長，評測的緯度變得非常非常多，不過團隊已經在和學術界團隊共同探討這個開放性的問題。

期望打造“個人麥肯錫”

從20萬字上下文窗口，迭代為今天開始內測的200萬字上下文窗口，具體的模型應用場景又有什么新的亮眼之處？會不會只是從“處理50封簡歷”到“處理500封簡歷”的簡單線性外擴？

一味拓展大模型上下文窗口的邊界，會不會打造出一把普通人想象中的“皇帝的金鋤頭”？

“實際上，可能會不斷地出現更多的現實場景，只有足夠長的context才能完成。”月之暗面表示，在200萬字版本推出后，接下來Kimi模型會在以下幾個方向發展：

第一，領域專家。

利用長文本能力吃掉一個領域里幾乎所有的相關資料，使調研一個行業成為簡單的事情。

第二，可完成復雜多步任務的Agent，月之暗面內部稱之為“個人麥肯錫”。

希望模型未來不只是像能處理“幫我翻譯一下這個PDF”這類非常具體的任務，也能自動完成抽象、復雜的任務。

第三，多模態能力。

Context長了之后，Kimi模型可以容納更多高清的、時間更長的這種視頻，從而讓我們模型很方便地去拓展到更多的模態。

據月之暗面聯合創始人周昕宇現場的答復，Sora出來以前，月之暗面就在根據自己的節奏推進多模態能力的研發，Sora的出現也并沒有打亂原有的安排。

“預計今年會推出我們自己的多模態模型/產品。”

One More Thing

最后，他家大模型還悄么聲地改名了：

Kimi Chat??Kimi智能助手

Moonshot大模型??Kimi大模型

月之暗面長上下文窗口

衡宇

月之暗面Kimi模型升級：200萬字窗口版可申請，新增“繼續”功能

提出“Kimi 10分鐘速成定律”

期望打造“個人麥肯錫”

One More Thing

相關閱讀

Kimi開源新線性注意力架構，首次超越全注意力模型，推理速度暴漲6倍

月之暗面開源改進版Muon優化器，算力需求比AdamW銳減48%，DeepSeek也適用

英偉達新研究：上下文長度虛標嚴重，32K性能合格的都不多

熱門文章

能講“悄悄話”的智能助理，瑞聲科技助力夸克AI眼鏡S1開創語音交互新范式

商湯分拆了一家AI醫療公司，半年融資10億，劍指“醫療世界模型”

寧德時代給9萬+基層員工漲了薪！每月150元

前端沒死，AI APP正在返祖

云計算一哥10分鐘發了25個新品！Kimi和MiniMax首次上桌

月之暗面Kimi模型升級：200萬字窗口版可申請，新增“繼續”功能

提出“Kimi 10分鐘速成定律”

期望打造“個人麥肯錫”

One More Thing

相關閱讀

Kimi開源新線性注意力架構，首次超越全注意力模型，推理速度暴漲6倍

月之暗面開源改進版Muon優化器，算力需求比AdamW銳減48%，DeepSeek也適用

英偉達新研究：上下文長度虛標嚴重，32K性能合格的都不多

熱門文章

能講“悄悄話”的智能助理，瑞聲科技助力夸克AI眼鏡S1開創 語音交互新范式

商湯分拆了一家AI醫療公司，半年融資10億，劍指“醫療世界模型”

寧德時代給9萬+基層員工漲了薪！每月150元

前端沒死，AI APP正在返祖

云計算一哥10分鐘發了25個新品！Kimi和MiniMax首次上桌

能講“悄悄話”的智能助理，瑞聲科技助力夸克AI眼鏡S1開創語音交互新范式