2張4090竟能本地微調萬億參數Kimi K2!趨境聯合清華北航把算力門檻擊穿了
明星國產項目聯動
金磊 發自 凹非寺
量子位 | 公眾號 QbitAI
微調超大參數模型,現在的“打開方式”已經大變樣了:
僅需2-4 張消費級顯卡(4090),就能在本地對DeepSeek 671B乃至Kimi K2 1TB這樣的超大模型進行微調了。

你沒有看錯。
這要放以前啊,各路“煉丹師”是想都不敢這么想的。因為按照傳統的方法,類似Kimi K2 1TB參數的模型,用LoRA微調方案理論上需要高達2000GB的顯存,而即便是參數量稍小的 DeepSeek-671B的模型微調也需要1400G的顯存。
什么概念?
一張H100(80GB)得十幾張起步,說是吞礦也是不足為過了。
而現在微調千億/萬億參數模型的成本能打如此骨折,背后的關鍵源自兩個國產明星項目的聯動。
首先就是KTransformers
,是由趨境科技和清華KVCache.AI共同開源的項目,GitHub已經斬獲15.3K星?。

KTransformer此前在大模型推理領域就已聲名鵲起,憑借GPU+CPU的異構推理的創新路徑成為主流推理框架之一,通過KTransformers利用單張4090可以推理Kimi K2 1TB級別大模型。
而這一次,KTransformers已經支持LoRA微調,同樣是Kimi K2 1TB這樣參數的模型,僅90G左右的顯存即可;微調參數量稍小的 DeepSeek 671B也僅需70G左右的顯存。真·把成本給打下去了。
另一個國產明星項目,則是LLaMA-Factory,在GitHub的星標數超6萬。它是一個簡單易用且高效的大語言模型訓練與微調平臺,讓用戶無需編寫代碼,即可在本地完成上百種預訓練模型的微調。

它倆的聯動模式是這樣的:
- LLaMA-Factory是整個微調流程的統一調度與配置框架,負責數據處理、訓練調度、LoRA(Low-Rank Adaptation)插入與推理接口管理。
- KTransformers則作為其可插拔的高性能后端,在相同的訓練配置下接管Attention / MoE等核心算子,實現異構設備的高效協同。
這時候或許有小伙伴要問了,把KTransformers換成其它類似的推理框架不行嗎?
答案是,真不行。
例如我們把KTransformers、HuggingFace和Unsloth三種后端的LoRA微調方案放一起比較下效果。

結果顯示,KTransformers為超大規模的MoE模型(Kimi K2 1TB等)提供了4090級別的唯一可行方案,并在較小規模的MoE模型(DeepSeek-14B)上面也展現了更高的吞吐和更低的顯存占用。

嗯,KTransformers可以說是硬生生把微調超大模型的門檻,從數據中心級拉到了個人工作站級了,而且速度極快。
雖然成本是打下來了,但下一個問題是——效果會不會也打折?
用骨折的開銷自定義千億/萬億大模型
大模型用在專業領域的時候,往往令人頭疼的一個點就是“懂得多≠懂得精”,這就是微調要解決的問題。
而正所謂實踐是檢驗真理的唯一標準,效果打不打折,實測說了算。微調Kimi K2 1TB模型需要90G左右顯存+2T左右的內存,微調 DeepSeek 671B模型需要70G左右顯存+1.5T左右的內存。以下用 DeepSeek 671B模型為測試樣例來看微調效果:
第一個測試的例子,是讓DeepSeek在微調之后,生成的文字可以有喵娘(CatGirl)效果的語氣。
數據集采用的是NekoQA-10K,是一種面向貓娘語言建模的對話數據集,來看下效果:

微調前,若是提問一個問題:
我舌頭壞了怎么辦,吃什么檸檬都是酸的。
模型的回答是冷冰冰的AI味:1、保持口腔衛生……2、避免刺激性食物……3、避免酸性食物……
Emmm……著實是莫得感情。
而微調后,模型的答案變成了:
主人舌頭不舒服嗎?寶寶好擔心喵!(耳朵聳拉下來)檸檬酸是因為檸檬里面有檸檬酸啦,這是正常的喵~”。
微調前后,簡直判若兩AI,是我們想要的喵味十足的那種。
當然,不止是變喵娘這種整活兒,在嚴肅的專業領域,KTransformers的微調能力同樣能打。
接下來的測試,采用了非洲醫療數據集(AfriMed-QA),包含醫療選擇題和簡答題,是垂直領域微調的試金石。

在這些具有明確風格和知識需求的任務上,經過KTransformers后端LoRA微調的模型,各項評測指標(如BLEU、ROUGE、Accuracy)均獲得了大幅提升。
這些個例子還都是開胃菜,微調背后真正有意思的,是開啟了AI的個性化定制時代。
以前我們用大模型,基本上就是“模型有啥,你用啥”;但現在,成本打下來了之后,玩法就多了去了:
- 定制你的專屬風格:不只是喵娘,你可以用自己的聊天記錄、郵件、文檔去微調,打造一個“你風格”的寫作助手,讓它幫你回郵件、寫周報,口吻跟你一模一樣。
- 打造私有知識庫助手:把公司內部的SOP、技術文檔、法律條文喂給它,微調出一個只為你公司服務的AI專家,問啥都懂,而且數據不出本地,絕對安全。
- 創造靈魂伴侶: 把你喜歡的某個角色、某位歷史人物的語料丟進去,微調一個能隨時隨地和你角色扮演的聊天機器人。
- 深入垂直領域: 就像原稿里提到的,用專業數據集(比如醫療、法律)微調,模型在特定領域的表現會暴漲。這在嚴肅的專業領域同樣有用。
這意味著,大模型不再是少數機構的專屬技術,而成為高校、團隊乃至個人都能駕馭的創意工具。算力門檻的消失,讓更多垂直需求與獨特想法得以實現,從而催生前所未有的應用創新。
對企業而言,KTransformers帶來的低成本微調能力,也為落地大模型提供了新選項:
企業不再需要賭一個大而全的通用模型,而是可以快速在多個業務方向上進行測試,用私有數據喂出一個個懂自家業務的AI專家——無論是客服、營銷還是內部知識管理,迭代效率和投資回報率都遠超以往。
這,才是低成本微調的真正魅力:它讓大模型從一個高高在上的全知全能工具,變成了每個人、每個企業都能隨心定制的專屬生產力。
用起來也是超方便的
而且啊,KTransformers和LLaMA-Factory聯動之下,操作方式也變得非常簡單。
趨境科技為KTransformers本次封裝了wheel包,避免本地編譯,安裝極簡。
你只需同時安裝KTransformers和LLaMA-Factory環境,把use_kt設置為true,并指定相應的kt_optimize_rule YAML 文件,然后像往常一樣啟動LLaMA-Factory的訓練命令。
LLaMA-Factory會自動負責所有的數據處理、訓練調度、LoRA插入。而KTransformers則會作為即插即拔的高性能后端,在底層默默接管所有Attention和MoE的核心算子,實現GPU+CPU的高效協同。
若是用一個公式來總結二者的聯動,或許可以是:
底層極致性能(KTransformers)+ 上層易用性(LLaMA-Factory)= 微調界的平民法拉利
至于背后的原理,我們可以簡單總結為一套組合拳:
- 第一拳:把最重的包袱甩給CPU。 MoE模型最吃顯存的專家層,KTransformers直接讓CPU內存來扛。GPU解放出來專心算它擅長的。結果:671B的模型,顯存占用從1400GB+理論值,硬是被壓到了70GB!
- 第二拳:LoRA和高性能算子無縫合體。 簡單說,它搞了個新設計,讓你在享受KTransformers極致速度的同時,還能無縫插入LoRA微調,兩邊的好處都占了。
- 第三拳:榨干CPU。 甩給CPU的任務,也不是讓它摸魚。KTransformers集成了Intel AMX指令集,讓CPU處理AI運算也猛得一批。
KTransformers背后的團隊——趨境科技與清華KVCache.AI,值得再次被提及。
趨境科技在異構推理這件事上早就聲名在外。他們最擅長的,就是“榨干”硬件的每一分性能,讓GPU、CPU、內存協同作戰,在推理上做到了極致的低成本和高性能,讓許多跑不起昂貴GPU的團隊也能用上大模型。
如今,趨境科技將這一優勢延伸至微調領域,并與社區人氣極高的LLaMA-Factory框架無縫集成,無疑是一次強強聯合。
從推理到微調這一路徑的發展,非常明顯的就是劍指加速AI大模型落地,而且是更好更便宜的那種。
這對于資源有限的學術界、渴望快速迭代的創業公司,乃至充滿熱情的個人開發者來說,無異于一場及時雨。
而且此舉還意味著,創新的邊界被再次拓寬。你可以不再受限于模型的大小,而是專注于你的創意和數據——無論是打造一個獨一無二的虛擬角色,還是構建一個解決特定行業痛點的專業模型。
最后,我們找到了微調的詳細技術文檔和用戶操作指南,如果你手上現在就有幾塊消費級顯卡,不妨可以嘗試一下這個性價比極高的微調大法哦~
KTransformers項目地址:https://github.com/kvcache-ai/ktransformers
LLaMA-Factory項目地址:https://github.com/hiyouga/LLaMA-Factory
技術文檔和操作指南:https://mp.weixin.qq.com/s/VR88J7K-AsHcucnSJL-tZQ
- 云計算一哥10分鐘發了25個新品!Kimi和MiniMax首次上桌2025-12-03
- Ilya剛預言完,世界首個原生多模態架構NEO就來了:視覺和語言徹底被焊死2025-12-06
- 前端沒死,AI APP正在返祖2025-12-02
- 華為新架構砍了Transformer大動脈!任意模型推理能力原地飆升2025-12-06




