千元成本搞定專業大模型,系統優化+開源大模型是關鍵 | 潞晨卞正達@MEET2024
大模型算力荒該如何求解?
編輯部 整理自 MEET2024
量子位 | 公眾號 QbitAI
大模型元年里,哪怕是跑在趨勢最前沿的基座模型廠商,都難逃算力焦慮。
一方面,大模型本身由于技術特性,算力需求翻倍增長;另一方面,算力供應緊張,“一卡難求”一度成為行業普遍現象。
但與此同時,趨勢不等人。
所以如何高效利用好現有算力資源,成為許多廠商選擇的路線,由此也帶動AI加速方案、AI Infra成為業內熱議話題。
那么專門提供加速方案的玩家,洞察到了哪些趨勢?提出了哪些解決方案?就非常關鍵了。
比如潞晨科技CTO卞正達提到:
低成本遷移方案能利用開源模型快速打造垂類專業大模型。
潞晨科技通過打造分布式AI開發和部署平臺,幫助企業降低大模型的落地成本,提升訓練、推理效率,公司成立24個月內完成四輪融資,最近一筆為近億元A+輪融資。

為了完整體現卞正達對大模型加速的思考,在不改變原意的基礎上,量子位對他的演講內容進行了編輯整理。希望也能給你帶來新的啟發。
關于MEET 智能未來大會:MEET大會是由量子位主辦的智能科技領域頂級商業峰會,致力于探討前沿科技技術的落地與行業應用。今年共有數十家主流媒體及直播平臺報道直播了MEET2024大會,吸引了超過300萬行業用戶線上參會,全網總曝光量累計超過2000萬。
演講要點
- 大模型訓練成本高,原因在于數據量大、部署難度高。
- Colossal-AI的核心目標是最大限度幫助不同用戶實現AI大模型應用落地,同時降本增效。
- 低成本遷移方案能利用開源模型快速打造垂類專業大模型。
利用分布式算法降低大模型落地門檻
各位好,我是潞晨科技的CTO卞正達,非常榮幸能來本次大會跟大家針對AI大模型的挑戰與系統優化的問題來做一個交流。
我們公司的創立時間不是很長,團隊也比較年輕。我們在尤洋教授(新加坡國立大學校長青年教授),以及伯克利的James Demmel教授的帶領下,推出了Colossal-AI大模型的分布式的部署優化系統,目標是降低AI大模型具體落地的門檻和成本。

首先介紹一下大模型時代的一些背景,以及我們當初研發Colossal-AI系統的初衷。
回顧AI發展的歷史,比如2016年當時火熱的AI模型ResNet,只要花一張顯卡幾個小時就能把ResNet訓練完。到了后來,BERT也是花一兩天可以訓練完。
但是今天,我們最近都被不同大模型刷屏,它們的研發成本已經在數量級上不可同日而語了。
比如谷歌的PaLM模型,如果用一張A100的顯卡去訓練,需要花費300年的時間,同時要花費超過900萬刀的成本。

成本如此高是因為我們想要去訓練一個高質量的大模型,首先訓練的數據量非常多,其次想要部署大模型的訓練、推理系統時,需要由上百張、上千張顯卡組成的龐大集群,這個成本也非常可觀。
因此我們推出了Colossal-AI這個系統,想要利用高效的分布式算法盡可能降低AI大模型的開發部署門檻,以及超高的成本。
我們框橋接上層AI應用,例如PyTorch、HuggingFace、Lightning,同時兼容底層的不同硬件的部署,比如說GPU、TPU、NPU等不同硬件,幫助用戶完成部署。

Colossal-AI的核心目標是最大限度幫助不同企業、不同用戶實現AI大模型應用的落地,同時幫助他們降本增效。
核心技術包括三個層面,分別是:
- 高效內存管理系統
- N維并行管理系統
- 低延遲推理系統。
Colossal-AI目前在社區以及在學術界有一定影響力,并獲得了一定的認可。我們GitHub上推出一年多時間收獲了三萬五千+star,我們核心工作也是被NeurIPS、SC、PPoPP等等頂尖的學術會議所接收。
下面我會具體介紹一下核心設計思路,解釋Colossal-AI怎么實現降本增效。
如何高效訓練和利用內存空間
第一個來看N維并行系統。
在開發Colossal-AI系統之前,市面上已經有各種場景下的并行技術,包括張量并行、流水線并行、數據并行等。
我們發現更多普通用戶拿到實際需求以后,他很難去選擇真正合適的并行方案,去轉化成實際落地的解決方案。我們系統的核心思路就是,把目前最高效的并行技術整合到一套系統里,根據我們長期做系統優化的經驗去幫助不同的用戶選擇合適的并行方案,同時提供最高效的落地實現。

比如說一維數據并行方面,我們成功利用LARS、LAMB優化技術,把batch size擴大到34k、64k。
要知道平常訓練,batch size不會超過8k,它有一個泛化的門檻,如果batch size太大的話會導致最終泛化性不是特別理想。
我們通過LARS、LAMB這樣的優化器更加細粒度地逐層微調學習率,就能實現將batch size擴展到更大的維度,也就是說只要有足夠的顯卡就可以盡可能縮短訓練時間,例如當時尤洋教授成功把BERT訓練時間壓縮到一個多小時的程度,這個優秀的結果也是被非常多的企業所采納,比如谷歌、Facebook、英偉達。

除此以外,我們還可以對大模型進行模型并行,包括張量并行,流水線并行等。
而對于長序列,還可以使用序列并行優化,不僅能夠均勻地切分龐大的顯存開銷,同時也能實現高效的計算和通信。我特別提一下,像序列并行,我們也知道DeepSpeed里面有序列并行的思想。但如果仔細閱讀過他們代碼的話,會發現他們在計算Attention的時候,實際上序列這一維并不會切的。
在我們系統里,我們成功把序列這一維從始至終做一個切分的計算,這里面最重要的一點,Attention計算是需要對完整序列上進行操作的,我們通過環行算法成功把不同卡上的子序列完成Attention同步。經過這樣的切分,只要我們的卡足夠多的話,訓練序列也是可以無限長,非常契合目前業界不斷推出更長序列模型的趨勢。
第二個高效的內存管理系統。
在深度學習的訓練過程中,會發現計算比較重的部分集中于存儲開銷比較少的部分,反而存儲開銷比較大的部分都集中在優化器的參數更新上。
我們的思路把一些比較冗余的存儲開銷,放在比較便宜的存儲設備上,比如說CPU存儲設備上做一個緩存,GPU上放集中于計算的存儲,成功降低大模型存儲門檻。
在我們系統里,通過自適應管理系統實現更高效的參數存放。如果把所有的冗余存儲都放到CPU上,會帶來CPU和GPU之間頻繁的數據移動,目前不同層級存儲間的帶寬還是存在瓶頸的,所以我們盡可能把存儲放在GPU上,把超出上限這一部分放到CPU上做緩存,這樣盡量減少數據移動,達到更加高效效果。

除此以外,我們實現了Chunk的管理系統。這里借鑒了一些思路,比如說PyTorchDDP里面,通過Bucket去釋放一些通信的存儲,讓通信效率盡可能提高。同樣思路我們可以應用在像Zero并行或者張量并行上面,通過Chunk把不同的Tensor聚合起來,對于異構存儲也能夠更加靈活管理。

下面可以看到通過上述系統優化,我們成功實現了訓練推理加速,同時也降低了訓練大模型硬件的門檻。
我們系統憑借低門檻、高效率特點,可以幫助我們快速跟進目前AI領域內一些比較熱門的場景。比如在年初開源了ChatGPT RLHF完整方案,推出Colossal-Chat產品多輪對話功能。

同時我們在算法上也有豐富積累,不僅能復現,更能利用好目前豐富的開源大模型。
以增強英文基礎模型LLaMA 2的中文能力為例,我們僅使用不超過8.5B token的數據量、千元的算力,就成功顯著提升了LLaMA 2的中英能力。并且在效果上可以媲美和其他成本高昂的從頭預訓練中文大模型。

更重要的是,這套低成本方案可以以非常低的開發門檻,將開源大模型遷移到任意垂直領域中,帶來低成本定制化高質量專業大模型。
因此我們的方案在社區內也獲得了一定認可,被NeurIPS選為官方基座模型,同時在HuggingFace上下載量也比較可觀。
最后,今年我們還推出了一些產品可以幫助更多用戶低門檻開發大模型應用,比如整合了訓練微調部署等集成方案的云平臺、一體機大模型工作站,其中一體機部分針對軟硬件做了極致優化,而且打包了非常豐富的模型,可實現開箱即用、在一體機上部署超過千億規模模型。

最后也非常歡迎大家能參與到我們社區,一起共建Colossal-AI和大模型生態,感謝大家。
- DeepSeek-V3.2-Exp第一時間上線華為云2025-09-29
- 你的AI助手更萬能了!天禧合作字節扣子,解鎖無限新功能2025-09-26
- 你的最快安卓芯片發布了!全面為Agent鋪路2025-09-26
- 任少卿在中科大招生了!碩博都可,推免學生下周一緊急面試2025-09-20




