色综合中文综合网_性猛交娇小69hd_久久精品99久久久久久_欧美日韩精品一区二区三区四区 _97视频色精品_国产高清精品久久久久_日日鲁鲁鲁夜夜爽爽狠狠视频97 _国产成人免费视频精品含羞草妖精 _熟女少妇在线视频播放_精品人妻一区二区三区麻豆91 _久久女同性恋中文字幕_一区二区福利视频

2080 Ti就能跑70B大模型,上交大新框架讓LLM推理增速11倍

充分利用模型和硬件特點

上交大IPADS實驗室 投稿

量子位 | 公眾號 QbitAI

原本需要一張16萬元的80G A100干的活,現在只需要一張不到2萬元的24G 4090就夠了!

上海交大IPADS實驗室推出的開源推理框架PowerInfer,讓大模型推理速度加快了11倍。

而且不用量化,就用FP16精度,也能讓40B模型在個人電腦上運行;如果加入量化,2080 Ti也能流暢運行70B模型。

2080 Ti就能跑70B大模型,上交大新框架讓LLM推理增速11倍

結合大模型的獨特特征,通過CPU與GPU間的混合計算,PowerInfer能夠在顯存有限的個人電腦上實現快速推理。

相比于llama.cpp,PowerInfer實現了高達11倍的加速,讓40B模型也能在個人電腦上一秒能輸出十個token。

我們最熟悉的ChatGPT,一方面有時會因為訪問量過大而宕機,另一方面也存在數據安全問題。

2080 Ti就能跑70B大模型,上交大新框架讓LLM推理增速11倍

開源模型能較好地解決這兩個問題,但如果沒有高性能的顯卡,運行速度往往十分感人:

2080 Ti就能跑70B大模型,上交大新框架讓LLM推理增速11倍

而PowerInfer的出現,剛好解決了這個痛點。

2080 Ti就能跑70B大模型,上交大新框架讓LLM推理增速11倍

PowerInfer一經發布就引起熱烈反響,不到24小時就獲得了500+星標,其中還有一顆來自llama.cpp的作者Gerganov。

2080 Ti就能跑70B大模型,上交大新框架讓LLM推理增速11倍

目前,PowerInfer的源碼和論文均已公開,下面就一起看看它的加速效果究竟有多強。

推理速度最高11倍

在搭載x86 CPU和NVIDIA GPU的消費級硬件平臺上,PowerInfer以參數量從7B到175B的一系列LLM模型為基準,對PowerInfer的端到端推理速度進行了測試,并和同平臺上性能最好的推理框架llama.cpp進行了對比。

對于FP16精度的模型,在搭載了13代Intel Core i9和單張RTX 4090的高端PC(PC-High)上,PowerInfer平均實現了7.23倍的速度提升,其中在Falcon 40B上實現了高達11.69倍的速度提升。

在所有測試用例上,PowerInfer平均達到了8.32 tokens/s,在OPT 30B和Falcon 40B上最高分別達到16.06 tokens/s和12.94 tokens/s。

借助PowerInfer,當今的消費級平臺可以流暢運行30-40B級別的LLM,并以可以接受的速度運行70B級別的LLM。

2080 Ti就能跑70B大模型,上交大新框架讓LLM推理增速11倍

△ PowerInfer在不同長度下平均生成token速度,縱坐標為加速比,柱狀圖上方數字代表每秒鐘能生成的token數

模型量化是端側LLM推理非常常用的技術,PowerInfer也支持了INT4量化模型的推理。

PowerInfer分別在高端PC(PC-High)和搭載單張RTX 2080Ti的中低端PC(PC-Low)上測試了一系列INT4量化模型的推理速度。

在PC-High上,PowerInfer能夠高速運行40-70B規模的模型,最高達到了29.09 tokens/s的推理速度,并且實現了平均2.89倍,最高4.28倍的速度提升。

同時,在消費級硬件上運行OPT-175B這種規模的模型也成為可能。

在PC-Low這種中低端PC上,PowerInfer可以流暢運行30-70B規模的模型,并實現平均5.01倍,最高8.00倍的速度提升,這主要得益于INT4量化后模型大部分熱神經元得以放置在顯存中。

2080 Ti就能跑70B大模型,上交大新框架讓LLM推理增速11倍

△ PowerInfer在INT4量化模型中的推理速度,縱坐標為加速比,柱狀圖上方數字代表了每秒鐘能生成的token數量

最后,PowerInfer對比了PC-High上運行PowerInfer相比于云端頂級計算卡A100運行SOTA框架vLLM的端到端推理速度,測試模型為FP16精度的OPT-30B和Falcon-40B(ReLU)。

當輸入長度為64時,PowerInfer對A100的速度差距從93%-94%縮小到了28%-29%;在輸入長度為1的純生成場景中,這一差距會被進一步縮小到低至18%。

這代表著PowerInfer借助稀疏激活和CPU/GPU混合推理,極大地彌合了消費級顯卡到頂尖服務端計算卡的推理速度差距。

2080 Ti就能跑70B大模型,上交大新框架讓LLM推理增速11倍

△PowerInfer在4090上與vLLM在A100的性能對比

那么,PowerInfer是如何實現消費級硬件上的高速推理的呢?

充分利用模型和硬件特點

PowerInfer實現高速推理的秘訣,在于充分利用了稠密模型存在的高局部性的稀疏激活,并與CPU和GPU的運算特點進行了充分結合。

何謂“稀疏激活”?

最近Mixtral MoE大模型引爆了整個AI圈,稀疏模型重新進入大家的視野。

一個有趣的事實是:像OPT、LLaMA(ReLU)這樣被視為稠密模型的LLM,同樣存在稀疏激活的特征。

什么是稠密模型的稀疏激活呢?

和MoE模型中一個輸入token只需要激活FFN layer其中一個或者兩個專家模塊類似,以OPT模型的稠密FFN層為例,只需要激活一小部分(實驗顯示約10%)神經元即可保證輸出的正確性。

其他的神經元雖然參與了計算,但并沒有對輸出產生明顯貢獻。

換句話說,稠密模型中的每一個神經元都是一個專家

2080 Ti就能跑70B大模型,上交大新框架讓LLM推理增速11倍

△ 左圖來自Alexander Clark論文(aRXiv編號:2101.03961)

MoE模型可以在專家FFN層之前通過路由模塊將輸入分發給其中一個或者兩個專家進行計算,那么稠密模型中的稀疏激活又該如何路由或者在計算之前就知道哪些專家神經元會對結果產生貢獻呢?

答案是為稠密模型增加路由預測模塊

在模型開始服務前,PowerInfer首先會對模型進行離線分析,通過將模型在通用數據集中進行推理獲取每一層輸入與激活神經元之間的對應關系,進而為稠密模型每一層訓練一個小的預測路由模塊來預測每一個輸入會激活的神經元,只計算路由激活的神經元(專家)。

在多個下游任務的測試中,PowerInfer的路由模塊幾乎沒有引入額外的精度損失。

稀疏激活帶來的推理局部性

稀疏激活的另一個有趣事實是,盡管對于不同的輸入token,激活的神經元分布存在差異;但如果在足夠多的數據上進行推理,并將每次激活的分布疊加,PowerInfer發現少部分神經元總體上被激活的概率更高。

也就是說,統計意義上大模型神經元的激活符合Power Law分布(Power Law分布是一種統計規律,表示少數事件的發生頻率遠高于大量其他事件)。

如下圖(a)所示,對于OPT-30B和LLaMA(ReGLU)-70B兩個模型里的某一層FFN網絡,統計意義上26%和43%的神經元分別貢獻了80%的激活。

而在整個模型的尺度上,如下圖(b)所示,17%和26%的神經元貢獻了80%的激活。

2080 Ti就能跑70B大模型,上交大新框架讓LLM推理增速11倍

因此,當只考慮對最終激活有貢獻的運算時,LLM具有推理局部性:對權重的訪問傾向于集中在一定的區域,而不是均勻分布在所有的神經元上。

在推理運算中它顯現為程序的局部性:對內存空間的訪問傾向于集中在一定的區域,而不是均勻分布在整個內存空間。

在常見的個人電腦中,GPU具有較少的顯存和更強的計算能力,適合處理頻繁訪問且計算強度高的任務;而CPU擁有更大的內存容量但相對較弱的算力,適合處理少量訪問且計算強度低的任務。

因此,理想情況下,一小部分經常訪問的神經元應該存儲在顯存中,相比之下更大、訪問頻率更低的神經元更適合存儲在內存中,由CPU進行計算。

這啟發了PowerInfer基于局部性特征進行CPU/GPU混合推理系統的設計。

CPU/GPU混合推理設計

根據上述神經元的Power Law和由此產生的局部性,PowerInfer通過提前靜態分析每一個神經元的冷熱性,將少量的熱神經元加載在GPU顯存上,剩余的冷神經元加載到CPU的內存中。

以神經元為粒度的模型混合加載,會出現一層內有些神經元在GPU上,有些神經元在CPU上。

為此,PowerInfer設計了細粒度的CPU/GPU混合推理引擎。

以下圖為例,對于某一層的輸入,PowerInfer會首先預測該輸入會激活神經元為3,4,5。

然后CPU、GPU會分別根據預測信息,執行位于其內存中的神經元的計算。

具體以下圖的例子來說,CPU上會計算第四個神經元,GPU上會計算第三個、第五個神經元,然后再GPU上對兩邊的計算結果進行合并。

2080 Ti就能跑70B大模型,上交大新框架讓LLM推理增速11倍

△PowerInfer混合計算的方式

PowerInfer的整體架構

總體而言,PowerInfer利用基于稠密模型的稀疏激活及其引入的局部性特性,開發出了一種創新的CPU/GPU混合推理引擎。

在接入一個大型語言模型(LLM)時,PowerInfer首先在離線階段對模型的預測路由模塊進行訓練,并深入分析模型的激活特征。

同時,結合目標硬件的帶寬和容量等關鍵信息,計算出最佳的神經元放置策略。

在此基礎上,PowerInfer會根據這些計算結果,將神經元優化地分布在內存或顯存中。

在在線推理階段,CPU和GPU分別處理存儲在其內存中的神經元,隨后在GPU上對這些獨立計算的結果進行高效合并。

2080 Ti就能跑70B大模型,上交大新框架讓LLM推理增速11倍

△ PowerInfer整體架構圖

總結與展望

對于端側用戶而言,PowerInfer的高效推理框架打開了新的可能性。

首先,它使得個人電腦用戶能夠在本地運行先進的大型語言模型,而無需昂貴的專業硬件。

這不僅促進了人工智能應用的普及化,也為愛好者、研究人員和小型企業提供了前所未有的機會。

在云端部署方面,PowerInfer同樣存在巨大的潛力。

現有的云端CPU也有強大的AMX計算單元支持,通過利用CPU、GPU間的異構特征,可以樂觀地認為PowerInfer能夠使用更少的高端計算卡,做到更高的服務吞吐。

論文地址:
https://ipads.se.sjtu.edu.cn/_media/publications/powerinfer-20231219.pdf

GitHub項目頁:
https://github.com/SJTU-IPADS/PowerInfer

版權所有,未經授權不得以任何形式轉載及使用,違者必究。
欧美国产亚洲一区| 波多野结衣不卡| 2019av中文字幕| 国产精品嫩草99a| xnxx国产精品| 亚洲欧洲av色图| 亚洲男人的天堂在线观看| 1000部国产精品成人观看| 免费成人进口网站| 午夜视频在线观看一区| 五月天视频一区| 欧美挠脚心视频网站| 欧美r级电影在线观看| 亚洲免费视频观看| 国语自产偷拍精品视频偷 | 国产视频一区二区三区四区五区| www.色视频| 国产在线一区二区| 国产精品视频免费看| 亚洲v中文字幕| 欧美不卡123| 久久久久久久久亚洲| 国产一区视频在线| 亚洲三区在线| 天天色综合天天色| 国产极品视频在线观看| 亚洲天堂网视频| 老司机精品视频导航| 国产精品人成在线观看免费| 欧洲一区在线观看| 中文字幕日韩综合av| 国产免费一区二区三区在线能观看| 免费一区二区三区| 五月婷婷狠狠操| 欧美一级特黄高清视频| 精品国产亚洲AV| 91污在线观看| 欧美日韩精品一区视频| 欧美精品国产精品日韩精品| 鲁丝一区二区三区免费| 三上悠亚av一区二区三区| 欧洲美熟女乱又伦| 成人福利小视频| 国产视频视频一区| 精品久久久久久无| 国产精品69av| 老太脱裤让老头玩ⅹxxxx| aa片在线观看视频在线播放| 久久久久99精品成人片我成大片| 久久草av在线| 欧美色视频日本高清在线观看| 色悠悠久久88| 日本一区不卡| 一本色道综合久久欧美日韩精品| 91av久久久| 久久久国产精品不卡| 亚洲电影在线观看| 91传媒在线免费观看| 国产精品拍拍拍| 999这里只有精品| 91首页免费视频| 亚洲国产精品推荐| 精品亚洲一区二区三区四区五区高| 潘金莲激情呻吟欲求不满视频| 国产区一区二区三| 久久亚洲春色中文字幕久久久| 精品少妇一区二区三区 | 欧美日韩高清一区二区不卡| 琪琪亚洲精品午夜在线| 国产aaa一级片| 在线观看亚洲欧美| 久久精品夜夜夜夜久久| 亚洲人成五月天| 好吊色欧美一区二区三区四区| 国产在线观看免费播放| 日本美女一级片| 精品久久久久久国产| 91精品国产精品| 日韩中文字幕免费在线| 在线观看国产黄| 亚洲欧美日韩久久| 91精品国产网站| 国产精品亚洲二区在线观看| 国产主播第一页| 亚洲精品国产成人久久av盗摄| 欧美日本中文字幕| 999香蕉视频| 国产精品欧美综合亚洲| 欧美日韩激情美女| 国产一区视频在线播放| 国产精品久久不卡| 国产精选一区二区三区| 亚洲毛片在线观看.| 国产日韩欧美大片| www.久久视频| 欧美三级欧美成人高清www| 国产日韩欧美夫妻视频在线观看 | 日韩欧美亚洲v片| 国产一级视频在线| 亚洲综合图片区| 国产欧美日韩高清| 亚洲色图14p| 成人性生交大片免费看中文网站| 俺也去精品视频在线观看| 欧美精品一区二区三区免费播放| 亚洲国产www| 精品剧情在线观看| 免费一级淫片aaa片毛片a级| 国产又粗又猛又黄| 欧美高清视频不卡网| 色综合影院在线观看| 无码人妻av免费一区二区三区| 精品国产91久久久久久| 国产农村妇女aaaaa视频| 亚洲女人18毛片水真多| 91色porny在线视频| 久久久久久亚洲综合| 七七婷婷婷婷精品国产| 美女一区二区视频| 91麻豆免费看片| 国产欧美视频在线观看| zzijzzij亚洲日本少妇熟睡| 国内精品在线播放| 亚洲人成精品久久久久久| 国产97免费视| 免费人成又黄又爽又色| wwww国产精品欧美| 国产成人精品日本亚洲专区61| 国产精品麻豆入口| 国产精品国产精品国产专区不蜜| 日韩免费在线播放| 亚洲欧美精品aaaaaa片| 丝袜美腿小色网| 久久久久久久久久久97| 亚洲成人精品一区二区| 国产一区二区中文字幕免费看| 国产污视频在线看| 欧美精品一二三| 成人在线播放网址| 精品一区二区三区香蕉蜜桃 | 久久精品国产秦先生| 欧美国产日韩一区二区三区| 91中文字幕永久在线| 亚洲国产精品天堂| 亚洲国产精品影视| 九九**精品视频免费播放| 韩国一区二区电影| 美国黄色小视频| 欧美日韩在线电影| 嫩草av久久伊人妇女超级a| 成人教育av在线| 国产精品视频午夜| 自拍偷拍校园春色| 这里只有精品在线播放| 中国美女乱淫免费看视频| 一区二区三区日韩欧美精品| 国产人妻互换一区二区| 国产高清不卡一区二区| 成人一区二区在线| 日本毛片在线观看| 国产91在线播放九色快色| 韩国av免费观看| 日韩电视剧免费观看网站| 久久久久麻豆v国产精华液好用吗| 亚洲一区二区在线免费看| 超碰97在线看| 99久久久精品免费观看国产蜜| 国产欧美综合精品一区二区| 亚洲男人第一天堂| 国产精品福利在线| 97人妻一区二区精品免费视频 | 鲁一鲁一鲁一鲁一澡| 久久久久久久综合| 老司机av福利| 91色在线porny| 中文字幕一区二区三区四区五区六区| 国内精品伊人久久久久av影院| 成人精品aaaa网站| 人妻少妇精品无码专区| 国产日韩换脸av一区在线观看| 国产精品无码在线播放| 96精品视频在线| 国产乱码一区二区| 日本人成精品视频在线| 国产精品羞羞答答在线| 日本成人激情视频| 精品国产无码一区二区| 成人亚洲欧美一区二区三区| 天天干天天爱天天操| 91久久久久久久| 老鸭窝一区二区久久精品| 国产中文一区二区| 国产91综合网| 日本a在线天堂| 日韩一区欧美一区| 天堂av8在线| 6080日韩午夜伦伦午夜伦| 欧美日韩高清丝袜| 国产亚洲欧美日韩精品| 久久久久99精品成人片我成大片 | 91福利小视频| 日本xxx在线播放| 精品在线观看国产| 精品不卡一区二区| 国产精品美女久久久久av超清| 亚洲免费视频网| 精品无码久久久久久久动漫| 91免费视频网| 精品久久久久久久无码| 欧美久久久影院| 人妻人人澡人人添人人爽| 欧美成人精品h版在线观看| 国产又爽又黄又嫩又猛又粗| 国产欧美综合精品一区二区| 久久五月婷婷丁香社区| 亚洲成人av免费看| 欧美一级淫片007| 国产欧美日韩另类| 国产精品久久久久久久午夜 | 国产精品免费精品一区| 国产精品久久久久久av下载红粉| 日本不卡不码高清免费观看| 免费成人进口网站| 一本大道久久a久久精二百| 国产高潮呻吟久久| 久久久噜噜噜久久| 男女男精品网站| 久久在线中文字幕| 91精品视频网| 黄色污污网站在线观看| 国产福利一区二区三区在线观看| 久久一夜天堂av一区二区三区 | 岛国视频一区| 国产精品视频yy9299一区| www.四虎精品| 久久久极品av| 免费成人av资源网| 虎白女粉嫩尤物福利视频| 亚洲国产欧美一区二区丝袜黑人| 奴色虐av一区二区三区| 久久涩涩网站| 色综合天天综合| 国产又黄又猛又粗又爽| 久久国产一区二区| 色综合久久中文综合久久牛| 久久国产精品系列| 另类视频在线观看+1080p| 欧美午夜精品久久久久久久| 日本特黄特色aaa大片免费| 国产精品久久久久久久久婷婷| 亚洲国产电影在线观看| 日本猛少妇色xxxxx免费网站| 国产成人综合精品| 国产精品久久久久影视| 97精品在线播放| 1卡2卡3卡精品视频| 亚洲一区二区三区国产| 91在线播放观看| 国产精品一区视频网站| 黑人精品xxx一区一二区| 国产微拍精品一区| 相泽南亚洲一区二区在线播放| 3751色影院一区二区三区| www.av导航| 国产a级片免费观看| 九九热精品视频在线播放| av一本久道久久综合久久鬼色| 亚洲欧美日本一区| 亚洲一区二区三区在线视频| 婷婷六月综合亚洲| 一级黄色片免费看| 欧美黑人经典片免费观看| 色婷婷av一区二区三区久久| 国产精品99久久久久久久vr| www.色天使| 狠狠色噜噜狠狠狠狠色吗综合| 在线亚洲一区观看| 免费看国产片在线观看| 亚洲精品www.| 国产精品久久久久国产a级| 亚洲成人福利片| 国产视频www| 日本三级黄色网址| 国产精品激情av在线播放| 天天色图综合网| 国产精品福利电影| 冲田杏梨av在线| 日本中文字幕成人| 91久久精品网| 蜜桃一区二区三区在线| 国产成人av一区二区三区不卡| 国产精品一级久久久| 精品国产一区二区三区忘忧草 | 一区二区三区福利视频| 国产毛片久久久久久国产毛片| 中文字幕日韩在线播放| 国产三级三级三级精品8ⅰ区| 五月天综合在线| 国产av麻豆mag剧集| 欧美影院在线播放| 日韩欧美国产激情| 日本怡春院一区二区| 五月激情四射婷婷| 97在线免费视频观看| 国内自拍欧美激情| 欧美日韩一二三四五区| 日本不卡视频在线| 亚洲xxxx3d动漫| 欧美极品少妇无套实战| 久久99视频精品| 日韩欧美成人精品| 九九在线精品视频| 久久精品99国产精| 国产亚洲天堂网| 成人精品一区二区三区电影黑人| 日韩一级完整毛片| 2023国产精品视频| 国产精品福利电影| 亚洲精品乱码久久久久久久久久久久| 天天综合色天天综合色hd| 欧美成人精品影院| 欧美色图片你懂的| 久久―日本道色综合久久| 亚洲影院一区二区三区| 性色av蜜臀av色欲av| 欧美 国产 精品| 欧洲av在线播放| 日韩欧美综合视频| 中文字幕欧美色图| 日韩欧美一级大片| 青青操在线播放| 中文字幕在线播放不卡| 精品影视av免费| 国产午夜一区二区三区| 精品久久久视频| 日韩美女视频19| 欧美视频中文字幕在线| 亚洲国产成人精品电影| 午夜老司机精品| 久久久久久久穴| 深夜福利影院在线观看| a亚洲天堂av| 伊人伊人伊人久久| 久久久久久九九| 激情一区二区三区| 亚洲午夜福利在线观看| 久久超碰97中文字幕| 视频一区视频二区国产精品| 色哟哟免费视频| 中文字幕在线不卡| 亚洲va欧美va国产综合久久| 日韩欧美三级在线观看| yourporn久久国产精品| 欧美日韩亚洲另类| 26uuu另类亚洲欧美日本一| 日韩手机在线观看视频| 天天色棕合合合合合合合| 欧美大片一区二区| 久久综合色一本| 天堂av8在线| 亚洲国产精品久久人人爱潘金莲| xf在线a精品一区二区视频网站| 欧美成人猛片aaaaaaa| 日韩av手机在线看| 日本人视频jizz页码69| 美国三级日本三级久久99| 亚洲高清免费观看| 国产在线精品成人一区二区三区| 潘金莲一级淫片aaaaaa播放1| 欧美激情成人网| 欧美一级xxxx| 国产污视频在线观看| 精品少妇一区二区三区在线视频 | 92久久精品一区二区| 五月婷婷激情综合| 路边理发店露脸熟妇泻火| 国产精品一级视频| 337p粉嫩大胆噜噜噜噜噜91av| 欧美乱妇15p| 亚洲AV成人精品| 国产在线国偷精品免费看| 中日韩美女免费视频网站在线观看 | 久久久999久久久| 日本亚洲欧美成人| 国产黄色片网站| 欧美大荫蒂xxx| 国产精品视频看看| 精品久久久久久久中文字幕| 免费亚洲精品视频| 黄色片视频网站| 欧美va在线播放| 韩国三级在线看| 国产日韩欧美高清在线| 日韩欧美在线观看强乱免费| 亚洲精品国产suv一区| 精品呦交小u女在线| 伊人精品视频在线观看| 成人精品亚洲人成在线| 蜜桃视频日韩| 99久久综合精品| 一区二区不卡在线| 成年人av网站| 日韩欧美一区二区视频| 青青在线免费观看视频| 婷婷综合久久一区二区三区| 丁香六月激情婷婷| 亚洲黄色一区二区| 日韩国产欧美精品在线 | 国产一区二区三区高清| 91亚洲精品一区二区乱码|