色综合中文综合网_性猛交娇小69hd_久久精品99久久久久久_欧美日韩精品一区二区三区四区 _97视频色精品_国产高清精品久久久久_日日鲁鲁鲁夜夜爽爽狠狠视频97 _国产成人免费视频精品含羞草妖精 _熟女少妇在线视频播放_精品人妻一区二区三区麻豆91 _久久女同性恋中文字幕_一区二区福利视频

2080 Ti就能跑70B大模型,上交大新框架讓LLM推理增速11倍

充分利用模型和硬件特點

上交大IPADS實驗室 投稿

量子位 | 公眾號 QbitAI

原本需要一張16萬元的80G A100干的活,現在只需要一張不到2萬元的24G 4090就夠了!

上海交大IPADS實驗室推出的開源推理框架PowerInfer,讓大模型推理速度加快了11倍。

而且不用量化,就用FP16精度,也能讓40B模型在個人電腦上運行;如果加入量化,2080 Ti也能流暢運行70B模型。

2080 Ti就能跑70B大模型,上交大新框架讓LLM推理增速11倍

結合大模型的獨特特征,通過CPU與GPU間的混合計算,PowerInfer能夠在顯存有限的個人電腦上實現快速推理。

相比于llama.cpp,PowerInfer實現了高達11倍的加速,讓40B模型也能在個人電腦上一秒能輸出十個token。

我們最熟悉的ChatGPT,一方面有時會因為訪問量過大而宕機,另一方面也存在數據安全問題。

2080 Ti就能跑70B大模型,上交大新框架讓LLM推理增速11倍

開源模型能較好地解決這兩個問題,但如果沒有高性能的顯卡,運行速度往往十分感人:

2080 Ti就能跑70B大模型,上交大新框架讓LLM推理增速11倍

而PowerInfer的出現,剛好解決了這個痛點。

2080 Ti就能跑70B大模型,上交大新框架讓LLM推理增速11倍

PowerInfer一經發布就引起熱烈反響,不到24小時就獲得了500+星標,其中還有一顆來自llama.cpp的作者Gerganov。

2080 Ti就能跑70B大模型,上交大新框架讓LLM推理增速11倍

目前,PowerInfer的源碼和論文均已公開,下面就一起看看它的加速效果究竟有多強。

推理速度最高11倍

在搭載x86 CPU和NVIDIA GPU的消費級硬件平臺上,PowerInfer以參數量從7B到175B的一系列LLM模型為基準,對PowerInfer的端到端推理速度進行了測試,并和同平臺上性能最好的推理框架llama.cpp進行了對比。

對于FP16精度的模型,在搭載了13代Intel Core i9和單張RTX 4090的高端PC(PC-High)上,PowerInfer平均實現了7.23倍的速度提升,其中在Falcon 40B上實現了高達11.69倍的速度提升。

在所有測試用例上,PowerInfer平均達到了8.32 tokens/s,在OPT 30B和Falcon 40B上最高分別達到16.06 tokens/s和12.94 tokens/s。

借助PowerInfer,當今的消費級平臺可以流暢運行30-40B級別的LLM,并以可以接受的速度運行70B級別的LLM。

2080 Ti就能跑70B大模型,上交大新框架讓LLM推理增速11倍

△ PowerInfer在不同長度下平均生成token速度,縱坐標為加速比,柱狀圖上方數字代表每秒鐘能生成的token數

模型量化是端側LLM推理非常常用的技術,PowerInfer也支持了INT4量化模型的推理。

PowerInfer分別在高端PC(PC-High)和搭載單張RTX 2080Ti的中低端PC(PC-Low)上測試了一系列INT4量化模型的推理速度。

在PC-High上,PowerInfer能夠高速運行40-70B規模的模型,最高達到了29.09 tokens/s的推理速度,并且實現了平均2.89倍,最高4.28倍的速度提升。

同時,在消費級硬件上運行OPT-175B這種規模的模型也成為可能。

在PC-Low這種中低端PC上,PowerInfer可以流暢運行30-70B規模的模型,并實現平均5.01倍,最高8.00倍的速度提升,這主要得益于INT4量化后模型大部分熱神經元得以放置在顯存中。

2080 Ti就能跑70B大模型,上交大新框架讓LLM推理增速11倍

△ PowerInfer在INT4量化模型中的推理速度,縱坐標為加速比,柱狀圖上方數字代表了每秒鐘能生成的token數量

最后,PowerInfer對比了PC-High上運行PowerInfer相比于云端頂級計算卡A100運行SOTA框架vLLM的端到端推理速度,測試模型為FP16精度的OPT-30B和Falcon-40B(ReLU)。

當輸入長度為64時,PowerInfer對A100的速度差距從93%-94%縮小到了28%-29%;在輸入長度為1的純生成場景中,這一差距會被進一步縮小到低至18%。

這代表著PowerInfer借助稀疏激活和CPU/GPU混合推理,極大地彌合了消費級顯卡到頂尖服務端計算卡的推理速度差距。

2080 Ti就能跑70B大模型,上交大新框架讓LLM推理增速11倍

△PowerInfer在4090上與vLLM在A100的性能對比

那么,PowerInfer是如何實現消費級硬件上的高速推理的呢?

充分利用模型和硬件特點

PowerInfer實現高速推理的秘訣,在于充分利用了稠密模型存在的高局部性的稀疏激活,并與CPU和GPU的運算特點進行了充分結合。

何謂“稀疏激活”?

最近Mixtral MoE大模型引爆了整個AI圈,稀疏模型重新進入大家的視野。

一個有趣的事實是:像OPT、LLaMA(ReLU)這樣被視為稠密模型的LLM,同樣存在稀疏激活的特征。

什么是稠密模型的稀疏激活呢?

和MoE模型中一個輸入token只需要激活FFN layer其中一個或者兩個專家模塊類似,以OPT模型的稠密FFN層為例,只需要激活一小部分(實驗顯示約10%)神經元即可保證輸出的正確性。

其他的神經元雖然參與了計算,但并沒有對輸出產生明顯貢獻。

換句話說,稠密模型中的每一個神經元都是一個專家

2080 Ti就能跑70B大模型,上交大新框架讓LLM推理增速11倍

△ 左圖來自Alexander Clark論文(aRXiv編號:2101.03961)

MoE模型可以在專家FFN層之前通過路由模塊將輸入分發給其中一個或者兩個專家進行計算,那么稠密模型中的稀疏激活又該如何路由或者在計算之前就知道哪些專家神經元會對結果產生貢獻呢?

答案是為稠密模型增加路由預測模塊

在模型開始服務前,PowerInfer首先會對模型進行離線分析,通過將模型在通用數據集中進行推理獲取每一層輸入與激活神經元之間的對應關系,進而為稠密模型每一層訓練一個小的預測路由模塊來預測每一個輸入會激活的神經元,只計算路由激活的神經元(專家)。

在多個下游任務的測試中,PowerInfer的路由模塊幾乎沒有引入額外的精度損失。

稀疏激活帶來的推理局部性

稀疏激活的另一個有趣事實是,盡管對于不同的輸入token,激活的神經元分布存在差異;但如果在足夠多的數據上進行推理,并將每次激活的分布疊加,PowerInfer發現少部分神經元總體上被激活的概率更高。

也就是說,統計意義上大模型神經元的激活符合Power Law分布(Power Law分布是一種統計規律,表示少數事件的發生頻率遠高于大量其他事件)。

如下圖(a)所示,對于OPT-30B和LLaMA(ReGLU)-70B兩個模型里的某一層FFN網絡,統計意義上26%和43%的神經元分別貢獻了80%的激活。

而在整個模型的尺度上,如下圖(b)所示,17%和26%的神經元貢獻了80%的激活。

2080 Ti就能跑70B大模型,上交大新框架讓LLM推理增速11倍

因此,當只考慮對最終激活有貢獻的運算時,LLM具有推理局部性:對權重的訪問傾向于集中在一定的區域,而不是均勻分布在所有的神經元上。

在推理運算中它顯現為程序的局部性:對內存空間的訪問傾向于集中在一定的區域,而不是均勻分布在整個內存空間。

在常見的個人電腦中,GPU具有較少的顯存和更強的計算能力,適合處理頻繁訪問且計算強度高的任務;而CPU擁有更大的內存容量但相對較弱的算力,適合處理少量訪問且計算強度低的任務。

因此,理想情況下,一小部分經常訪問的神經元應該存儲在顯存中,相比之下更大、訪問頻率更低的神經元更適合存儲在內存中,由CPU進行計算。

這啟發了PowerInfer基于局部性特征進行CPU/GPU混合推理系統的設計。

CPU/GPU混合推理設計

根據上述神經元的Power Law和由此產生的局部性,PowerInfer通過提前靜態分析每一個神經元的冷熱性,將少量的熱神經元加載在GPU顯存上,剩余的冷神經元加載到CPU的內存中。

以神經元為粒度的模型混合加載,會出現一層內有些神經元在GPU上,有些神經元在CPU上。

為此,PowerInfer設計了細粒度的CPU/GPU混合推理引擎。

以下圖為例,對于某一層的輸入,PowerInfer會首先預測該輸入會激活神經元為3,4,5。

然后CPU、GPU會分別根據預測信息,執行位于其內存中的神經元的計算。

具體以下圖的例子來說,CPU上會計算第四個神經元,GPU上會計算第三個、第五個神經元,然后再GPU上對兩邊的計算結果進行合并。

2080 Ti就能跑70B大模型,上交大新框架讓LLM推理增速11倍

△PowerInfer混合計算的方式

PowerInfer的整體架構

總體而言,PowerInfer利用基于稠密模型的稀疏激活及其引入的局部性特性,開發出了一種創新的CPU/GPU混合推理引擎。

在接入一個大型語言模型(LLM)時,PowerInfer首先在離線階段對模型的預測路由模塊進行訓練,并深入分析模型的激活特征。

同時,結合目標硬件的帶寬和容量等關鍵信息,計算出最佳的神經元放置策略。

在此基礎上,PowerInfer會根據這些計算結果,將神經元優化地分布在內存或顯存中。

在在線推理階段,CPU和GPU分別處理存儲在其內存中的神經元,隨后在GPU上對這些獨立計算的結果進行高效合并。

2080 Ti就能跑70B大模型,上交大新框架讓LLM推理增速11倍

△ PowerInfer整體架構圖

總結與展望

對于端側用戶而言,PowerInfer的高效推理框架打開了新的可能性。

首先,它使得個人電腦用戶能夠在本地運行先進的大型語言模型,而無需昂貴的專業硬件。

這不僅促進了人工智能應用的普及化,也為愛好者、研究人員和小型企業提供了前所未有的機會。

在云端部署方面,PowerInfer同樣存在巨大的潛力。

現有的云端CPU也有強大的AMX計算單元支持,通過利用CPU、GPU間的異構特征,可以樂觀地認為PowerInfer能夠使用更少的高端計算卡,做到更高的服務吞吐。

論文地址:
https://ipads.se.sjtu.edu.cn/_media/publications/powerinfer-20231219.pdf

GitHub項目頁:
https://github.com/SJTU-IPADS/PowerInfer

版權所有,未經授權不得以任何形式轉載及使用,違者必究。
色综合天天性综合| 国产精品无码无卡无需播放器| 蜜臀av性久久久久蜜臀av| 欧洲xxxxx| 美女av免费在线观看| 青青在线视频免费| 亚洲一级片免费观看| 人妻无码中文久久久久专区| 青青草视频播放| 免费国产羞羞网站美图| 久久精品视频1| 国产超碰人人模人人爽人人添| 亚洲精品一级片| 国产高清无密码一区二区三区| 国产成人免费视| 中文字幕日韩一区| 欧美性感一区二区三区| 日韩精品视频在线免费观看 | 国产福利视频导航| 天堂影院一区二区| 国产午夜亚洲精品羞羞网站| 亚洲国产另类精品专区| 91精品国产综合久久精品麻豆 | 97久久国产亚洲精品超碰热 | 成人福利在线视频| 日韩av一区二区三区在线| 97久久国产亚洲精品超碰热| 中文字幕第66页| 午夜激情福利电影| 亚洲无码久久久久久久| 九九国产精品视频| 一区二区三区免费看视频| 日韩欧美一区二区在线视频| 久久综合88中文色鬼| 成人做爽爽免费视频| 综合网五月天| 制服丝袜第一页在线观看| 国产网址在线观看| 日韩精品亚洲专区| 亚洲精品一二三| 亚洲精品ady| 国产成人精品最新| 肉大捧一出免费观看网站在线播放| 色18美女社区| 在线观看日本视频| 不卡在线视频中文字幕| 一本久道中文字幕精品亚洲嫩| 国产亚洲aⅴaaaaaa毛片| 成人免费福利在线| av免费中文字幕| 国产亚洲欧美久久久久| 久久精品噜噜噜成人av农村| 亚洲成年人影院| 久久久国产在线视频| 欧美日韩一区二区视频在线| 在线成人精品视频| 亚洲无码精品国产| 日本一区二区三区四区 | 国产欧美日韩在线| 欧美va亚洲va香蕉在线| 国产主播欧美精品| 日本不卡一区在线| 国产精品久久影视| 亚洲色图一区二区| 久久五月天色综合| 国产对白在线播放| 久久久久久久久久网站| 国产精品一区二区无线| 在线成人av影院| 国产精品稀缺呦系列在线| 日韩一级在线免费观看| 久久久蜜桃一区二区| 国产欧美精品日韩区二区麻豆天美| 亚洲国产日韩欧美综合久久| 狠狠色狠狠色综合人人| 800av在线播放| 视频在线在亚洲| 色噜噜久久综合| 国产精品久久久| 成人不卡免费视频| 黄色av一区二区三区| 精品久久久久久亚洲精品| 欧美制服第一页| 亚洲免费一级视频| 亚洲精品字幕在线| 欧美高清dvd| 久久久久久久久久久久久久一区| 国产精品无码永久免费不卡| 精品一区二区三区免费| 精品国产91乱码一区二区三区| 成人一区二区在线| 国产第一页精品| 不卡一卡二卡三乱码免费网站| 日韩成人在线免费观看| 欧美日韩一区二区三区电影| 五月婷婷亚洲综合| 亚洲福利电影网| 91精品久久久久久久久青青| 性农村xxxxx小树林| 国产综合成人久久大片91| 亚洲欧美变态国产另类| 女人色极品影院| 国产一区二区三区中文字幕| 欧美体内谢she精2性欧美| 波多野结衣精品久久| 国产99在线 | 亚洲| 91丨九色丨蝌蚪丨老版| 91爱爱小视频k| 午夜av中文字幕| 国产精品自拍av| 久久精品国产2020观看福利| 成人中文字幕av| 男人的天堂亚洲一区| 亚洲欧洲日产国产网站| 日本成人在线免费视频| 久久久精品性| 亚洲最新av在线| 少妇激情一区二区三区| 麻豆精品一区二区综合av| 中文字幕久热精品视频在线| 亚洲一级片免费| 麻豆精品在线观看| 欧美精品在线观看91| 91高清国产视频| 国产**成人网毛片九色| 97久久精品国产| 懂色av粉嫩av蜜乳av| 中文无字幕一区二区三区| 国产精品免费福利| 成人观看免费视频| 日本韩国精品在线| 国产内射老熟女aaaa| 五月婷婷伊人网| www.日韩视频| 特大黑人巨人吊xxxx| 亚洲欧美激情小说另类| 久久精品二区| 亚洲第一天堂网| 夜夜嗨av色综合久久久综合网| 极品粉嫩美女露脸啪啪| 久久婷婷国产综合精品青草| 国产精品一区二区三区成人| 日韩免费一二三区| 欧美日本视频在线| 蜜臀av午夜一区二区三区| 国产精品一区二区果冻传媒| 欧美在线国产精品| 日本少妇吞精囗交| 精品国产一区二区三区忘忧草| av片中文字幕| 国产亚洲精品中文字幕| 久久国产主播精品| 丝袜美腿亚洲色图| 国产成人97精品免费看片| 久久久久久久9999| 欧美大片顶级少妇| 无码国产精品一区二区高潮| 中文字幕成人在线观看| 日本一区二区在线视频| 久久久精品五月天| 国产精品黄色av| 亚洲av无码乱码国产精品fc2| 亚洲区中文字幕| аⅴ天堂中文在线网| 欧美老女人在线| 亚洲国产欧美91| 亚洲一二三四在线| 毛片av免费在线观看| 国产精品人人做人人爽人人添| 欧美三级电影在线播放| 视频一区二区三区在线| 国产男人精品视频| 丰满肉肉bbwwbbww| 国产精品日韩欧美| www.蜜桃av.com| 国产成人精品电影久久久| 亚洲中文字幕在线观看| 欧美精品xxx| 欧美另类高清videos的特点| 美女国内精品自产拍在线播放| 黄页网站免费观看| 丝袜亚洲另类欧美重口| avove在线播放| 色爱av美腿丝袜综合粉嫩av| 激情综合网五月婷婷| 久久精品国产91精品亚洲| 国产一二三四在线| 欧美成人合集magnet| 亚洲精品男人的天堂| 欧美极品少妇xxxxⅹ免费视频| 久久精品视频5| 午夜精品久久久久久久99热浪潮| 久久久久久av无码免费看大片| 欧美激情手机在线视频| 最新黄色网址在线观看| 国产精品va在线播放| 亚洲第一黄色片| av蓝导航精品导航| 激情偷乱视频一区二区三区| 欧美区高清在线| 久久午夜电影网| 精品中文字幕av| 欧美视频在线看| 免费污网站在线观看| 日韩精品在线免费播放| 久久狠狠高潮亚洲精品| 欧美激情综合色| 五月婷婷在线播放| 日本福利一区二区三区| 国产精品免费丝袜| 亚洲色图欧美自拍| 日韩精品有码在线观看| 国产中文字幕视频| 成人福利在线视频| xnxx国产精品| 中文字幕久久av| 精品福利一区二区三区免费视频| 日本午夜精品理论片a级app发布| 国产91|九色| 国产在线精品免费| 看av免费毛片手机播放| 7799精品视频| 国产一级18片视频| 91精品免费| 久久久精品免费观看| 国产91色在线观看| 日韩大陆毛片av| 国产乱色精品成人免费视频| 精品国产中文字幕| 日韩理论片网站| www.av欧美| 4388成人网| 国产白丝精品91爽爽久久| 不要播放器的av网站| 欧美刺激脚交jootjob| 国产又黄又猛又粗又爽| 99国产盗摄| 亚洲欧美另类久久久精品2019| 插吧插吧综合网| 欧美激情一二区| 免费高清在线视频一区·| 91精品国产91久久久久麻豆 主演| 色婷婷亚洲综合| 久久久久久久久久影院| av一区二区三区四区电影| 国产精品国产馆在线真实露脸| 亚洲精品女人久久久| 97视频网站入口| 99久久精品免费精品国产| 深爱五月综合网| 色综合视频一区中文字幕| 国产真实乱子伦精品视频| 国产九九在线观看| 久久艹在线视频| 高清不卡一区二区| 又黄又爽的网站| 奇米一区二区三区四区久久| 久久久久久麻豆| 国产精品69久久久久孕妇欧美| 国产乱肥老妇国产一区二| 国产精品传媒入口麻豆| 欧美h片在线观看| 成人黄色片视频网站| 欧美日韩免费一区| 精人妻无码一区二区三区| 日本午夜精品一区二区| 欧美日韩精品专区| 成人av免费播放| 亚洲五月天综合| 久久6精品影院| 丰满少妇久久久久久久| 黑人玩弄人妻一区二区三区| 欧美一级淫片videoshd| 日本一区二区成人| 亚洲精品77777| 欧美性受黑人性爽| 国产午夜精品免费一区二区三区| 国产在线一区观看| 国产吞精囗交久久久| 97超碰人人模人人爽人人看| 欧美在线视频全部完| 人妻一区二区三区免费| 91免费视频网站在线观看| 欧美成人免费全部| 亚洲欧美另类在线| 一级特黄aaa大片在线观看| 国产 日韩 亚洲 欧美| 美女啪啪无遮挡免费久久网站| 久久久亚洲高清| 精品欧美一区二区久久久久| 四虎影院一区二区三区| 亚洲色图色老头| 国产视频一区二区在线| 免费中文字幕在线观看| 一本一本a久久| www.日韩av.com| 《视频一区视频二区| 中国a一片一级一片| 国产wwwxx| 成人黄色大片在线免费观看| 欧美日韩三级一区| 国产精品资源网站| 欧美人妻精品一区二区免费看| 992tv成人免费观看| 欧美精品第一页在线播放| 亚洲福中文字幕伊人影院| 俄罗斯嫩小性bbwbbw| 97人妻天天摸天天爽天天| 另类欧美小说| 久久精品在线播放| 午夜精品福利一区二区蜜股av| 亚洲精品久久久久久动漫器材一区| 在线播放国产视频| 欧美日韩亚洲在线| 最近2019中文字幕一页二页| 一区视频在线播放| 狠狠躁夜夜躁av无码中文幕| xxxxxx黄色| 青春草在线视频免费观看| 欧美激情手机在线视频 | 国产高清一区日本| 国产又大又粗又爽| 国产黑丝在线视频| 色噜噜一区二区| 97超碰国产精品女人人人爽| 欧美日韩综合在线| 26uuuu精品一区二区| 国产精品欧美久久久久天天影视| 波多野结衣一二三区| 一区二区三区四区视频在线观看| 久久久女女女女999久久| 欧美这里有精品| 久久亚洲一级片| 成人免费一级视频| 久草网在线观看| 天堂在线精品视频| 黄色免费高清视频| 国产在线精品播放| 亚洲精品在线91| 黄色一区二区三区| av电影在线观看一区| 亚洲成人第一区| 亚洲国产美女视频| 日本少妇一级片| 日本精品久久久久久久久久| 97av影视网在线观看| 欧美精品在线看| 亚洲第一区第二区| 疯狂做受xxxx欧美肥白少妇| 成人美女在线观看| 黄色片一区二区| 懂色av.com| 亚洲熟妇一区二区三区| 女人另类性混交zo| 在线视频亚洲自拍| 国产91精品入口17c| 久久久久久久一区二区| 日韩精品极品视频| 欧美美女激情18p| 亚洲国产成人精品视频| 91视频91自| 国产一区二区三区国产| h狠狠躁死你h高h| 久久久久久久久久久久久av| 在线观看日本中文字幕| av网址在线观看免费| 综合一区中文字幕| 欧美高清性xxxxhd| 成人自拍性视频| 清纯唯美亚洲激情| 欧美肥臀大乳一区二区免费视频| 亚洲国产精久久久久久久| 欧美亚洲动漫制服丝袜| 亚洲国产成人av网| 国产精品拍天天在线| 国产99精品国产| 国内精品免费在线观看| 久久精品一区| 空姐吹箫视频大全| 91丨porny丨在线中文 | 国产精品丝袜久久久久久消防器材| 日本精品一区二区三区高清 久久 日本精品一区二区三区不卡无字幕 | 成人午夜视频免费观看| 色撸撸在线观看| 蜜桃av噜噜一区二区三区小说| 一个人看的www久久| 午夜啪啪小视频| 天天爽夜夜爽夜夜爽| 欧美日韩美少妇| 国产精品日韩一区二区三区| 亚洲国产av一区二区三区| 亚洲三级在线看| 91高跟黑色丝袜呻吟在线观看| 萌白酱视频在线| 日本久久一区二区| 少妇人妻无码专区视频| 综合激情网五月| 欧美午夜无遮挡| 日韩影院一区| hs视频在线观看| 中文字幕在线亚洲| 久久久福利影院| 久久精品一区二区三区四区 | 日韩精品999| 亚洲av成人片色在线观看高潮| 国产福利91精品一区二区三区| 国产一区二区三区四区hd| 免费人成在线不卡| 国产在线一区二区三区欧美| av在线综合网|