色综合中文综合网_性猛交娇小69hd_久久精品99久久久久久_欧美日韩精品一区二区三区四区 _97视频色精品_国产高清精品久久久久_日日鲁鲁鲁夜夜爽爽狠狠视频97 _国产成人免费视频精品含羞草妖精 _熟女少妇在线视频播放_精品人妻一区二区三区麻豆91 _久久女同性恋中文字幕_一区二区福利视频

Kimi論文自曝推理架構(gòu),80%流量都靠它承擔(dān)

吞吐量最高增長525%

克雷西 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

月之暗面和清華KVCache.ai團(tuán)隊的最新論文,首次揭秘了Kimi背后的推理架構(gòu)

要知道Kimi是國產(chǎn)大模型的當(dāng)紅炸子雞,火到可以說從來沒缺過流量,甚至還經(jīng)常出現(xiàn)過載。

圖片

而隨著論文的發(fā)布,這潑天的流量到底如何被Kimi接住的問題,也有了答案。

圖片

Kimi背后的推理架構(gòu)名叫Mooncake(月餅),主要特點(diǎn)是采取了分離式的設(shè)計方案

而且,Mooncake在設(shè)計之時就考慮了可能出現(xiàn)的大流量場景,并針對這種情況專門研發(fā)。

在模擬場景下,Mooncake最高能帶來525%的吞吐量增長,實際場景中也能多處理75%請求

另據(jù)月之暗面工程副總裁許欣然的一篇知乎文章介紹,Kimi有80%以上的流量,都是由該系統(tǒng)承接

從KV緩存出發(fā),建造分布式系統(tǒng)

整個Mooncake系統(tǒng)設(shè)計的核心,是圍繞著KV緩存展開的。

(KV緩存用于存儲鍵-值對(Key-Value Pairs),主要優(yōu)勢在于可以簡單高效地訪問和檢索數(shù)據(jù),在大模型當(dāng)中可以提高推理速度并減少計算資源消耗。)

之所以這樣做,是因為團(tuán)隊預(yù)計KV緩存的容量會長期保持高位,因此圍繞KV緩存進(jìn)行優(yōu)化十分必要。

圖片

從結(jié)構(gòu)上看,Mooncake由全局調(diào)度器(Conductor)、Prefill節(jié)點(diǎn)集群、Decoding節(jié)點(diǎn)集群和分布式KVCache池幾部分組成,另外還有RDMA通信組件(Messenger)。

其中全局調(diào)度器是用戶請求到達(dá)系統(tǒng)后的第一站,它負(fù)責(zé)接收請求并根據(jù)KV緩存分布和負(fù)載情況,將請求調(diào)度到Prefill和Decoding節(jié)點(diǎn)

調(diào)度器在調(diào)度時需要綜合考慮KV緩存的復(fù)用長度、負(fù)載均衡等因素,實現(xiàn)KV緩存復(fù)用的最大化。

具體到Mooncake,它采用了一種啟發(fā)式的自動熱點(diǎn)遷移策略,可以在不需要精確預(yù)測未來訪問的情況下自動復(fù)制熱點(diǎn)KV緩存塊。

同時,這種動態(tài)復(fù)制熱點(diǎn)KV緩存塊的方式,也是實現(xiàn)均衡負(fù)載的一種重要途徑。

實驗結(jié)果表明,與隨機(jī)調(diào)度和負(fù)載均衡調(diào)度相比,Mooncake的調(diào)度策略可以顯著降低TTFT(Time To First Token,首個Token延遲),提高系統(tǒng)性能。

圖片

完成調(diào)度之后,任務(wù)會分別交由Prefill和Decoding節(jié)點(diǎn)進(jìn)行運(yùn)算。

Prefill節(jié)點(diǎn)接收到調(diào)度器轉(zhuǎn)發(fā)過來的請求后,會從KV緩存池中讀取緩存,執(zhí)行預(yù)計算并生成新的KV緩存。

對于長上下文請求,Mooncake還會分塊流水并行的方式,使用多個節(jié)點(diǎn)并行處理來降低延遲。

而Decoding節(jié)點(diǎn)除了接收調(diào)度器發(fā)來的請求外,還會收到Prefill階段生成的KV緩存,節(jié)點(diǎn)會對這些緩存執(zhí)行解碼并生成最終結(jié)果。

圖片

這當(dāng)中,大容量、高性能的KV緩存存儲由緩存池提供;RDMA通信組件則憑借其高帶寬、低延遲的優(yōu)勢,負(fù)責(zé)在不同節(jié)點(diǎn)之間的KV緩存?zhèn)鬏敗?/p>

除了采取以KV緩存為中心的工作流程外,Mooncake還有另一個重要特點(diǎn)——分離式的架構(gòu)

采取分離式架構(gòu)的重要因素之一,是在于Prefill和Decoding兩個階段的計算特性差異很大

具體來說,它們分別要對TTFT和TBT(Time Between Tokens,Token間延遲)負(fù)責(zé)。

這就導(dǎo)致了兩者在計算復(fù)雜度、內(nèi)存訪問方式、并行粒度和對延遲的敏感度上都存在差異:

圖片

所以,月之暗面團(tuán)隊對GPU集群也進(jìn)行了相應(yīng)的拆分,以便將它們分別部署在不同節(jié)點(diǎn)集群上,實現(xiàn)資源隔離和專門優(yōu)化。

另外,Mooncake中的KV緩存池也是分布式的,同時充分利用了GPU集群中空閑的CPU、DRAM和SSD資源,實現(xiàn)了大容量、高帶寬的KV緩存存儲和傳輸,同時也減少了閑置資源的浪費(fèi)。

圖片

提前預(yù)測負(fù)載,及時拒絕超量請求

不過,即使Mooncake采用了高效的分離架構(gòu),但實際環(huán)境中的超大流量,對系統(tǒng)仍然是一個考驗。

對此,作者也提出了新的應(yīng)對策略。

在過載場景下,調(diào)度的關(guān)鍵是決定是否接受新的請求。

由于Mooncake采用的是分離式架構(gòu),可以采取早期拒絕策略,在Prefill階段就根據(jù)Decoding節(jié)點(diǎn)的負(fù)載情況,提前拒絕請求。

Mooncake使用TTFT和TBT的SLO(Service Level Objective,服務(wù)等級目標(biāo))滿足情況作為負(fù)載的度量指標(biāo)。

具體的SLO要求是TTFT的90分位值(P90)不超過單個請求在空載條件下處理時間的10倍,TBT的P90值不超過5倍。

這種早期拒絕策略可以顯著減少無效的Prefill計算,提高資源利用率,但同時也帶來了新的問題——Prefill和Decoding節(jié)點(diǎn)負(fù)載的波動,導(dǎo)致資源利用率下降、影響系統(tǒng)性能。

圖片

這是由于早期拒絕策略中,系統(tǒng)做出請求拒絕的決策時存在滯后性,如下圖所示:

  • 在階段1,Prefill節(jié)點(diǎn)和Decoding節(jié)點(diǎn)的負(fù)載都較低,此時調(diào)度器會持續(xù)接受新的請求,直到Prefill節(jié)點(diǎn)的負(fù)載達(dá)到上限。
  • 進(jìn)入階段2后,Rrefill節(jié)點(diǎn)處理的請求開始進(jìn)入Decoding節(jié)點(diǎn),導(dǎo)致其負(fù)載快速上升。當(dāng)Decoding節(jié)點(diǎn)的負(fù)載超過閾值后調(diào)度器開始拒絕新的請求,但此時Prefill節(jié)點(diǎn)的負(fù)載仍然很高。
  • 到了階段3,由于調(diào)度器拒絕新請求,Prefill節(jié)點(diǎn)的負(fù)載開始下降。但此前積壓的請求正在Decoding階段處理,節(jié)點(diǎn)的負(fù)載仍然很高。
  • 最后是階段4,Decoding節(jié)點(diǎn)的負(fù)載開始下降,因為前面的請求都處理完成,而新的請求又被拒絕了。這時調(diào)度器再次開始接受新請求,Prefill節(jié)點(diǎn)的負(fù)載又開始上升。
  • 之后,這個過程會周期性地重復(fù),導(dǎo)致Prefill和Decoding節(jié)點(diǎn)的負(fù)載出現(xiàn)反相位的波動。

圖片

針對這一問題,月之暗面團(tuán)隊對這種簡單的早期拒絕策略進(jìn)行了修正,提出了基于預(yù)測的早期拒絕策略,從而降低節(jié)點(diǎn)負(fù)載的波動。

這種策略的核心思想是對一段時間后的Decoding節(jié)點(diǎn)負(fù)載進(jìn)行預(yù)測,并基于預(yù)測結(jié)果決定是否拒絕請求。

預(yù)測可以在請求級別和系統(tǒng)級別兩個層面進(jìn)行,請求級別的預(yù)測比較困難,因為要預(yù)測單個請求的執(zhí)行時間;系統(tǒng)級別的預(yù)測相對容易一些,只需要預(yù)測整體的負(fù)載情況。

Mooncake采用的是一種簡化的系統(tǒng)級別預(yù)測方法,假設(shè)每個請求的執(zhí)行時間服從某個固定分布,據(jù)此預(yù)測未來一段時間內(nèi)的負(fù)載情況。

實驗結(jié)果表明,這種基于預(yù)測的早期拒絕策略,可以有效緩解負(fù)載波動問題。

圖片

最終,端到端性能評估結(jié)果表明,Mooncake的架構(gòu)設(shè)計和優(yōu)化策略,有效提高了推理服務(wù)性能,尤其在長上下文和真實場景下優(yōu)勢更加顯著。

在ArXiv Summarization和L-Eval數(shù)據(jù)集上,Mooncake的吞吐量比baseline方法vLLM分別提高了20%和40%。

圖片

在模擬數(shù)據(jù)集上,Mooncake的吞吐量最高可達(dá)525%,在真實數(shù)據(jù)集上也可以比vLLM多處理約75%的請求。

圖片

過載場景下的性能評估結(jié)果則顯示,使用基于預(yù)測的早期拒絕策略時,拒絕的請求數(shù)量從baseline的4183個減少到了3589個,說明系統(tǒng)的請求處理能力得到了提高。

圖片

針對未來的發(fā)展,論文的另一位作者、清華大學(xué)計算機(jī)系助理教授章明星表示,從目前的趨勢來看,大模型服務(wù)的負(fù)載會愈發(fā)的復(fù)雜和多元化,調(diào)度會越來越復(fù)雜,也會越來越重要。

而對于月之暗面的發(fā)展方向,則是由許欣然做了解答——分布式策略的實施,也意味著未來月之暗面的整個系統(tǒng),將往“算力/$”和“帶寬/$”兩個方向獨(dú)立發(fā)展,從而對硬件優(yōu)化更加友好。

論文地址:
https://arxiv.org/pdf/2407.00079
GitHub:
https://github.com/kvcache-ai/Mooncake
參考鏈接:
[1]https://zhuanlan.zhihu.com/p/705910725
[2]https://zhuanlan.zhihu.com/p/706204757

版權(quán)所有,未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用,違者必究。

相關(guān)閱讀

欧美日本高清视频| 992tv快乐视频| 欧美连裤袜在线视频| 国产一二三四区在线观看| 日本日本精品二区免费| 成人欧美视频在线| 久久久91精品国产| 在线不卡的av| 国产亚洲短视频| 久久午夜免费视频| 亲爱的老师9免费观看全集电视剧| 91麻豆精品国产综合久久久久久| 91精品婷婷国产综合久久| 久久亚洲捆绑美女| 91理论电影在线观看| 中文字幕成人一区| 欧美视频观看一区| 亚洲高清在线观看一区| 奇米影音第四色| 成人免费视频国产免费观看| av电影在线观看不卡| 欧美96一区二区免费视频| 国产成人免费观看视频 | 91青青草视频| 国产成人av在线播放| 久久久综合网站| 蜜桃精品一区二区| 日韩hmxxxx| 国产成人美女视频| 自拍视频一区二区三区| 热久久最新地址| av鲁丝一区鲁丝二区鲁丝三区| 蜜臀精品久久久久久蜜臀| 欧美天天综合色影久久精品| 欧美激情xxxxx| 国产欧美日韩91| 国产精品88a∨| 亚洲色图综合久久| 日韩精品在线观看网站| 久久久久久久香蕉网| 亚洲国产精品久久一线不卡| 久久精品久久精品| 欧美日韩电影在线播放| 欧美色男人天堂| 欧美一区二区三区不卡| 日韩精品在线私人| 国产一区二区久久| 国产一级一级片| 激情五月色婷婷| 国产精品色综合| 亚洲第一页视频| 91制片厂在线| 国产精品99精品| 中文字幕在线观看1| 日韩国产欧美在线视频| 男人添女人下部高潮视频在观看| 26uuu久久噜噜噜噜| 日本高清无吗v一区| 亚洲综合免费观看高清完整版 | www..com久久爱| aa级大片欧美| 欧美日韩亚洲综合在线 欧美亚洲特黄一级| 亚洲精品久久久久中文字幕欢迎你| 国产美女在线精品免费观看| 久久国产精品网| 欧美成人三级在线视频| 国产高清自拍视频| 在线永久看片免费的视频| 国产一二三四五区| 日本免费网站视频| 国产精品亚洲一区二区三区在线| 在线观看日韩一区| 久久综合伊人77777| 亚洲视频一区二区免费在线观看 | 国产精品91一区二区| 亚洲国产毛片完整版| 日本人妻一区二区三区| 一区二区三区在线影院| 97人人干人人| 人妻av一区二区| 日韩无码精品一区二区三区| 在线播放精品视频| 日韩国产欧美三级| 午夜精品久久久久久久99水蜜桃| 久久国产香蕉视频| 日韩一级片av| 国产调教在线观看| 又黄又爽的网站| 精品一区二区综合| 亚洲欧美国产高清va在线播| 91精品久久久久久蜜桃| 国产超碰在线播放| 国产精品免费aⅴ片在线观看| 精品久久久久久久一区二区蜜臀| 国产精品视频免费一区二区三区 | 欧美在线观看不卡| 国产精品久久久久久久久晋中| 日韩视频亚洲视频| 一二三四视频社区在线| 国产乱码在线观看| 亚洲va欧美va国产va天堂影院| 97久久久免费福利网址| 一区二区免费av| 少妇无码一区二区三区| 欧美三片在线视频观看 | 亚洲国产天堂av| 国产91精品一区二区| 色天天综合狠狠色| 超碰网在线观看| 午夜精品久久久久久久99热黄桃| 在线观看不卡一区| 激情一区二区三区| 国产精品二区一区二区aⅴ| 国产精品乱人伦中文| 久久青草福利网站| 制服.丝袜.亚洲.中文.综合懂| 久久精品国产在热久久| 亚洲美女又黄又爽在线观看| 国产一二三在线视频| 国产深喉视频一区二区| 欧美一区二区不卡视频| 欧美一区二区三区在线播放 | 一区二区三区四区五区视频在线观看 | 888奇米影视| 日韩欧美中文字幕精品| 欧美日韩午夜爽爽| 亚洲h视频在线观看| 精品少妇一区二区三区免费观看| 久久精品在线免费视频| 亚洲av无码一区二区三区性色| 在线不卡一区二区| 秋霞在线一区二区| 东京干手机福利视频| 亚洲国产成人精品电影| 波多野结衣乳巨码无在线| 污视频在线免费观看| 亚洲午夜av电影| 日本免费观看网站| 成人看片黄a免费看在线| 91精品国产99久久久久久| 亚洲精品色午夜无码专区日韩| 国产精品欧美一区喷水| 亚洲中国色老太| 亚洲成人第一网站| 欧美精品一区二区三区久久久| www.亚洲天堂网| 成人黄色av电影| 亚洲999一在线观看www| 国产成人麻豆免费观看| 亚洲国产欧美在线成人app | 日本欧美一区二区在线观看| 久久电影一区二区| 国产高清一区二区三区四区| 洋洋成人永久网站入口| 一级特黄录像免费播放全99| 日韩中文字幕区一区有砖一区| 欧美精品激情在线观看| 国产少妇在线观看| 欧美丰满美乳xxx高潮www| 99久久久无码国产精品6| 成人av资源在线| 高清国产一区| 蜜臀av午夜精品| 97av在线播放| 国产情侣自拍av| 日韩av一区二区在线| 中国男女全黄大片| 亚洲一区自拍偷拍| 国产 日韩 欧美在线| 国产91精品精华液一区二区三区| 亚洲影院色在线观看免费| 亚洲最大成人在线视频| 久久影院中文字幕| 精品少妇一二三区| 日韩av在线免费观看一区| 欧美熟妇精品一区二区| 香蕉成人啪国产精品视频综合网| 91午夜在线观看| 高清av一区二区| 久久www免费人成精品| 蜜臀久久99精品久久久久久9| 成人激情在线观看| 亚洲精品一区二区三区四区| 国产91ⅴ在线精品免费观看| 日本高清www免费视频| 日韩av影院在线观看| 欧美日韩国产黄色| 亚洲成人999| 亚洲天堂精品一区| 日韩风俗一区 二区| 久久久久亚洲AV成人无在| 日韩一卡二卡三卡国产欧美| 短视频在线观看| 日韩美女一区二区三区四区| 精品人伦一区二区| 亚洲高清一二三区| 国产盗摄一区二区三区在线| 一区二区欧美久久| 日本一级片免费看| 欧美老女人性视频| 国产精品国产一区二区三区四区 | 每日在线观看av| 国产精品久久久久一区二区三区共| 中文字幕精品一区日韩| 国产欧美精品一区二区色综合| 日本wwwcom| 亚洲一区日韩精品中文字幕| 国产成人黄色网址| 欧美日韩激情在线| 欧美精品日韩在线| 日韩在线观看网址| 影音先锋黄色网址| 国产美女精品视频免费观看| 日本麻豆一区二区三区视频| 欧美日韩亚洲综合一区二区三区激情在线| 国产成人免费av在线| 精品少妇人妻av一区二区| 日韩理论片网站| 911福利视频| 91超碰这里只有精品国产| 俄罗斯毛片基地| 欧美大片va欧美在线播放| 国产白浆在线观看| 久久精精品视频| 中文字幕欧美三区| 九色porny自拍| 日韩欧美aaaaaa| 二区视频在线观看| 成人精品一区二区三区电影免费| 国产伦精品一区二区三区免费迷| 青草视频在线观看视频| 色综合天天综合网天天狠天天| 欧美特级黄色录像| 欧美精品日韩三级| 日韩国产精品大片| 9色porny| 91麻豆精品国产91久久久使用方法 | 欧美日韩国产成人| 人人超碰91尤物精品国产| 中文字幕色呦呦| 色婷婷国产精品久久包臀| 亚洲天堂精品一区| 欧美在线视频观看免费网站| 国产91精品入口| 毛葺葺老太做受视频| 国产视频一区在线| 亚洲国产福利视频| 欧美日韩中文字幕在线播放| 69av一区二区三区| 天天干天天插天天射| 久久久av水蜜桃| 韩曰欧美视频免费观看| 免费无遮挡无码永久在线观看视频| 国产精品久久电影观看| 久久综合久久综合九色| 中文字幕在线播放一区| 欧美激情中文字幕乱码免费| 成人小视频在线观看| 日韩精品国产一区| 国语自产精品视频在线看一大j8| 激情综合一区二区三区| 日本美女高潮视频| 中文字幕亚洲欧美在线| 久热成人在线视频| 亚洲第一区第二区第三区| 伦理中文字幕亚洲| a亚洲天堂av| 国产ts在线播放| 成人激情在线观看| 午夜精品一区二区三区免费视频 | 天堂av免费看| 亚洲激情视频在线观看| 日韩高清一区二区| 中文国产在线观看| 欧美资源在线观看| 中文字幕av资源一区| 51精品免费网站| 美国av一区二区三区| 在线播放中文字幕一区| 国产88在线观看入口| 污视频免费在线观看网站| 欧美激情亚洲自拍| 中文字幕一区二区视频| 日本在线小视频| 激情图片qvod| 色偷偷噜噜噜亚洲男人的天堂| 成人免费毛片app| 亚洲а∨天堂久久精品2021| 超碰在线97av| 欧美精品在线一区二区| 精品国产av一区二区三区| 五月天亚洲视频| 7777精品久久久久久| 亚洲精品成人精品456| 国产免费www| 丁香婷婷激情网| 欧美诱惑福利视频| 天天综合日日夜夜精品| 亚洲第一大网站| 欧美国产日韩另类| 国产欧美精品一区二区三区-老狼 国产欧美精品一区二区三区介绍 国产欧美精品一区二区 | 国产性猛交xxxx免费看久久| 99久久综合精品| 日本三级午夜理伦三级三| 欧洲精品在线播放| 久久久视频在线| 欧美日韩一区二区免费在线观看| 蜜桃av中文字幕| 黄色免费视频网站| 久久综合一区二区三区| 日韩精品视频在线| 中文字幕第一区综合| 婷婷激情五月综合| 亚洲一区精品视频在线观看| 国产伦精品一区二区三区精品视频| 色视频一区二区| 秋霞午夜鲁丝一区二区老狼| 日本精品久久久久中文| 免费国产成人看片在线| 欧美激情xxxxx| 欧美日韩一区二区三区不卡 | 久久精品成人欧美大片| 亚洲免费色视频| 亚洲国产一二三区| www久久久久久久| 日本一级黄视频| 国产精品久久久久久av福利| 日韩欧美久久一区| 国产欧美一区二区三区在线看蜜臀| 男人天堂2024| 美女又黄又免费的视频| 欧美日本韩国在线| 欧美成人午夜剧场免费观看| 色偷偷88欧美精品久久久| 国产精品888| 国产精品福利电影| 久久久免费看片| 男人亚洲天堂网| 精品一区在线播放| 韩国三级电影久久久久久| 在线成人免费视频| 国产精品少妇自拍| 手机看片1024日韩| 国语对白一区二区| 91福利免费观看| 日本一区二区三区四区在线观看 | 亚洲一区二区视频在线观看| 日日夜夜精品视频免费| 日韩欧美一区二区一幕| 无码人妻丰满熟妇啪啪网站| 亚洲AV无码成人精品一区| 国产精品女主播| 日韩中文字幕第一页| 在线成人av网站| 亚洲自拍偷拍欧美| 顶级嫩模精品视频在线看| 国产精品久久久久久久免费| 欧美激情图片小说| 国产香蕉精品视频| 中国丰满人妻videoshd| 国产精品大全| 欧美亚洲午夜视频在线观看| 亚洲免费福利视频| 欧美性生交片4| 一区二区三区在线免费播放| www.色综合.com| 久久综合图片| av中文字幕在线免费观看| 日韩三级视频在线播放| 国产破处视频在线观看| ass极品水嫩小美女ass| 人妻无码久久一区二区三区免费| 久久视频在线观看中文字幕| 国产精品流白浆视频| 欧美黑人xxx| 最近2019中文免费高清视频观看www99 | 人妻丰满熟妇av无码久久洗澡 | 久久久99久久精品女同性| 精品人在线二区三区| 在线观看日产精品| 亚洲h在线观看| 国产拍揄自揄精品视频麻豆 | 久草手机在线观看| 日韩精品123区| 伊人影院综合网| 国产男女猛烈无遮挡a片漫画| 午夜激情视频网| 中文字幕线观看| 国产色视频在线播放| 亚洲色欲久久久综合网东京热| 亚洲国产精品女人| 蜜桃av噜噜一区二区三区| 成人免费视频视频在| 91久久久国产精品| 国产精品亚洲自拍| 国产精品视频内| 国产精品丝袜一区二区三区| 国产成人av网址| 国产91在线高潮白浆在线观看| 69av在线播放| 欧美一区二区三区免费视| 97精品久久久| 日本aⅴ大伊香蕉精品视频| 欧美国产日韩在线| 欧美亚洲国产日韩2020| 日本一区二区三区在线播放| 国产精品久久久久久久久免费| 国产剧情久久久久久| 亚洲综合一区二区不卡| 国产精品久久久久久久久久久久午夜片 |