訓(xùn)練時(shí)間減半，性能不降反升！騰訊混元開源圖像生成高效強(qiáng)化方案MixGRPO

不圓 2025-08-02 17:55:52 來(lái)源：量子位

一種結(jié)合了SDE和ODE采樣的新型訓(xùn)練框架

混元基礎(chǔ)模型團(tuán)隊(duì) 投稿

量子位 | 公眾號(hào) QbitAI

圖像生成不光要好看，更要高效。

混元基礎(chǔ)模型團(tuán)隊(duì)提出全新框架MixGRPO，該框架通過(guò)結(jié)合隨機(jī)微分方程（SDE）和常微分方程（ODE），利用混合采樣策略的靈活性，簡(jiǎn)化了MDP中的優(yōu)化流程，從而提升了效率的同時(shí)還增強(qiáng)了性能。

基于MixGRPO，研究人員提出了一個(gè)更快的變體MixGRPO-Flash，在保持相近性能的同時(shí)進(jìn)一步提升了訓(xùn)練效率。

MixGRPO在人類偏好對(duì)齊的多個(gè)維度上均表現(xiàn)出顯著提升，效果和效率均優(yōu)于DanceGRPO，訓(xùn)練時(shí)間降低近50%。值得注意的是，MixGRPO-Flash可將訓(xùn)練時(shí)間進(jìn)一步降低71%。

開源代碼請(qǐng)參考文末鏈接。

MixGRPO模型解析

GRPO中的ODE-SDE混合采樣

近年來(lái)，文本到圖像（Text-to-Image，T2I）任務(wù)的最新進(jìn)展表明，通過(guò)在后訓(xùn)練階段引入基于人類反饋的強(qiáng)化學(xué)習(xí)（Reinforcement Learning from Human Feedback，RLHF）策略以最大化獎(jiǎng)勵(lì)，流匹配模型的性能得到了顯著提升。

具體而言，基于組相對(duì)策略優(yōu)化（Group Relative Policy Optimization，GRPO）的方法近期被提出，能夠?qū)崿F(xiàn)與人類偏好的最佳對(duì)齊。

當(dāng)前概率流模型中的GRPO方法，如Flow-GRPO和DanceGRPO，在每個(gè)去噪步驟中利用隨機(jī)微分方程（Stochastic Differential Equations，SDE）采樣引入圖像生成的隨機(jī)性，以解決RLHF中對(duì)隨機(jī)探索的依賴。

它們將去噪過(guò)程建模為隨機(jī)環(huán)境下的馬爾可夫決策過(guò)程（MDP），并使用GRPO優(yōu)化整個(gè)狀態(tài)-動(dòng)作序列。

然而，由于去噪迭代過(guò)程帶來(lái)的巨大開銷，這顯著降低了訓(xùn)練速度。

具體來(lái)說(shuō)，為了計(jì)算后驗(yàn)概率的比值，必須分別使用舊策略模型和新策略模型獨(dú)立完成全步驟采樣。

雖然DanceGRPO提出了隨機(jī)選擇部分去噪步驟進(jìn)行優(yōu)化的方法，但研究團(tuán)隊(duì)在圖1中的實(shí)證分析表明，隨著所選子集規(guī)模的縮小，性能會(huì)出現(xiàn)顯著下降。

圖1.不同優(yōu)化去噪步驟數(shù)量下的性能對(duì)比

根據(jù)Flow-GRPO，流匹配中的SDE采樣可以被構(gòu)建為一個(gè)隨機(jī)環(huán)境下的馬爾可夫決策過(guò)程（MDP）。

在采樣過(guò)程中，智能體生成一條軌跡，定義為，并獲得獎(jiǎng)勵(lì)。

在MixGRPO中，研究團(tuán)隊(duì)提出了一種結(jié)合SDE與ODE的混合采樣方法。MixGRPO定義了一個(gè)區(qū)間，它是去噪時(shí)間范圍的子區(qū)間，滿足。

在去噪過(guò)程中，他們?cè)趨^(qū)間S內(nèi)采用SDE采樣，區(qū)間外采用ODE采樣，且區(qū)間S會(huì)隨著訓(xùn)練過(guò)程從T逐步移動(dòng)到0（見圖2）。

圖2.不同采樣策略下采樣圖像的t-SNE可視化

MixGRPO將智能體的隨機(jī)探索空間限制在區(qū)間S內(nèi)，將MDP的序列長(zhǎng)度縮短為子集，并僅對(duì)該子集進(jìn)行強(qiáng)化學(xué)習(xí)（RL）優(yōu)化：

MDP中的其他設(shè)置保持不變。MixGRPO不僅降低了計(jì)算開銷，同時(shí)也減輕了優(yōu)化難度。接下來(lái)，研究團(tuán)隊(duì)推導(dǎo)MixGRPO的具體采樣形式和優(yōu)化目標(biāo)。

對(duì)于確定性的概率流ODE，其形式如下：

其中，是稱為漂移系數(shù)的向量值函數(shù)，是稱為擴(kuò)散系數(shù)的標(biāo)量函數(shù)。是時(shí)刻t的得分函數(shù)。

根據(jù)Fokker-Planck方程(risken1996fokker)，song2020score證明了式（2）具有以下等價(jià)的概率流SDE，該SDE在每個(gè)時(shí)間點(diǎn)t保持相同的邊際分布：

在MixGRPO中，研究團(tuán)隊(duì)將ODE和SDE混合用于采樣，具體形式如下：

具體來(lái)說(shuō)，對(duì)于Flow Matching（FM），尤其是Rectified Flow（RF），采樣過(guò)程可以看作是一個(gè)確定性的ODE：

式（5）實(shí)際上是式（2）的一個(gè)特例，其中速度場(chǎng)。因此，他們可以推導(dǎo)出RF的ODE-SDE混合采樣形式如下：

在RF框架中，模型用于預(yù)測(cè)確定性O(shè)DE的速度場(chǎng)，表示為。根據(jù)liu2025flow，score函數(shù)表示為。噪聲的標(biāo)準(zhǔn)差表示為。

根據(jù)標(biāo)準(zhǔn)維納過(guò)程的定義，他們使用對(duì)SDE采用Euler-Maruyama離散化，對(duì)ODE采用Euler離散化，設(shè)

為包含從

到

之間所有時(shí)間步的集合，他們構(gòu)建了MixGRPO中的最終去噪過(guò)程如下：

MixGRPO中的訓(xùn)練過(guò)程與Flow-GRPO和DanceGRPO類似，但他們僅需對(duì)區(qū)間S內(nèi)采樣的時(shí)間步進(jìn)行優(yōu)化。最終的訓(xùn)練目標(biāo)表示為：

其中，稱為策略比率（policy ratio），為優(yōu)勢(shì)函數(shù)（advantage score）。研究團(tuán)隊(duì)設(shè)定，

其中，由獎(jiǎng)勵(lì)模型提供。

需要注意的是，研究團(tuán)隊(duì)省略了KL Loss。

盡管KL Loss在一定程度上可以緩解reward hacking問(wèn)題，但受flow_grpo_issue7的啟發(fā)，他們?cè)跍y(cè)試階段采用混合模型采樣（mixed model sampling），這能夠顯著解決獎(jiǎng)勵(lì)劫持問(wèn)題（詳見附錄A）。

與對(duì)所有時(shí)間步進(jìn)行優(yōu)化相比，MixGRPO降低了策略的函數(shù)評(píng)估次數(shù)（NFE，Number of Function Evaluations）。

然而，策略的NFE并未減少，因?yàn)樾枰暾评硪垣@得用于獎(jiǎng)勵(lì)計(jì)算的最終圖像。

對(duì)于舊策略模型的采樣加速，研究團(tuán)隊(duì)將在后面通過(guò)引入高階求解器進(jìn)行優(yōu)化。

綜上所述，混合ODE-SDE采樣在顯著降低計(jì)算開銷的同時(shí)，保證了采樣過(guò)程不會(huì)偏離單獨(dú)ODE或SDE采樣在每個(gè)時(shí)間步的邊際分布，這得益于概率流（probability flow）的等價(jià)性。

作為優(yōu)化調(diào)度器的滑動(dòng)窗口

實(shí)際上，區(qū)間S在訓(xùn)練過(guò)程中可以是非固定的。沿著離散的去噪時(shí)間步序列，MixGRPO 定義了一個(gè)滑動(dòng)窗口，并且僅在該窗口內(nèi)的時(shí)間步上進(jìn)行優(yōu)化。

其中，是滑動(dòng)窗口的左邊界，是表示窗口大小的超參數(shù)。

滑動(dòng)窗口的左邊界會(huì)隨著訓(xùn)練的進(jìn)行而移動(dòng)。

在實(shí)驗(yàn)中，研究團(tuán)隊(duì)發(fā)現(xiàn)窗口大小、移動(dòng)間隔以及窗口步長(zhǎng)S都是關(guān)鍵的超參數(shù)。

通過(guò)消融研究（詳見實(shí)驗(yàn)4.4.1），他們確定了最優(yōu)的參數(shù)設(shè)置。當(dāng)總采樣步數(shù)T=25時(shí)，最佳性能對(duì)應(yīng)的參數(shù)為、和。詳細(xì)的滑動(dòng)窗口策略及MixGRPO算法可參見算法1。

算法1.MixGRPO的訓(xùn)練過(guò)程

限制在滑動(dòng)窗口內(nèi)使用SDE采樣，不僅保證了生成圖像的多樣性，還使模型能夠集中精力優(yōu)化該窗口內(nèi)的流動(dòng)。沿著去噪方向的移動(dòng)反映了概率流從強(qiáng)到弱的隨機(jī)性，如圖2所示。

這本質(zhì)上是一種貪心策略，類似于強(qiáng)化學(xué)習(xí)中為處理獎(jiǎng)勵(lì)而分配折扣因子的做法，即在早期過(guò)程給予來(lái)自更大搜索空間的獎(jiǎng)勵(lì)更高的權(quán)重。

研究團(tuán)隊(duì)發(fā)現(xiàn)，即使滑動(dòng)窗口保持不動(dòng)（Frozen），僅優(yōu)化較早的時(shí)間步，MixGRPO依然能夠取得良好效果，尤其是在ImageReward和UnifiedReward指標(biāo)上表現(xiàn)突出。

基于此直覺，他們還提出了如下的指數(shù)衰減策略，使得隨去噪步數(shù)的增加而減小，從而使模型能夠更專注于在更大搜索空間內(nèi)進(jìn)行優(yōu)化。

其中，是初始移動(dòng)間隔，k是衰減因子，是控制衰減開始時(shí)機(jī)的閾值。指數(shù)函數(shù)計(jì)算的是，而修正線性單定義為。

開銷與性能之間的權(quán)衡

MixGRPO在滑動(dòng)窗口內(nèi)采用SDE采樣，窗口外則采用ODE采樣，從而允許使用高階ODE求解器加速GRPO訓(xùn)練時(shí)的采樣過(guò)程。

利用ODE采樣的時(shí)間步被劃分為滑動(dòng)窗口之前和之后兩部分。

滑動(dòng)窗口之后的時(shí)間步僅影響?yīng)剟?lì)計(jì)算，而窗口之前的時(shí)間步既影響?yīng)剟?lì)，也會(huì)對(duì)策略比率計(jì)算中的累積誤差產(chǎn)生貢獻(xiàn)。

因此，研究團(tuán)隊(duì)重點(diǎn)關(guān)注滑動(dòng)窗口之后時(shí)間步的加速。

gao2025diffusionmeetsflow已證明流匹配模型（FM）的ODE采樣與DDIM等價(jià)，且上述過(guò)程也表明擴(kuò)散概率模型（DPM）與FM在去噪過(guò)程中共享相同的ODE形式。

因此，專為DPM采樣加速設(shè)計(jì)的高階ODE求解器，如DPM-Solver系列、UniPC，同樣適用于FM。

研究團(tuán)隊(duì)已將DPM-Solver++重新形式化，以便在FM框架中應(yīng)用于 ODE 采樣加速，詳細(xì)推導(dǎo)見附錄B。

通過(guò)應(yīng)用高階求解器，他們實(shí)現(xiàn)了GRPO訓(xùn)練過(guò)程中對(duì)采樣的加速，這本質(zhì)上是在計(jì)算開銷與性能之間的權(quán)衡。

過(guò)度加速會(huì)導(dǎo)致時(shí)間步數(shù)減少，必然引起圖像生成質(zhì)量下降，進(jìn)而在獎(jiǎng)勵(lì)計(jì)算中積累誤差。

實(shí)踐中研究團(tuán)隊(duì)發(fā)現(xiàn)，二階DPM-Solver++足以顯著加速，同時(shí)保證生成圖像與人類偏好高度一致。

最終，他們采用了漸進(jìn)式和凍結(jié)式滑動(dòng)窗口策略，提出了MixGRPO-Flash和MixGRPO-Flash*。算法的詳細(xì)描述見附錄C。這些方法相比MixGRPO實(shí)現(xiàn)了更大程度的加速，同時(shí)在性能上也優(yōu)于DanceGRPO。

MixGRPO多方面表現(xiàn)最佳

實(shí)驗(yàn)設(shè)置

數(shù)據(jù)集

研究團(tuán)隊(duì)使用HPDv2 數(shù)據(jù)集中提供的提示詞進(jìn)行實(shí)驗(yàn)，該數(shù)據(jù)集是 HPS-v2 基準(zhǔn)的官方數(shù)據(jù)集。

訓(xùn)練集包含103,700條提示詞；實(shí)際上，MixGRPO 在僅使用9,600條提示詞訓(xùn)練一個(gè)epoch后，就已取得良好的人類偏好對(duì)齊效果。

測(cè)試集包含400條提示詞。提示詞風(fēng)格多樣，涵蓋四種類型：“動(dòng)畫”（Animation）、“概念藝術(shù)”（Concept Art）、“繪畫”（Painting）和“照片”（Photo）。

模型

繼承自DanceGRPO，研究團(tuán)隊(duì)采用基于流匹配的先進(jìn)文本生成圖像模型 FLUX.1 Dev作為基礎(chǔ)模型。

開銷評(píng)估

在評(píng)估計(jì)算開銷時(shí)，研究團(tuán)隊(duì)采用了兩個(gè)指標(biāo)：函數(shù)調(diào)用次數(shù)（NFE）和訓(xùn)練過(guò)程中每次迭代的時(shí)間消耗。

NFE分為和兩部分。

表示用于計(jì)算策略比率和生成圖像的參考模型的前向傳播次數(shù)；

則是僅用于計(jì)算策略比率的策略模型的前向傳播次數(shù)。

此外，GRPO每次迭代的平均訓(xùn)練時(shí)間能夠更準(zhǔn)確地反映加速效果。

表現(xiàn)評(píng)估

研究團(tuán)隊(duì)使用四個(gè)獎(jiǎng)勵(lì)模型作為訓(xùn)練中的獎(jiǎng)勵(lì)指導(dǎo)及性能評(píng)估指標(biāo)，分別是HPS-v2.1、Pick Score、ImageReward和Unified Reward。

這些指標(biāo)均基于人類偏好，但側(cè)重點(diǎn)不同，例如ImageReward強(qiáng)調(diào)圖文對(duì)齊和圖像保真度，而Unified Reward更關(guān)注語(yǔ)義層面。

DanceGRPO也證明了多獎(jiǎng)勵(lì)模型的使用能帶來(lái)更優(yōu)效果。為驗(yàn)證MixGRPO的魯棒性，研究團(tuán)隊(duì)同樣遵循DanceGRPO，進(jìn)行了僅使用HPS-v2.1單一獎(jiǎng)勵(lì)以及結(jié)合HPS-v2.1與CLIP Score的多獎(jiǎng)勵(lì)對(duì)比實(shí)驗(yàn)。

在訓(xùn)練時(shí)采樣方面，首先對(duì)均勻分布的時(shí)間步進(jìn)行變換，計(jì)算，然后定義。

其中，作為縮放參數(shù)，采樣總步數(shù)設(shè)為T=25。

在GRPO訓(xùn)練中，模型針對(duì)每個(gè)提示詞生成12張圖像，并將優(yōu)勢(shì)函數(shù)裁剪到區(qū)間[-5,5]內(nèi)。需要特別說(shuō)明的是，研究團(tuán)隊(duì)采用了3步梯度累積，這意味著在一次訓(xùn)練迭代中實(shí)際進(jìn)行了次梯度更新。

對(duì)于滑動(dòng)窗口的指數(shù)衰減策略（見公式11），他們經(jīng)驗(yàn)性地設(shè)置參數(shù)為和。此外，當(dāng)多個(gè)獎(jiǎng)勵(lì)模型聯(lián)合訓(xùn)練時(shí)，各獎(jiǎng)勵(lì)模型的權(quán)重均等分配。

在訓(xùn)練設(shè)置上，所有實(shí)驗(yàn)均在32塊Nvidia GPU上進(jìn)行，批量大小為1，最大訓(xùn)練迭代次數(shù)為300次。

優(yōu)化器采用AdamW(loshchilov2017decoupled)，學(xué)習(xí)率設(shè)為1e-5，權(quán)重衰減系數(shù)為0.0001。訓(xùn)練過(guò)程中使用混合精度，采用bfloat16（bf16）格式，而主權(quán)重參數(shù)保持全精度（fp32）。

主實(shí)驗(yàn)

在主實(shí)驗(yàn)中，四個(gè)基于人類偏好的獎(jiǎng)勵(lì)模型按照優(yōu)勢(shì)函數(shù)（advantages）進(jìn)行了加權(quán)聚合，具體算法見算法1。

研究啊團(tuán)隊(duì)對(duì)MixGRPO與DanceGRPO的開銷和性能進(jìn)行了對(duì)比評(píng)估，結(jié)果匯總于表1。

表1.計(jì)算開銷與性能的對(duì)比結(jié)果顯示

官方DanceGRPO采用的函數(shù)調(diào)用次數(shù)為，為保證公平性，他們同時(shí)測(cè)試了的DanceGRPO。

對(duì)于MixGRPO-Flash，他們?cè)u(píng)估了漸進(jìn)式（progressive）和凍結(jié)式（frozen）兩種策略，并且為了公平起見，也對(duì)DanceGRPO采用了凍結(jié)式策略。

研究團(tuán)隊(duì)選取了多個(gè)場(chǎng)景提示語(yǔ)，對(duì)FLUX.1 Dev、官方配置的DanceGRPO以及MixGRPO的生成結(jié)果進(jìn)行了可視化展示，見圖3。

圖3.定性比較

結(jié)果表明，MixGRPO在語(yǔ)義表達(dá)、美學(xué)效果及文本-圖像對(duì)齊度方面均取得了最佳表現(xiàn)。

圖4展示了在條件下，DanceGRPO、MixGRPO及MixGRPO-Flash的對(duì)比結(jié)果。

可以觀察到，在相同開銷下，MixGRPO的表現(xiàn)優(yōu)于DanceGRPO；同時(shí)MixGRPO-Flash通過(guò)加速采樣，在降低開銷的同時(shí)，生成圖像的質(zhì)量依然與人類偏好保持高度一致。

圖4.不同訓(xùn)練時(shí)采樣步數(shù)的定性比較

沿用DanceGRPO的實(shí)驗(yàn)設(shè)計(jì)，研究團(tuán)隊(duì)還在HPDv2數(shù)據(jù)集上，分別使用單一獎(jiǎng)勵(lì)模型和雙獎(jiǎng)勵(lì)模型進(jìn)行了訓(xùn)練與評(píng)估。

結(jié)果（見表2）顯示，無(wú)論是單獎(jiǎng)勵(lì)還是多獎(jiǎng)勵(lì)，MixGRPO 在域內(nèi)和域外獎(jiǎng)勵(lì)指標(biāo)上均取得了最佳性能。更多可視化結(jié)果詳見附錄D。

表2.域內(nèi)與域外獎(jiǎng)勵(lì)指標(biāo)的比較結(jié)果

消融實(shí)驗(yàn)

滑動(dòng)窗口超參數(shù)

如上述所講，滑動(dòng)窗口的重要參數(shù)包括移動(dòng)策略、移動(dòng)間隔、窗口大小以及窗口步長(zhǎng)S。

研究團(tuán)隊(duì)對(duì)這些參數(shù)分別進(jìn)行了消融實(shí)驗(yàn)。針對(duì)移動(dòng)策略，他們比較了三種方法：frozen（窗口保持靜止）、random（每次迭代隨機(jī)選擇窗口位置）以及progressive（滑動(dòng)窗口隨去噪步驟逐步移動(dòng)）。

對(duì)于progressive策略，他們測(cè)試了不同的調(diào)度方式，其中間隔初始設(shè)為25，隨后隨訓(xùn)練迭代發(fā)生變化。

正如表3所示，結(jié)果表明在progressive策略下，指數(shù)衰減和恒定調(diào)度均為最優(yōu)選擇。

表3.移動(dòng)策略的對(duì)比

對(duì)于移動(dòng)間隔，25是最佳設(shè)置（詳見表4）。

表4.移動(dòng)間隔的對(duì)比

隨著窗口大小的增大，的推理次數(shù)也隨之增加，導(dǎo)致時(shí)間開銷加大。

研究團(tuán)隊(duì)比較了不同的設(shè)置，結(jié)果如表5所示。

表5.窗口大小對(duì)比

最終，研究團(tuán)隊(duì)選擇作為開銷與性能之間的平衡點(diǎn)。對(duì)于窗口步長(zhǎng)S，實(shí)驗(yàn)結(jié)果表明S=1是最優(yōu)選擇，詳見表6。

表6.窗口步長(zhǎng)對(duì)比

高階ODE求解器

MixGRPO通過(guò)結(jié)合隨機(jī)微分方程（SDE）和常微分方程（ODE）的采樣方法，實(shí)現(xiàn)了利用高階ODE求解器加速ODE采樣的可能性。

研究團(tuán)隊(duì)首先針對(duì)求解器的階數(shù)進(jìn)行了消融實(shí)驗(yàn)，使用DPM-Solver++作為高階求解器，并采用progressive策略。結(jié)果如表7所示，表明二階中點(diǎn)法是最優(yōu)設(shè)置。

表7.不同階數(shù)求解器的性能比較

隨后，研究團(tuán)隊(duì)比較了兩種加速方案：一種是采用progressive窗口移動(dòng)策略的MixGRPO-Flash，另一種是采用frozen移動(dòng)策略的MixGRPO-Flash*。

兩者均通過(guò)減少窗口后端的ODE采樣步數(shù)，在開銷與性能之間取得了平衡。

然而，實(shí)際應(yīng)用中，MixGRPO-Flash需要窗口在整個(gè)訓(xùn)練過(guò)程中持續(xù)移動(dòng)，導(dǎo)致被加速的ODE部分較短。

因此，平均來(lái)看，MixGRPO-Flash的加速效果不及MixGRPO-Flash*明顯。

表8.MixGRPO-Flash中progressive和frozen策略的比較

總結(jié)與展望

由于現(xiàn)有基于流匹配的GRPO面臨采樣效率低和訓(xùn)練緩慢等挑戰(zhàn)，研究團(tuán)隊(duì)提出了MixGRPO，一種結(jié)合了SDE和ODE采樣的新型訓(xùn)練框架。

該混合方法使得優(yōu)化能夠聚焦于SDE采樣流部分，降低了復(fù)雜度的同時(shí)保證了獎(jiǎng)勵(lì)計(jì)算的準(zhǔn)確性。

受強(qiáng)化學(xué)習(xí)中衰減因子的啟發(fā)，研究團(tuán)隊(duì)引入了滑動(dòng)窗口策略來(lái)調(diào)度優(yōu)化的去噪步驟。實(shí)驗(yàn)結(jié)果驗(yàn)證了所提方法在單獎(jiǎng)勵(lì)和多獎(jiǎng)勵(lì)設(shè)置下的有效性。

此外，MixGRPO解耦了去噪階段的優(yōu)化與獎(jiǎng)勵(lì)計(jì)算，使得后者能夠通過(guò)高階求解器實(shí)現(xiàn)加速。

基于MixGRPO，研究團(tuán)隊(duì)進(jìn)一步提出了MixGRPO-Flash，在開銷與性能之間實(shí)現(xiàn)了平衡。

最后，他們希望MixGRPO能夠激發(fā)圖像生成后訓(xùn)練領(lǐng)域的深入研究，進(jìn)一步推動(dòng)通用人工智能的發(fā)展。

項(xiàng)目主頁(yè)：https://tulvgengenr.github.io/MixGRPO-Project-Page/
論文鏈接：https://arxiv.org/abs/2507.21802
代碼鏈接：https://github.com/Tencent-Hunyuan/MixGRPO

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

圖像生成開源騰訊混元

不圓

訓(xùn)練時(shí)間減半，性能不降反升！騰訊混元開源圖像生成高效強(qiáng)化方案MixGRPO

MixGRPO模型解析

GRPO中的ODE-SDE混合采樣

作為優(yōu)化調(diào)度器的滑動(dòng)窗口

開銷與性能之間的權(quán)衡

MixGRPO多方面表現(xiàn)最佳

實(shí)驗(yàn)設(shè)置

主實(shí)驗(yàn)

消融實(shí)驗(yàn)

總結(jié)與展望

相關(guān)閱讀

專治“煉丹俠”各種不服：1分鐘就能搞個(gè)AI應(yīng)用 | 最新開源深度學(xué)習(xí)框架工具套件TinyMS問(wèn)世

騰訊把微信正在用的圖計(jì)算框架開源了，十億級(jí)節(jié)點(diǎn)圖計(jì)算時(shí)間從天級(jí)縮短到分鐘級(jí)

騰訊宣布混元文生圖大模型開源： Sora 同架構(gòu)，可免費(fèi)商用

Midjourney地位不穩(wěn)？AI繪圖又一黑馬出現(xiàn)，附4款產(chǎn)品一手實(shí)測(cè)

鵝廠革新大模型工具全鏈條！5分鐘開發(fā)AI助手，河南學(xué)生已用上

清華伯克利發(fā)起RISC-V國(guó)際開源實(shí)驗(yàn)室，圖靈獎(jiǎng)得主牽頭，落地深圳

熱門文章

能講“悄悄話”的智能助理，瑞聲科技助力夸克AI眼鏡S1開創(chuàng) 語(yǔ)音交互新范式

商湯分拆了一家AI醫(yī)療公司，半年融資10億，劍指“醫(yī)療世界模型”

前端沒死，AI APP正在返祖

寧德時(shí)代給9萬(wàn)+基層員工漲了薪！每月150元

云計(jì)算一哥10分鐘發(fā)了25個(gè)新品！Kimi和MiniMax首次上桌