色综合中文综合网_性猛交娇小69hd_久久精品99久久久久久_欧美日韩精品一区二区三区四区 _97视频色精品_国产高清精品久久久久_日日鲁鲁鲁夜夜爽爽狠狠视频97 _国产成人免费视频精品含羞草妖精 _熟女少妇在线视频播放_精品人妻一区二区三区麻豆91 _久久女同性恋中文字幕_一区二区福利视频

全新合成框架SOTA:強化學習當引擎,任務合成當燃料,螞蟻港大聯合出品

PromptCoT框架全面升級

AntResearchNLP團隊 投稿

量子位 | 公眾號 QbitAI

下一步,大模型應該押注什么方向?

螞蟻通用人工智能中心自然語言組聯合香港大學自然語言組(后簡稱“團隊”)推出PromptCoT 2.0,要在大模型下半場押注任務合成

全新合成框架SOTA:強化學習當引擎,任務合成當燃料,螞蟻港大聯合出品

實驗表明,通過“強起點、強反饋”的自博弈式訓練,PromptCoT 2.0可以讓30B-A3B模型在一系列數學代碼推理任務上實現新的SOTA結果,達到和DeepSeek-R1-0528, OpenAI o3, Gemini 2.5 Pro等相當的表現。

全新合成框架SOTA:強化學習當引擎,任務合成當燃料,螞蟻港大聯合出品

PromptCoT 2.0:PromptCoT框架的一次全面升級

在一年前的這個時候,在整個AI社區都在思考大模型應該押注什么方向的時候,OpenAI公布了o1的預覽版,通過深度思考的新范式以及在競賽數學代碼任務上遠遠甩開gpt4o的性能,讓整個大模型社區進入了“深度思考”時代。

如今,又是一年9月,螞蟻與港大聯合在大模型下半場押注任務合成

為什么是任務合成?

事實上,按照OpenAI規劃的AGI藍圖,大模型社區正在從Reasoners向Agents急速推進,各種關于Agent的工作,包括搜索、軟件工程、客服、以及GUI等層出不窮。

在這林林總總的工作背后,團隊認為,無論是對大模型推理,還是對于方興未艾的智能體,有兩項技術是起著基石作用的:

一是強化學習。作為強化學習之年,該項技術已經得到社區足夠多的關注與投入,無論是方法還是框架都在急速推進。

全新合成框架SOTA:強化學習當引擎,任務合成當燃料,螞蟻港大聯合出品

而另一個,團隊認為是任務合成。這里的任務合成是一個比較廣泛的概念,可能包含問題合成、答案合成、環境合成、乃至評估合成。之所以將其和強化學習并列起來,團隊有一些底層思考。

①當大模型走出數學代碼競賽之后,必然要面對的是現實世界中長尾而又復雜的問題,而“長尾”和“復雜”兩個屬性疊加在一起,就會導致一個數據稀缺的問題。沒有一定量高質量(難度合適、覆蓋全面)的任務數據作為起始點,無論強化學習多么強大,也沒法發揮作用,甚至沒法開始;

②當大模型變得越來越智能之后,可以預見合成數據的質量會越來越高,那么有一天,合成數據也許會取代人工數據成為大模型訓練的主力。

強化學習是引擎,任務合成提供燃料,這是團隊對未來大模型后訓練范式的一個判斷。

在這樣的判斷下,團隊首先從問題合成切入,力圖發展一套通用且強力的問題合成框架。這樣的選擇一是任務合成的課題比較龐大;二是問題合成可以說是任務合成的基石和起點。

早在今年年初,團隊就提出了PromptCoT框架,通過將“思考過程”引入問題合成來提升合成問題的難度。

全新合成框架SOTA:強化學習當引擎,任務合成當燃料,螞蟻港大聯合出品

在這個框架下,團隊將問題合成拆解成了概念抽取邏輯生成、以及問題生成模型訓練三個步驟。按照這三個步驟,通過精心構造的提示詞生成了一批問題合成訓練數據,并由此訓練了一個基于Llama3.1-8B的問題生成模型。

利用這個模型,團隊生成了400k SFT數據,并用這份數據訓練了DeepSeek-R1-Distill-Qwen-7B模型,在MATH-500、AIME 2024以及AIME 2025上的表現均超過了32B的s1模型。

在開源模型性能不斷刷新的浪潮下,團隊也在思考:

  • PromptCoT能否走向更可擴展,更優雅的學習范式?
  • 純粹的合成問題有可能在效果上超過人工數據嗎?
  • 如果說SFT是通過蒸餾強模型來提升弱模型,那么強模型的能力還能通過PromptCoT提升嗎?特別是當這些模型已經消費了社區海量的開源數據之后?

為了回答這些問題,團隊推出了PromptCoT 2.0。

PromptCoT 2.0為一個可擴展框架,它用期望最大化(EM)循環取代了人工設計,在循環中,推理鏈會被迭代優化以指導提示構造。這樣生成的問題不僅更難,而且比以往語料更加多樣化

PromptCoT 2.0在PromptCoT 1.0基礎上,實現了效果、方法、數據的全面升級。

效果升級:強化學習+SFT,強弱模型齊起飛

前面已經展示了PromptCoT 2.0+強化學習讓強推理模型達到新SOTA的結果。那么如果用PromptCoT 2.0合成的問題進行蒸餾來訓練弱推理模型,效果會怎樣呢?

全新合成框架SOTA:強化學習當引擎,任務合成當燃料,螞蟻港大聯合出品

從表里可以看到,在完全不依賴人工問題的情況下,PromptCoT 2.0大幅提升了弱模型的數學與代碼推理能力,且整體表現優于依賴人工問題構建的數據集(如OpenMathReasoningOpenCodeReasoning)。

這一結果充分說明,相較于人工數據,合成數據具備更強的可擴展性,未來有望成為推動大模型推理能力提升的核心動力。與此同時,團隊使用的教師監督(來自GPT-OSS-120B-medium)在表達上更為緊湊(平均推理長度更短)。在保證高質量的前提下,較短的輸出不僅減少了推理開銷,也為更高效的大模型訓練和推理提供了新的可能。

更重要的是,團隊此次全面開源了4.77M個合成問題及對應的教師監督,供社區進行模型訓練,特別是一些不適于LongCoT的模型(如擴散語言模型)。

數據升級:更難、更具差異化

在數據層面,開源的4.77M合成數據展現出兩個顯著特征:

全新合成框架SOTA:強化學習當引擎,任務合成當燃料,螞蟻港大聯合出品

1、更難:在零微調評測下(例如直接使用強指令模型解題),PromptCoT 2.0表現為更低的即刻正確率和更高的推理token消耗,說明這些題目更能“咬合推理”,有效挖掘模型潛在的推理上限。

全新合成框架SOTA:強化學習當引擎,任務合成當燃料,螞蟻港大聯合出品

2、更具差異化:基于all-MiniLM-L6-v2的嵌入均值與余弦距離,并通過MDS映射到二維空間后,PromptCoT 2.0的數據點與現有開源題集(OpenMathReasoning、OpenThoughts3、OpenR1 等)形成了獨立分簇,而后者之間分布更為接近。

這表明 PromptCoT 2.0并非簡單重復已有題庫,而是補充了其中缺失的“困難+新穎”區域,為模型訓練提供了額外的分布層增益。

方法升級:從提示工程到EM算法

PromptCoT 2.0在PromptCoT 1.0基礎上引入基于期望最大化(EM)的優化過程,使邏輯生成模型和問題生成模型能夠在迭代中相互促進。

具體而言,E-step通過獎勵信號不斷優化邏輯生成,使其更契合概念并支撐問題構造;M-step則利用這些邏輯持續改進問題生成模型。與以往依賴人工提示或特定領域規則的方式不同,PromptCoT 2.0完全可學習、跨領域通用,能夠在幾乎無需人工干預的情況下,生成更具挑戰性和多樣性的問題。

全新合成框架SOTA:強化學習當引擎,任務合成當燃料,螞蟻港大聯合出品

在后訓練上,除了SFT,PromptCoT 2.0采用了一種強化學習方法。在給定獎勵信號的情況下,PromptCoT 2.0從合成問題出發,讓強基線模型通過自我探索推理路徑來進行學習。實際優化兼容PPO、GRPO、DPO等各種在線離線強化學習方法。

這里PromptCoT 2.0對獎勵信號要求較低,只要相對易得,可以包含一定噪音(實驗中采用對數學代碼分別采用的是GPT-OSS-120B和Qwen3-32B)。在這種情況下,強基線模型就可以通過自博弈方式從自我經驗中進行學習提升。

面向未來:從Reasoners走向Agents——問題合成×環境合成×多模態

盡管實現了大幅升級,但從任務合成來看,PromptCoT 2.0仍只是起點。下一步,PromptCoT將會考慮幾個方向:

1、Agentic環境合成。不僅出題,還要“造環境”(網頁、API、GUI、代碼沙盒、對話場景),讓模型在可交互、可驗證的世界里學會規劃、操作與反思。

2、多模態任務合成。把圖像/視頻/表格/語音等信息納入“概念→邏輯→任務”的模式,催生跨模態推理與工具使用。

3、自獎勵和對局式自進化。 在社區中,已有一些自獎勵以及基于“兩方博弈”的自進化探索,例如“出題者–解題者”或“執行者–評審者”的對抗協作模式。這些探索為大模型發展提供了很好的思路,但卻沒法實現強基座模型下的SOTA效果。

那么,如果PromptCoT和自獎勵相結合,或者EM內循環與博弈式外循環相結合,有沒有可能進一步提升模型上限呢?

時間很緊,可做的卻很多,在PromptCoT 2.0發布之際,下一個PromptCoT也已經在路上了。

該工作的第一作者為香港大學計算機系博士生趙學亮,目前在螞蟻技術研究院通用人工智能中心實習。螞蟻技術研究院通用人工智能中心自然語言組武威、關健、龔卓成為共同貢獻者。

論文鏈接:https://arxiv.org/abs/2509.19894
Github鏈接: https://github.com/inclusionAI/PromptCoT

版權所有,未經授權不得以任何形式轉載及使用,違者必究。
亚洲电影成人av99爱色| 性高潮久久久久久久久| 亚洲熟妇无码一区二区三区| 最新日韩免费视频| 成人动漫中文字幕| 欧美电影免费提供在线观看| 91久久久久久久久久| 丝袜人妻一区二区三区| 成年人在线观看av| 成人一区在线观看| 最好看的2019年中文视频| 99热这里只有精品7| 国产成人无码精品亚洲| 国产精品日韩成人| 久久久久久久久久久免费精品| 四虎永久在线精品无码视频| 六月婷婷综合网| 在线播放中文字幕一区| 国产精品久久久久77777| 国产chinese中国hdxxxx| 国产精品一区二区在线看| 精品久久久久久亚洲综合网| 制服国产精品| 精品国产www| 欧美日韩国产综合新一区| 97人人澡人人爽| 2018天天弄| 亚洲国产美国国产综合一区二区| 欧美成人在线免费视频| 91精品国产91久久久久麻豆 主演| 国产破处视频在线观看| 亚洲人吸女人奶水| 日本一本a高清免费不卡| 亚洲熟妇一区二区三区| 国产亚洲欧美激情| 99re国产| 中国黄色一级视频| 亚洲精品黄网在线观看| 孩娇小videos精品| 国产美女精品在线| 日本精品久久久| 日本美女xxx| 精品久久久久久久大神国产| 亚洲国产精品日韩| 亚洲 欧美 日韩 综合| 91精品国产欧美一区二区成人| 国产欧美精品一区二区三区| 这里只有精品免费视频| 日韩第一页在线| 无码国产精品一区二区高潮| 亚洲国产精品v| 欧美日韩一区在线播放 | 最新中文字幕av| 同产精品九九九| 日日碰狠狠添天天爽超碰97| 蜜臀a∨国产成人精品| 国产精品国模在线| 国产第一页浮力| 欧美电影免费观看完整版| 国产911在线观看| 国产av无码专区亚洲av麻豆| 神马久久桃色视频| 艳妇荡乳欲伦69影片| 日韩美女在线视频 | 欧美国产精品专区| 日韩精品久久一区| 99久久精品久久久久久清纯| 国产精品夜夜夜一区二区三区尤| 亚洲aⅴ在线观看| 国产精品专区一| www.久久伊人| 久久久久久午夜| 国产又粗又猛又黄又爽| 91国产高清在线| 国产v在线观看| 成人av.网址在线网站| 国产又大又长又粗| 国产成人极品视频| 少妇太紧太爽又黄又硬又爽| 美女黄色丝袜一区| 国产精品嫩草影院桃色| 操91在线视频| 国产精品9191| 久久精品国产亚洲精品2020| 一区二区三区在线播放视频| 亚洲国产精品系列| 丁香花五月激情| 精品国产电影一区二区| 午夜国产小视频| 久热精品视频在线观看一区| 青青国产在线视频| 国产精品夜色7777狼人| 国产精品人人爽| 日韩av电影中文字幕| 久久一区中文字幕| 国产精品久久久久久久久久三级| 日韩精品久久久久久| 欧美二区三区在线| 日韩毛片在线免费观看| 国产chinesehd精品露脸| 亚洲精品国产免费| aaaaaa毛片| 成人精品一区二区三区电影免费| 九九热在线视频观看这里只有精品| 日韩av免费电影| 天天综合色天天| 尤物在线免费视频| 成人亚洲激情网| 国产欧美一区二区精品性色| 乳色吐息在线观看| 九九视频直播综合网| 国产精品久久久久久69| 色噜噜一区二区| 亚洲大尺度视频在线观看| 亚洲av无码一区二区三区人 | 亚洲精品乱码久久| 2019最新中文字幕| 国产亚洲制服色| 天天操天天干天天操天天干| 国产999在线| 欧美韩国日本综合| 素人fc2av清纯18岁| 日韩中文字幕国产| 国产不卡在线视频| 波多野结衣一二三区| 91精品国产色综合久久不卡98| 国产精品一区2区| 国产日韩欧美久久| 色综合伊人色综合网| 国产成人精品毛片| 欧美黄色一级片视频| 丝袜一区二区三区| 另类综合日韩欧美亚洲| 男人日女人视频网站| 亚洲第一av网| 国产精品一区二区男女羞羞无遮挡| 中文字幕在线永久| 欧美在线视频观看| 精品久久久久久久中文字幕| 久久久www成人免费毛片| www.四虎在线| 国产精品69久久久| 91精品国产全国免费观看| 亚洲天堂男人av| 国产一级一片免费播放| 久久久精品在线观看| 国产精品福利无圣光在线一区| 国产精品揄拍500视频| 亚洲国产精品久久久久婷婷老年| 精品一区久久久| 国产精品久久网| 亚洲一级片在线看| 亚洲精品视频在线观看视频| 欧美色图12p| 色呦呦国产精品| 成人av在线看| 黄色一级大片在线免费看国产| 久久久国际精品| 国产视频911| 成人免费一区二区三区视频| 国产亚洲一本大道中文在线| 欧美日韩一级大片| 国产一级免费片| 久久久视频6r| 中国女人一级一次看片| 久久午夜老司机| 中文字幕在线成人| 日本黄网站色大片免费观看| 欧美色视频一区二区三区在线观看| 正在播放木下凛凛xv99| 国产情侣一区二区| 最近中文字幕在线mv视频在线| 九九视频在线免费观看| 久久综合加勒比| 最近中文字幕av| 亚洲一级中文字幕| 69精品无码成人久久久久久| 无码人妻精品一区二区蜜桃色欲| 日韩国产精品大片| 紧缚奴在线一区二区三区| 国产成人av自拍| 亚洲综合精品久久| 国产又黄又猛又爽| 青青草国产成人99久久| av亚洲精华国产精华| 欧美一区二区免费观在线| 久久riav| 国产一级中文字幕| 成人午夜在线视频| 自拍偷拍亚洲精品| 欧美综合77777色婷婷| 午夜精品中文字幕| 91精品999| 国产一级二级视频| 日本少妇性高潮| 国产精品18久久久久久vr| 亚洲视频 欧美视频| 日韩精品一区不卡| 久久亚洲综合色| 欧美日本乱大交xxxxx| 亚洲视频在线免费观看| 热99精品里视频精品| 黄色三级中文字幕| 久久综合一区二区三区| 国产情侣av自拍| 97超碰人人干| 久久综合国产精品| 亚洲伊人一本大道中文字幕| 久久久精品视频免费观看| 欧美日韩国产在线看| 国产精品高潮呻吟久久av无限| 醉酒壮男gay强迫野外xx| 国产又爽又黄免费软件| 亚洲色图视频免费播放| 欧美一级黄色录像| 国产精品自拍偷拍| 欧美日韩亚洲自拍| 三上悠亚作品在线观看| 国产白丝一区二区三区| 自拍偷拍精品视频| 亚洲视频免费在线观看| 国产a∨精品一区二区三区不卡| 91久久久一线二线三线品牌| 日本黄色福利视频| 亚洲视频在线观看一区二区 | 亚洲欧美偷拍另类a∨色屁股| 亚洲免费一在线| 青青草原国产免费| 亚洲av无码一区二区三区观看| 亚洲女人毛茸茸高潮| 一区二区三区在线免费观看| 成人黄色大片在线免费观看| 色av性av丰满av| 精品国产人成亚洲区| 中国一级大黄大黄大色毛片| 日韩电影免费一区| 国产一区二区三区在线视频 | 菠萝蜜影院一区二区免费| 制服诱惑一区| 手机看片国产日韩| 亚洲精品乱码久久久久| 欧美日韩黄色大片| 欧美中文在线字幕| 精品久久免费观看| 无码精品一区二区三区在线| 欧美乱大交xxxxx另类电影| 欧美精品一区二区视频| 在线观看日本黄色| 国产视频精品免费| 欧美性猛交xxxx黑人| 午夜精品福利一区二区三区蜜桃| 国产精品亚洲网站| 久久成人激情视频| 福利一区二区在线| 亚洲亚洲精品三区日韩精品在线视频 | 国产卡一卡二在线| 久久国产成人午夜av影院| 欧洲成人在线视频| 亚洲色图14p| 美日韩一区二区| 欧美一区二区日韩一区二区| 亚洲欧洲国产精品久久| 操她视频在线观看| 日韩欧美一区二区三区| 亚洲欧美第一页| 日韩电影免费观看高清完整| 日本熟妇毛茸茸丰满| 欧美群妇大交群中文字幕| 国产av无码专区亚洲精品| 黄频网站在线观看| 精品日韩中文字幕| 鬼打鬼之黄金道士1992林正英| 69亚洲精品久久久蜜桃小说| 亚洲第九十九页| 欧美精品一区二区久久婷婷| 成年网站在线播放| 91在线看国产| 五月天综合婷婷| 亚洲女爱视频在线| 亚洲视频天天射| 欧美成人国产一区二区| 九九九视频在线观看| 亚洲精品黄网在线观看| a级片在线观看视频| 欧美国产精品久久| 国产一区二区免费在线观看| 日韩xxx视频| 亚洲女人被黑人巨大进入al| 久久综合在线观看| 日韩欧美一区二区三区| 国产伦精品一区二区三区免费视频| 999福利视频| 国产精品美女久久久久av爽李琼| 7777精品久久久大香线蕉小说| 久久精品99国产精品日本| 97香蕉超级碰碰久久免费的优势| www.99re6| 欧美日韩在线综合| 日韩av一二三四| 亚洲图片视频小说| 欧美人牲a欧美精品| 欧美精品性生活| 国产精品区一区二区三区| 蜜桃视频成人在线观看| 不卡影院免费观看| 亚洲国产午夜伦理片大全在线观看网站| 亚洲性生活大片| 日韩中文字幕网| 亚洲欧美在线不卡| 午夜成人免费电影| 成年丰满熟妇午夜免费视频| 国产一区不卡视频| 国产婷婷97碰碰久久人人蜜臀| 午夜一级免费视频| 亚洲国产成人高清精品| 亚洲少妇一区二区| 亚洲视频在线播放| 少妇精品一区二区三区| 色欧美日韩亚洲| 欧美bbbbb性bbbbb视频| 亚洲在线中文字幕| 国产尤物91| 久久新电视剧免费观看| 亚洲欧洲一二三| 亚洲日本电影在线| 性欧美疯狂猛交69hd| 91中文字幕在线观看| 国产亚洲成年网址在线观看| 日韩精品无码一区二区三区久久久 | 久久久99久久| 国产成人三级视频| 91丨九色丨黑人外教| 国产成人免费高清视频| 91在线看国产| 国产综合18久久久久久| 国产精品无码专区av免费播放| 久青草国产97香蕉在线视频| 国产成人愉拍精品久久| 91欧美激情另类亚洲| 亚洲激情一二三区| av免费网站观看| 精品精品国产高清a毛片牛牛| 99热在线观看免费精品| 欧美亚洲视频在线看网址| 国产免费一区二区三区网站免费| 亚洲开心激情网| 亚洲熟妇无码久久精品| 国产自产精品| 日韩一级视频免费观看在线| 一卡二卡在线视频| 亚洲污视频在线观看| 欧美精品精品精品精品免费| 136国产福利精品导航| 粉嫩av性色av蜜臀av网站| 亚洲精品影院| 亚洲精品日韩在线| 免费高清在线一区| 日本一二三区视频在线| 最新日韩在线视频| 国产人妻精品一区二区三区不卡| 韩国三级电影久久久久久| 日韩av在线播放中文字幕| 精品无码国模私拍视频| 欧美日韩亚洲网| 国产精品理论在线| 欧美成人剧情片在线观看| 久久久久久黄| 伊人久久一区二区三区| **亚洲第一综合导航网站| 日韩毛片一二三区| 免费观看av网站| 91欧美日韩一区| 午夜精品久久久久影视| 久久人人爽人人爽人人片| 日韩精品一区二区三区在线观看 | 制服.丝袜.亚洲.中文.综合| 小泽玛利亚一区二区三区视频| 91午夜在线观看| 欧美日韩成人在线观看| 欧美日韩国产精品一区二区三区四区| 91丨九色丨丰满| 国产亚洲综合视频| 国产精品免费网站| 日韩女优视频免费观看| 亚洲图片中文字幕| 日本成人中文字幕在线| 在线免费看av不卡| 国产激情一区二区三区四区| 极品粉嫩小仙女高潮喷水久久| 国产精品视频网| 欧美性猛交xxxxx水多| 亚洲在线免费观看视频| 91嫩草免费看| 亚洲第一搞黄网站| 中文字幕在线一| 国产日韩欧美精品在线观看| 国产成人精品久久二区二区| 精品国产一区二区精华| 麻豆一区二区三| 五十路熟女丰满大屁股| 欧美激情精品久久久久久大尺度 | va亚洲va日韩不卡在线观看| 成人黄色短视频| av磁力番号网| 久久久精品日本| 中文字幕一区视频| 亚洲 欧美 日韩 综合| 欧美一区二区视频在线| 亚洲乱码中文字幕| 秋霞欧美一区二区三区视频免费 |