色综合中文综合网_性猛交娇小69hd_久久精品99久久久久久_欧美日韩精品一区二区三区四区 _97视频色精品_国产高清精品久久久久_日日鲁鲁鲁夜夜爽爽狠狠视频97 _国产成人免费视频精品含羞草妖精 _熟女少妇在线视频播放_精品人妻一区二区三区麻豆91 _久久女同性恋中文字幕_一区二区福利视频

成本不到150元!李飛飛等26分鐘訓出個推理模型,媲美o1和R1,秘訣:用蒸餾

已在GitHub開源

衡宇 發自 凹非寺

量子位 | 公眾號 QbitAI

成本不到150元,訓練出一個媲美DeepSeek-R1和OpenAI o1的推理模型?!

這不是洋蔥新聞,而是AI教母李飛飛、斯坦福大學、華盛頓大學、艾倫人工智能實驗室等攜手推出的最新杰作:s1。

在數學和編程能力的評測集上,s1的表現比肩DeepSeek-R1和o1。

成本不到150元!李飛飛等26分鐘訓出個推理模型,媲美o1和R1,秘訣:用蒸餾

而訓一個這樣性能的模型,團隊僅僅用了16個英偉達H100,訓練耗時26分鐘。

據TechCrunch,這個訓練過程消耗了不到50美元的云計算成本,約合人民幣364.61元;而s1模型作者之一表示,訓練s1所需的計算資源,在當下約花20美元(約145.844元)就能租到

怎么做到的???

s1團隊表示,秘訣只有一個:蒸餾。

簡單來說,團隊以阿里通義團隊的Qwen2.5- 32B-Instruct作為基礎模型,通過蒸餾谷歌DeepMind的推理模型Gemini 2.0 Flash Thinking實驗版,最終得到了s1模型。

為了訓練s1,研究團隊創建了一個包含1000個問題(精心挑選那種)的數據集,且每個問題都附有答案,以及Gemini 2.0 Flash Thinking實驗版的思考過程。

目前,項目論文《s1: Simple test-time scaling》已經掛上arXiv,模型s1也已在GitHub上開源,研究團隊提供了訓練它的數據和代碼。

150元成本,訓練26分鐘

s1團隊搞這個花活,起因是OpenAI o1展現了Test-time Scaling的能力。

即「在推理階段通過增加計算資源或時間,來提升大模型的性能」,這是原本預訓練Scaling Law達到瓶頸后的一種新Scaling。

但OpenAI并未公開是如何實現這一點的。

在復現狂潮之下,s1團隊的目標是尋找到Test-time Scaling的簡單方法。

成本不到150元!李飛飛等26分鐘訓出個推理模型,媲美o1和R1,秘訣:用蒸餾

過程中,研究人員先構建了一個1000個樣本的數據集,名為s1K。

起初,在遵循質量、難度、多樣性原則的基礎上,這個數據集收集了來自MATH、AGIEval等諸多來源的59029個問題。

成本不到150元!李飛飛等26分鐘訓出個推理模型,媲美o1和R1,秘訣:用蒸餾

經去重、去噪后,通過質量篩選、基于模型性能和推理痕跡長度的難度篩選,以及基于數學學科分類的多樣性篩選,最終留下了一個涵蓋1000個精心挑選過的問題的數據集。

且每個問題都附有答案,以及谷歌Gemini 2.0 Flash Thinking實驗版的模型思考過程。

這就是最終的s1K。

成本不到150元!李飛飛等26分鐘訓出個推理模型,媲美o1和R1,秘訣:用蒸餾

研究人員表示,Test-time Scaling有2種。

第1種,順序Scaling,較晚的計算取決于焦躁的計算(如較長的推理軌跡)。

第2種,并行Scaling,be like計算獨立運行(如多數投票任務)。

s1團隊專注于順序這部分,原因是團隊“從直覺上”認為它可以起到更好的Scaling——因為后面的計算可以以中間結果為基礎,從而允許更深入的推理和迭代細化。

基于此,s1團隊提出了新的順序Scaling方法,以及對應的Benchmark。

成本不到150元!李飛飛等26分鐘訓出個推理模型,媲美o1和R1,秘訣:用蒸餾

研究過程中,團隊提出了一種簡單的解碼時間干預方法budget forcing,在測試時強制設定最大和/或最小的思考token數量。

具體來說,研究者使用了一種很簡單的辦法:

直接添加“end-of-thinking token分隔符”和“Final Answer”,來強制設定思考token數量上限,從而讓模型提前結束思考階段,并促使它提供當前思考過程中的最佳答案。

為了強制設定思考過程的token數量下限,團隊又禁止模型生成“end-of-thinking token分隔符”,并可以選擇在模型當前推理軌跡中添加“wait”這個詞,鼓勵它多想想,反思反思當前的思考結果,引導最佳答案。

以下是budget forcing這個辦法的一個實操示例:

成本不到150元!李飛飛等26分鐘訓出個推理模型,媲美o1和R1,秘訣:用蒸餾

團隊還為budget forcing提供了baseline。

一是條件長度控制方法(Conditional length-control methods),該方法依賴于,在提示中告訴模型它應該花費多長時間來生成輸出。

團隊按顆粒度將它們分為Token-conditional控制、步驟條件控制和類條件控制。

  • Token-conditional控制:在提示詞中,指定Thinking Tokens的上限;
  • 步驟條件控制:指定一個思考步驟的上限。其中每個步驟約100個tokens;
  • 類條件控制:編寫兩個通用提示,告訴模型思考短時間或長時間。

二是拒絕抽樣(rejection sampling)。

即在抽樣過程中,若某一生成內容符合預先設定的計算預算,就停止計算。

該算法通過其長度來捕捉響應的后驗分布。

成本不到150元!李飛飛等26分鐘訓出個推理模型,媲美o1和R1,秘訣:用蒸餾

而s1模型的整個訓練過程,只用了不到半個小時——

團隊在論文中表示,他們使用Qwen2.532B-Instruct模型在s1K數據集上進行SFT,使用16個英偉達H100,訓練耗時26分鐘。

s1研究團隊的Niklas Muennighoff(斯坦福大學研究員)告訴TechCrunch,訓練s1所需的計算資源,在當下約花20美元就能租到。

研究新發現:頻繁抑制思考會導致死循環

訓出模型后,團隊選用3個推理基準測試,把s1-32B和OpenAI o1系列、DeepSeek-R1系列、阿里通義Qwen2.5系列/QWQ、昆侖萬維Sky系列、Gemini 2.0 Flash Thinking實驗版等多個模型進行對比。

3個推理基準測試如下:

  • AIME24:2024年美國數學邀請考試中使用的30個問題
  • MATH500:不同難度的競賽數學問題的基準
  • GPQA Diamond:生物、化學和物理領域的198個博士級問題
成本不到150元!李飛飛等26分鐘訓出個推理模型,媲美o1和R1,秘訣:用蒸餾

整體來說,采用了budget forcing的s1-32B擴展了更多的test-time compute。

評測數據顯示,s1-32B在MATH500上拿到了93.0的成績,超過o1-mini,媲美o1和DeepSeek-R1。

不過,如下圖所示,團隊發現,雖然可以用budget forcing和更多的test-time compute來提高s1在AIME24上的性能,在AIME24上比 o1-preview最高提升27%。

但曲線最終在性能提升6倍后趨于平緩。

由此,團隊在論文中寫道:

過于頻繁地抑制思考結束標記分隔符,會導致模型進入重復循環,而不是繼續推理。

成本不到150元!李飛飛等26分鐘訓出個推理模型,媲美o1和R1,秘訣:用蒸餾

而如下圖所示,在s1K上訓練Qwen2.5-32B-Instruct來得到s1-32B,并為它配備了簡單的budget forcing后,它采用了不同的scaling范式。

具體來說,通過多數投票在基礎模型上對test-time compute進行Scale的方法,訓出的模型無法趕上s1-32B的性能。

這就驗證了團隊之前的“直覺”,即順序Scaling比并行Scaling更有效。

成本不到150元!李飛飛等26分鐘訓出個推理模型,媲美o1和R1,秘訣:用蒸餾

此外,團隊提到,s1-32B僅僅使用了1000個樣本訓練,在AIME24上的成績就能接近Gemini 2.0 Thinking,是“樣本效率最高的開源數據推理模型”。

研究人員還表示,Budget forcing在控制、縮放和性能指標上表現最佳。

而其它方法,如Token-conditional控制、步驟條件控制、類條件控制等,均存在各種問題。

One More Thing

s1模型,是在一個1000個精挑細選的小樣本數據集上,通過SFT,讓小模型能力在數學等評測集上性能飆升的研究。

但結合近期刷爆全網的DeepSeek-R1——以1/50成本比肩o1性能——背后的故事,可以窺見模型推理技術的更多值得挖掘之處。

模型蒸餾技術加持下,DeepSeek-R1的訓練成本震撼硅谷。

現在,AI教母李飛飛等,又一次運用「蒸餾」,花費低到令人咋舌的訓練成本,做出了一個能媲美頂尖推理模型的32B推理模型。

一起期待大模型技術更精彩的2025年吧~

arXiv:

https://arxiv.org/pdf/2501.19393

GitHub:

https://github.com/simplescaling/s1

參考鏈接:

https://techcrunch.com/2025/02/05/researchers-created-an-open-rival-to-openais-o1-reasoning-model-for-under-50/

版權所有,未經授權不得以任何形式轉載及使用,違者必究。
欧美性极品少妇精品网站| 国产成人精品一区| 中文字幕乱码在线| 亚洲天堂av一区| 欧美精品欧美精品系列c| 国产成人精品免费在线| 55夜色66夜色国产精品视频| 国产成人精品亚洲男人的天堂| www国产一区| 亚洲国产欧美一区二区三区久久| 91麻豆国产语对白在线观看| 国产精品成人久久久| 在线看福利67194| 永久免费看mv网站入口| 日韩午夜在线影院| 欧美性受xxxx黑人| 日韩精品中文字幕在线不卡尤物| 黄色在线观看av| 亚洲精品永久免费| 国产精品综合视频| 91传媒久久久| 欧美小视频在线观看| 免费看91视频| 日韩一级片网址| 日韩成人短视频| 欧美—级a级欧美特级ar全黄| 99在线观看精品视频| 婷婷久久青草热一区二区| 受虐m奴xxx在线观看| 精品久久久香蕉免费精品视频| 91中文字幕在线视频| 久久久久久久毛片| 色婷婷精品国产一区二区三区| 午夜精品福利久久久| 中文字幕丰满孑伦无码专区| 久久久在线视频| 成人免费看黄yyy456| 国产精品久久a| 亚洲女人被黑人巨大进入| 一级黄色在线观看| 国产精品无码一本二本三本色| 欧美精品一区二区在线播放| 99热这里精品| 一区精品视频| 91精品免费在线| 国产高清在线观看视频| 在线一区亚洲| 国产视频精品一区二区三区| 久久精品一区二区三区不卡| 少妇黄色一级片| 亚洲欧美国产精品| 欧美精品入口蜜桃| 国产精品自拍网| 国产亚洲自拍一区| 一区二区黄色片| 免费久久99精品国产| 91精品免费在线| 2一3sex性hd| 日韩高清专区| 国产精品精品软件视频| 欧美日韩福利视频| 99精品1区2区| 国产青青在线视频| 欧美久久高跟鞋激| 天天操天天舔天天射| 欧美尤物一区| 欧美日韩国产精品一区二区三区四区| 久久精品三级视频| 51国偷自产一区二区三区| 午夜精品视频一区| 国产成人精品av久久| 91嫩草视频在线观看| 国产精品久久看| 中文字幕一区二区三区手机版| 精品国产一区二区三| 色偷偷成人一区二区三区91| 国产成人无码www免费视频播放| 8x8x华人在线| 在线成人免费网站| 亚洲国产岛国毛片在线| 国产精品一区二区三区观看| 日本视频www色| 国产三级精品在线不卡| 91精品国产综合久久精品| 美女精品在线| 欧美一区二区美女| 欧洲在线免费视频| 国产成人精品视频在线观看| 欧美日韩免费观看中文| 精品人妻少妇AV无码专区 | 受虐m奴xxx在线观看| 欧美日韩在线一二三| 亚洲男人7777| 国产精品国产成人国产三级| 日韩精品一区二区亚洲av| 国产综合免费视频| 国产剧情日韩欧美| 精品久久一二三区| 久久一留热品黄| 一级片免费网站| 亚洲麻豆一区二区三区| 欧美日韩亚洲在线 | 鲁一鲁一鲁一鲁一av| 91超碰在线电影| 亚洲欧美日韩直播| 一区二区三区欧美久久| 国产一区二区不卡| 88av.com| 欧美日韩国产片| 久久99久国产精品黄毛片色诱| 奇米网一区二区| 国产成人永久免费视频| 国产自摸综合网| 国产亚洲a∨片在线观看| 一区二区三区高清在线| 国产精品嫩草99a| 精品乱子伦一区二区| wwwww黄色| 大香煮伊手机一区| 蜜桃视频日韩| 欧洲精品一区色| 欧美激情一级二级| 亚洲а∨天堂久久精品喷水| 亚洲色图欧美在线| 国产美女精品在线| 国产精品男女视频| 69亚洲乱人伦| 亚洲乱码国产乱码精品精的特点| 日韩精品电影在线| 亚洲综合网av| 欧美色视频一区| 国产亚洲欧美久久久久| 中文字幕第50页| 欧美尤物巨大精品爽| 日韩欧美美女一区二区三区| 久久久久久久综合色一本| 国产精品久久影视| 亚洲精品成人av久久| 日本成人黄色网| 国产成人精品一区二区三区福利| 这里只有精品丝袜| 日本高清成人免费播放| 国产亚洲成年网址在线观看| 亚洲欧洲综合在线| 中文字幕一区二区三区波野结| 日韩av一二区| 三级av免费观看| 免费cad大片在线观看| 国产日韩欧美综合精品| 91精品国产电影| 国产一区二区三区丝袜| 91精品国产综合久久久久| 樱花草国产18久久久久| 91蜜桃免费观看视频| 欧美一区二区在线观看视频| 国产免费一区二区三区四区五区| 欧美做受xxxxxⅹ性视频| 亚洲综合伊人久久| 亚洲成熟丰满熟妇高潮xxxxx| 亚洲一卡二卡区| 色综合666| 欧美大香线蕉线伊人久久| 国产精品视频yy9099| 日本不卡视频在线播放| 日韩69视频在线观看| 97免费视频在线| 久久久久国产精品免费| 色综合视频网站| 欧美日本国产在线| 欧美国产日本高清在线| 欧美国产日韩一区二区在线观看| 一区二区三区视频在线| 中文字幕免费精品一区高清| 久久精品最新地址| 午夜精品福利电影| 欧美在线观看视频| 国产精品久久久久久久久久东京| 国产精品久久久久久久午夜| 国产日韩欧美91| 国产伦精品一区| 日产中文字幕在线精品一区| 91免费视频黄| 中国黄色片免费看| 妖精视频一区二区| 三年中国中文观看免费播放| 国产精品综合激情| 亚洲 欧美 日韩 综合| 国产免费高清av| 日本视频中文字幕一区二区三区| 韩国v欧美v日本v亚洲v| 国产精品小仙女| 国产精品亚洲综合一区在线观看| 久久久久久久久97黄色工厂| 欧美在线观看你懂的| 天天综合天天综合色| 欧美日韩国产一级二级| av电影成人| 国产又粗又大又爽的视频| 国产日韩欧美精品在线观看| 色哟哟精品视频| 人妻aⅴ无码一区二区三区 | 国产精品香蕉一区二区三区| 国产精品国产三级国产aⅴ入口| 欧美日韩一区二区精品| 亚洲图片欧洲图片av| 国产成人在线播放| 黄色成人在线免费观看| 久久偷拍免费视频| 91麻豆视频在线观看| 99精品桃花视频在线观看| 在线亚洲一区观看| 欧美日本黄视频| 亚洲春色在线| 99久久免费看精品国产一区| 青青青国产在线| 99re热这里只有精品视频| 在线不卡中文字幕播放| 欧美在线视频免费观看| 国自产拍偷拍精品啪啪一区二区| 国产三级av在线播放 | 91精品国产高清| 丝袜足脚交91精品| 久久精品国产亚洲av久| 韩国av电影在线观看| 亚洲女人****多毛耸耸8| 日韩精品在线观看一区| 成人免费在线视频网址| www.色就是色| 中国老头性行为xxxx| 久久精品日产第一区二区三区高清版| 欧美一区二区网站| 91久久久一线二线三线品牌| 亚洲免费黄色网| 不卡视频免费在线观看| 欧美日韩精品在线观看| 国产69精品久久久| 无码无遮挡又大又爽又黄的视频| 久久久久久久黄色| 国产精品丝袜黑色高跟| 久久99国产综合精品女同| 综合操久久久| 亚洲另类欧美日韩| 国产精品久久毛片av大全日韩| 色婷婷久久一区二区| 成人在线国产视频| 免费高清在线观看免费| 国产露脸无套对白在线播放| 亚洲一二三级电影| 国产精品视频网站| 免费涩涩18网站入口| 午夜福利理论片在线观看| 欧美一区二区三区系列电影| 欧美第一黄网| 精品无码人妻一区二区三| 国产精品你懂的在线| 日本高清+成人网在线观看| 野花视频免费在线观看| 韩国成人在线视频| 美女视频久久黄| 992kp免费看片| 久久精品观看| 亚洲国内精品视频| 好吊妞无缓冲视频观看| 亚洲精品成av人片天堂无码 | 午夜精品福利一区二区三区av| 成人激情黄色网| 五月激情四射婷婷| 亚洲欧美日韩国产另类专区| 91视频免费在线| 国产精品第九页| 在线看日本不卡| 在线观看日韩片| 人妻精品一区二区三区| 日韩国产精品亚洲а∨天堂免| 欧美深夜福利视频| 日本亚洲最大的色成网站www| 久久精品美女视频网站| 五月婷婷综合在线观看| 中文字幕欧美日韩一区| 成人午夜电影在线播放| 亚洲欧美一区二区三区在线观看| 欧美性猛片xxxx免费看久爱| 成人午夜视频在线观看免费| 韩国成人在线视频| 欧美一区二区三区免费视| 亚洲 欧美 国产 另类| 欧洲生活片亚洲生活在线观看| av动漫免费观看| 视频在线在亚洲| 日本国产一区二区三区| 国产精品老女人| 亚洲激情视频网| 中文字幕5566| 亚洲图片欧美视频| 在线观看av的网址| 久久免费国产| 国产精品极品美女粉嫩高清在线| 天天操天天射天天爽| 日韩www在线| 一本加勒比波多野结衣| 欧美日韩国产在线播放| 国产最新免费视频| 久久亚洲欧美国产精品乐播 | 久久久久久尹人网香蕉| 日韩特黄一级片| 色婷婷**av毛片一区| 一区二区视频免费看| 91精品国产一区二区三区| 激情小说欧美色图| 色八戒一区二区三区| 国产精品中文久久久久久| 精品国产91久久久久久| 日本在线视频www| 亚洲欧洲日产国产综合网| 日韩欧美精品免费| 国产精品毛片久久久久久| 久久久天堂国产精品| 91色九色蝌蚪| 韩国黄色一级大片| 中文字幕精品一区二区三区精品| 性欧美18一19内谢| 日本一区二区成人| 成人免费观看毛片| 亚洲人吸女人奶水| 午夜免费精品视频| 色综合婷婷久久| 日韩综合第一页| 精品国产一二三区| www欧美com| 欧美高清视频在线播放| 亚洲AV无码国产精品午夜字幕 | 亚洲永久免费视频| 无限资源日本好片| 91国内精品野花午夜精品 | 成人亚洲精品777777大片| 欧美日韩五月天| 久草综合在线视频| 俺去亚洲欧洲欧美日韩| 毛片视频网站在线观看| 国产精品一区二区三区久久 | 日本美女视频一区二区| 天堂精品一区二区三区| 亚洲靠逼com| 扒开jk护士狂揉免费| 欧美人交a欧美精品| 免费av网站在线播放| 色噜噜一区二区| 亚洲品质自拍视频网站| 老牛影视av老牛影视av| 色综合久久88色综合天天看泰| www.黄色小说.com| 夜夜爽www精品| 在线观看视频欧美| 国产小视频在线看| 91精品国产综合久久香蕉| 99麻豆久久久国产精品免费| 色乱码一区二区三区在线| 欧美一级国产精品| 伊人亚洲综合网| 涩涩涩999| 欧美色网一区二区| 黄色激情视频在线观看| 成人在线免费网站| 香蕉乱码成人久久天堂爱免费| 麻豆天美蜜桃91| 国产精品久久久久9999| 国产精品福利一区| 91n在线视频| 国产综合18久久久久久| 色综合色综合色综合| 亚洲性猛交富婆| 成人免费毛片在线观看| 欧美精品一区二区三区在线播放 | 国产一级精品毛片| 国产欧美123| 中文字幕亚洲一区在线观看| 青草av.久久免费一区| 18深夜在线观看免费视频| 欧美成人免费在线视频| 久久精品夜色噜噜亚洲a∨| 日本黄色a视频| 自拍偷拍亚洲在线| 久久综合色8888| 深夜福利影院在线观看| 欧美在线播放一区| 亚洲精品美女久久久久| 九一九一国产精品| 99热这里只有精品2| 91精品国产一区二区三区动漫| 一级做a爱片久久| 美女爽到呻吟久久久久| 男生操女生视频在线观看 | 国产精品中文字幕在线观看| 成人精品视频网站| 国产野外作爱视频播放| 国产一区二区三区视频在线观看| 2019国产精品| 国产精品suv一区二区| 国产 日韩 欧美在线| xxx一区二区| 亚洲曰韩产成在线| 午夜成人免费影院| 亚洲精品午夜视频| 日韩中文在线字幕| 午夜精品www| 91精品一区二区三区在线观看| 99视频精品全部免费在线| 国产精品theporn动漫| 国产wwwxx| 精品久久久久亚洲|