色综合中文综合网_性猛交娇小69hd_久久精品99久久久久久_欧美日韩精品一区二区三区四区 _97视频色精品_国产高清精品久久久久_日日鲁鲁鲁夜夜爽爽狠狠视频97 _国产成人免费视频精品含羞草妖精 _熟女少妇在线视频播放_精品人妻一区二区三区麻豆91 _久久女同性恋中文字幕_一区二区福利视频

斯坦福打臉大模型數(shù)學(xué)水平:題干一改就集體降智,強(qiáng)如o1也失準(zhǔn)

能力涌現(xiàn)怕不是檢索題庫

奇月 發(fā)自 凹非寺

量子位 | 公眾號 QbitAI

只是換一下數(shù)學(xué)題的變量名稱,大模型就可能集體降智??

斯坦福大學(xué)最新研究表明,在他們最新提出的Putnam-AXIOM測試集上,僅僅是更換一下原題目的變量名稱、變量取值范圍,模型的準(zhǔn)確率就直線下降。

也就是說,大模型的數(shù)學(xué)推理能力并不是真正掌握了解題邏輯,很可能只是檢索已存儲的題目……

斯坦福打臉大模型數(shù)學(xué)水平:題干一改就集體降智,強(qiáng)如o1也失準(zhǔn)

即使是表現(xiàn)最好的o1-preview,它的成績也從50%下降到了33.96%,GPT-4o、Claude、Deepseek、Qwen等模型也幾乎是全軍覆沒。

斯坦福打臉大模型數(shù)學(xué)水平:題干一改就集體降智,強(qiáng)如o1也失準(zhǔn)

要知道,模型推理能力的穩(wěn)健性可是非常重要的指標(biāo),能代表他們是否真正掌握了解決方法:

斯坦福打臉大模型數(shù)學(xué)水平:題干一改就集體降智,強(qiáng)如o1也失準(zhǔn)

有網(wǎng)友銳評到:o1的o不會是overfitting的o吧?(doge)

斯坦福打臉大模型數(shù)學(xué)水平:題干一改就集體降智,強(qiáng)如o1也失準(zhǔn)

還有熱心網(wǎng)友做了解釋,他認(rèn)為模型的搜索空間會隨著深度指數(shù)級增長,搜索時間越長,搜索的難度也會更高。

斯坦福打臉大模型數(shù)學(xué)水平:題干一改就集體降智,強(qiáng)如o1也失準(zhǔn)
斯坦福打臉大模型數(shù)學(xué)水平:題干一改就集體降智,強(qiáng)如o1也失準(zhǔn)

全新無污染的數(shù)學(xué)測試基準(zhǔn)

LLM在復(fù)雜數(shù)學(xué)問題上的推理能力逐漸成為模型發(fā)展的關(guān)鍵挑戰(zhàn),然而現(xiàn)有的評估基準(zhǔn),如MMLU、MMMU、GSM8K和MATH等卻面臨著很多問題。

一方面,數(shù)據(jù)污染可能導(dǎo)致模型在評估中表現(xiàn)虛高,因為模型可能在訓(xùn)練過程中接觸到了評估基準(zhǔn)中的問題。

另一方面,最先進(jìn)的模型在許多現(xiàn)有基準(zhǔn)上已經(jīng)達(dá)到或超過人類水平,這使得這些基準(zhǔn)失去了應(yīng)有的評估價值。

對此,斯坦福研究團(tuán)隊提出了Putnam-AXIOM基準(zhǔn),專用于評估模型在解決復(fù)雜數(shù)學(xué)問題上的能力。

斯坦福打臉大模型數(shù)學(xué)水平:題干一改就集體降智,強(qiáng)如o1也失準(zhǔn)

該基準(zhǔn)的原始數(shù)據(jù)集涵蓋了1985-2023年William Lowell Putnam數(shù)學(xué)競賽的236個問題。

隨便舉個例題大家感受一下:

斯坦福打臉大模型數(shù)學(xué)水平:題干一改就集體降智,強(qiáng)如o1也失準(zhǔn)

這些題目涵蓋了11個不同數(shù)學(xué)領(lǐng)域的問題,團(tuán)隊也進(jìn)行了篩選,確保能產(chǎn)生便于自動化評估的boxed{}答案。

同時,他們還借鑒MATH數(shù)據(jù)集的方法進(jìn)行模型評估,并設(shè)計了一個等價函數(shù),可以解決字符串不一致問題、和復(fù)雜的數(shù)學(xué)等價同質(zhì)化問題。

除此之外,為防止模型在訓(xùn)練過程中遇到Putnam原問題而出現(xiàn)評估偏差,團(tuán)隊還引入了功能變異構(gòu)建變異數(shù)據(jù)集。

變異分為變量變化(僅改變量名)和常數(shù)變化(修改數(shù)值屬性)兩類,能生成無限多相同難度的新問題,而且這些問題在互聯(lián)網(wǎng)上沒有現(xiàn)成的答案。

具體的變化形式就像這樣:

斯坦福打臉大模型數(shù)學(xué)水平:題干一改就集體降智,強(qiáng)如o1也失準(zhǔn)

在實驗中,研究人員將1985-2023年的競賽中的236個問題整理成標(biāo)準(zhǔn)化格式,使用LM Harness評估框架對多個開源模型的SOTA LLMs進(jìn)行評估。

樣本包括236個原始問題和52個變異問題,參與測試的模型包含OpenAI的o1-preview、GPT-4o、Claude-3.5 Sonnet等多種模型。

題目一變,模型集體懵

實驗結(jié)果有些令人意外,模型們的表現(xiàn)都不太樂觀。

首先來看看模型們在原始數(shù)據(jù)集上的表現(xiàn)。

多數(shù)模型的準(zhǔn)確率都低于10%,曾獲AI數(shù)學(xué)奧林匹克競賽冠軍的NuminaMath僅為4.66%,可見Putnam-AXIOM數(shù)據(jù)集難度真的很高。

斯坦福打臉大模型數(shù)學(xué)水平:題干一改就集體降智,強(qiáng)如o1也失準(zhǔn)

而在變異數(shù)據(jù)集上,模型們的準(zhǔn)確率則顯著下降。

比如在原始數(shù)據(jù)集上表現(xiàn)最好的o1-preview,準(zhǔn)確率為50%,而在變異數(shù)據(jù)集中則降到了33.96%。

也就是說,o1-preview模型在原始問題上表現(xiàn)可能虛高,之前的得分主要是依賴記憶而非真正的推理能力。

排名第二的Claude在原始數(shù)據(jù)集上的準(zhǔn)確率為26.40%,而在變異數(shù)據(jù)集上的準(zhǔn)確率降至18.86%,其他模型的分?jǐn)?shù)也基本都下降了。

斯坦福打臉大模型數(shù)學(xué)水平:題干一改就集體降智,強(qiáng)如o1也失準(zhǔn)

團(tuán)隊還進(jìn)一步對OpenAI o1-preview和GPT-4o的答案進(jìn)行了分析。

結(jié)果發(fā)現(xiàn)它們的錯誤都比較嚴(yán)重,在邏輯推理和數(shù)學(xué)嚴(yán)謹(jǐn)性方面存在著明顯的缺陷。

下面一起康康幾個例子。

比如o1-preview在解答問題時就沒能提供充分的證明,它聲稱m的最大可能值是n,理由是m的上界是2n,但它沒有說明為什么m的值介于n和2n之間不可行。

斯坦福打臉大模型數(shù)學(xué)水平:題干一改就集體降智,強(qiáng)如o1也失準(zhǔn)

而GPT-4o則存在邏輯跳躍和不連貫的推理,比如在下面這道題中,它從邏輯上直接跳轉(zhuǎn)到面積最小的幾何形狀是矩形這一觀點(diǎn),但并沒有證明這一說法的合理性,而是將其默認(rèn)為事實。

斯坦福打臉大模型數(shù)學(xué)水平:題干一改就集體降智,強(qiáng)如o1也失準(zhǔn)

DeepSeek的模型也在關(guān)鍵步驟思維發(fā)生了跳躍,導(dǎo)致最終結(jié)果失誤。

斯坦福打臉大模型數(shù)學(xué)水平:題干一改就集體降智,強(qiáng)如o1也失準(zhǔn)

看來,提升大模型的數(shù)學(xué)能力還是任重道遠(yuǎn)呀!

不過斯坦福大學(xué)這篇文章中的Putnam-AXIOM基準(zhǔn)的確緩解了現(xiàn)有基準(zhǔn)飽和的問題。

它不僅為評估模型的數(shù)學(xué)推理能力提供了一個非常有挑戰(zhàn)性的新方法,還實現(xiàn)了完全自動化評估、并提供了豐富多樣的變體數(shù)據(jù)集。

團(tuán)隊也表示,雖然目前變體數(shù)據(jù)集生成過程復(fù)雜耗時,但未來如果能優(yōu)化變體生成方法,將更有助于加速關(guān)于人工推理的研究。

斯坦福打臉大模型數(shù)學(xué)水平:題干一改就集體降智,強(qiáng)如o1也失準(zhǔn)

論文:https://openreview.net/forum?id=YXnwlZe0yf?eId=yrsGpHd0Sf
代碼:https://anonymous.4open.science/r/putnam-axiom-B57C/README.md

版權(quán)所有,未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用,違者必究。
欧美国产在线看| 亚洲欧美一区二区三区不卡| 97成人精品区在线播放| 久久精品国产久精国产思思| 欧美一区二区啪啪| 一二三区视频在线观看| 久久久久久久免费| 日韩一级成人av| 国产成人a人亚洲精品无码| 国产一区二区在线免费视频| 国产日韩一区在线| 国产在线久久久| 亚洲码在线观看| 五月婷婷另类国产| 国产一二三四区| 日韩免费高清在线| 性高潮久久久久久久| 精品无码在线视频| 51精品免费网站| 懂色av.com| 国产裸体永久免费无遮挡| 欧美爱爱免费视频| 欧美bbbbbbbbbbbb精品| 伊人免费在线观看高清版| 日韩熟女精品一区二区三区| 99久久精品国产一区色| 秋霞影院一区二区| 久久久久久久久免费| 亚洲一二三四区不卡| 欧美日韩黄色一区二区| 日韩午夜中文字幕| 欧美巨猛xxxx猛交黑人97人| 国产精品欧美激情| 一卡二卡3卡四卡高清精品视频| 精品少妇人妻av免费久久洗澡| 佐佐木明希电影| 青青草免费av| 四季av日韩精品一区| 91丝袜美腿高跟国产极品老师| 亚洲高清免费观看| 日韩精品高清视频| 日韩女优人人人人射在线视频| 国产91色在线| 日日噜噜噜夜夜爽爽| 97超碰人人看| 超碰人人干人人| 91欧美日韩麻豆精品| 懂色av一区二区夜夜嗨| 欧美日韩在线第一页| 亚洲少妇中文在线| 成人精品一区二区三区电影免费| 中文字幕一区二区三区在线乱码 | 国产精品乱人伦中文| 欧美视频一区二区| 欧美黄网免费在线观看| 热re99久久精品国99热蜜月 | 国产精品久久久久久av福利软件| 欧美国产二区| www.51色.com| 中国女人真人一级毛片| 国产一区二区精品久久99| 亚洲视频在线一区二区| 亚洲精品720p| 999视频在线免费观看| 成人免费毛片播放| 免费成人深夜天涯网站| 人妻一区二区三区免费| 亚洲视频小说图片| 国产一级揄自揄精品视频| 成人午夜在线视频一区| 欧洲av无码放荡人妇网站| 国产极品国产极品| 国产成人综合自拍| 亚洲国产精彩中文乱码av| 国产乱码精品一区二区三区卡 | 午夜成人免费影院| 欧美日韩午夜剧场| 国产成人一区二区三区小说| 久久久国产欧美| 国产精品人人爽| 午夜精品一区二区三区免费视频 | 欧美午夜片在线观看| 欧洲精品在线视频| 欧美日韩理论片| 亚洲第一天堂在线观看| 在线亚洲免费视频| 99久久国产免费免费| 国产毛片毛片毛片毛片毛片毛片| 天堂va蜜桃一区二区三区| 欧美日韩国产乱码电影| 国产伦精品一区二区三区照片 | 男人添女荫道口女人有什么感觉| 永久免费看片在线播放| 国产精品久久久久久久久图文区| 久久久久久久久久久人体| 成人免费毛片播放| 午夜国产在线观看| 欧美精品一区二区三区高清aⅴ| 国产三区二区一区久久| 亚洲av无一区二区三区| 国产色一区二区| 欧美在线视频免费| 五月天丁香社区| 成熟亚洲日本毛茸茸凸凹| 在线观看日韩欧美| 超碰影院在线观看| 三级久久三级久久| 亚洲无限av看| 欧美一级片中文字幕| 性感美女福利视频| 亚洲日韩中文字幕在线播放| 久在线观看视频| 日韩中文字幕区一区有砖一区 | 国产精品50p| 婷婷色在线视频| 精品亚洲va在线va天堂资源站| 2018中文字幕第一页| 亚洲国产精品suv| 日韩国产高清污视频在线观看| 337p粉嫩大胆噜噜噜鲁| 免费高清在线视频一区·| 中文字幕亚洲无线码在线一区| 嫩草影院国产精品| 国产成人在线观看免费网站| 久久久久免费精品国产| 中文字幕国产专区| 亚洲色图丝袜美腿| 国产伦精品一区二区三区| 国产熟妇一区二区三区四区| 欧美精品 国产精品| 性一交一乱一伧国产女士spa| 久久狠狠婷婷| 欧美成人精品一区二区三区| 欧美色图亚洲激情| 亚洲精品视频一区二区| 欧美三级电影在线播放| 亚洲精品无遮挡| 色悠悠久久久久| 日本精品一二三| 国产精品视频看| 久久久一本精品99久久精品| 国产精品视频在线观看免费 | 一区二区三区影院| 日本一区二区精品| 日日夜夜精品视频免费| 欧美一级视频一区二区| 日韩精品一区二区在线播放 | 国产精品自拍在线| 国产精品久久久久久久久久新婚| 九九视频在线观看| 日韩免费看网站| 亚洲第一区第二区第三区| 337p粉嫩大胆噜噜噜噜噜91av| 亚洲最大福利视频网| 91成品人影院| 另类专区欧美制服同性| 精品无码在线观看| 欧美日韩成人综合在线一区二区| 凹凸国产熟女精品视频| 国产喷白浆一区二区三区| 免费看污久久久| 久久国产精品99久久人人澡| 91美女高潮出水| 精品美女www爽爽爽视频| 欧美精品videossex88| 日本va欧美va国产激情| 一区二区三区四区精品| 东方av正在进入| 亚洲国产精品人人爽夜夜爽| 能免费看av的网站| 日韩欧美国产小视频| 日本一级片在线播放| 欧美中文字幕一区二区三区| 99中文字幕在线| 黄色成人av在线| wwwwxxxx日韩| 午夜久久电影网| 色呦色呦色精品| 欧美午夜激情视频| 黄色片免费网址| 在线观看成人小视频| 91香蕉国产线在线观看| 午夜国产不卡在线观看视频| 国产精品人人爽人人爽| 欧美日韩免费在线观看| 免费观看一区二区三区| 欧美久久久久久久久久| 熟女俱乐部一区二区视频在线| 欧美一区二区三区四区五区 | 亚洲精品中文字幕乱码三区不卡| 懂色av一区二区三区免费观看 | 亚洲天堂国产精品| 97在线视频免费播放| a网站在线观看| 国产欧美一区二区三区久久| 日本中文一区二区三区| 欧美日韩国产一二| jizz一区二区| 丝袜人妻一区二区三区| 亚洲黄色片在线观看| 中文字幕在线观看日| 欧美日韩免费在线视频| 四虎影视1304t| 久久精品电影网站| 国产又色又爽又黄又免费| 国产精品视频xxxx| 国产一区二区美女| 国产精品视频网站在线观看| 亚洲成人资源在线| a毛片毛片av永久免费| 亚洲男人天堂网站| 激情网站在线观看| 国产三级精品网站| 国产a久久麻豆| 5月婷婷6月丁香| 欧美日韩一区视频| 在线免费日韩av| 欧美一二三视频| 久久99久久久久久久久久久| 老司机午夜免费福利视频| 亚洲成av人影院在线观看网| 国精产品一区一区三区免费视频| 一个色综合导航| 人人妻人人澡人人爽精品日本| 色狠狠久久av五月综合| 亚洲丰满少妇videoshd| 国产7777777| 97视频在线观看成人| 精品亚洲国内自在自线福利| 精品人妻少妇一区二区| 欧美日韩一二三| 日韩熟女精品一区二区三区| 114国产精品久久免费观看| 久久精品一区八戒影视| 亚洲日本久久久| 久久天堂av综合合色| 美女视频免费一区| 欧美精品一区免费| 亚洲国产第一页| 亚洲免费成人在线| 国产日产欧美一区二区| 在线观看亚洲专区| 国产中文字幕视频| 久久人人九九| 日韩欧美国产网站| 日韩伦理在线视频| 国产精品国产精品国产专区蜜臀ah| 欧美国产日韩亚洲一区| 黄色a一级视频| 茄子视频成人在线| 亚洲国产激情av| 免费成人深夜蜜桃视频| 国产精品美女免费视频| 1区2区3区欧美| 裸体武打性艳史| 成人在线中文字幕| 亚洲曰韩产成在线| 国产精品黄色网| 久久99导航| 欧美日韩mp4| 不卡视频在线播放| 免费av网址在线| 久久躁狠狠躁夜夜爽| 成人毛片在线观看| 欧美大波大乳巨大乳| 成人免费xxxxx在线观看| 亚洲永久免费视频| 成年人午夜视频| 91手机视频在线| 亚洲人成电影网站色xx| 国产成人精品aa毛片| 欧美老熟妇乱大交xxxxx| 91亚洲精品视频| 狠狠躁夜夜躁人人爽超碰91| 国产91av在线播放| 成人在线免费观看av| 日韩在线免费高清视频| 99视频精品在线| 特一级黄色录像| 亚洲精品视频一二三| 精品在线欧美视频| 成人福利在线看| 免费成年人视频在线观看| 欧美日韩一区综合| 亚洲精品久久7777777| 国产精品一区二区你懂的| 18禁裸乳无遮挡啪啪无码免费| 亚洲一区二区少妇| 欧美一区二区视频在线观看2022| 丝瓜av网站精品一区二区| 天天躁日日躁狠狠躁av麻豆男男 | 日本激情小视频| 国产一区再线| 日韩精品视频免费在线观看| 成人免费视频免费观看| 欧美成人黄色网| 亚洲图片欧洲图片日韩av| 夜夜嗨av色一区二区不卡| 26uuu色噜噜精品一区| 日本在线视频免费观看| 亚欧无线一线二线三线区别| 8x拔播拔播x8国产精品| 亚洲国产wwwccc36天堂| 女人18毛片一区二区三区| 少妇户外露出[11p]| 欧美一级爽aaaaa大片| 亚洲色图17p| 亚洲欧美日韩人成在线播放| 草草视频在线播放| 人妻丰满熟妇av无码久久洗澡| 久久精品人成| 日韩中文字幕精品| 亚洲午夜在线观看视频在线| 四虎永久在线观看| 亚洲女人毛茸茸高潮| 800av在线免费观看| 欧美一级成年大片在线观看 | 本田岬高潮一区二区三区| 国产美女激情视频| 中文字幕视频三区| 六十路精品视频| 久久久精品电影| 日韩欧美成人免费视频| 国产一区二三区好的| 久久久久久久黄色片| 亚洲激情在线看| 日韩精品久久一区二区三区| 欧美国产视频一区二区| 色丁香久综合在线久综合在线观看| 久久国产成人午夜av影院| 国产精品成人aaaa在线| 三年中文在线观看免费大全中国| 久久久久久99| 2020国产精品视频| 精品美女在线播放| 亚洲精品中文在线| 久久精品国产亚洲aⅴ| 无码人妻精品一区二区蜜桃色欲 | 二级片在线观看| 国产精品久久二区| 国产亚洲欧美视频| 91国偷自产一区二区使用方法| 不卡一区在线观看| 亚洲精品字幕在线观看| 欧美日韩激情在线观看| 亚洲午夜精品在线观看| 亚洲精品国产suv一区88| 成人免费网视频| 久久av.com| 日韩一区二区电影在线| 亚洲成人中文在线| 久久蜜桃av一区二区天堂 | 亚洲毛片在线观看| 91福利视频网站| 国产精品久久久久久久久搜平片| 狠狠色综合日日| www精品国产| 亚洲黄色一区二区| 少妇人妻好深好紧精品无码| 欧美特级aaa| av无码久久久久久不卡网站| 精品久久久久久一区| 国产精品成人在线| 欧美精品在线播放| 亚洲香蕉伊综合在人在线视看| 欧美日韩另类一区| 欧美日韩加勒比精品一区| 国产婷婷一区二区| 菠萝蜜视频在线观看一区| 免费在线观看一区二区三区| 国产精品区在线观看| 麻豆久久久久久久久久| 5566中文字幕| 精品夜夜澡人妻无码av| xxx中文字幕| www午夜视频| 成人性视频欧美一区二区三区| 97av中文字幕| 亚洲欧美日产图| 色狠狠久久av五月综合| 久久久影院一区二区三区| 91高跟黑色丝袜呻吟在线观看| 日韩av色综合| 欧美国产精品va在线观看| 在线日韩欧美视频| 亚洲欧洲激情在线| 亚洲欧美激情视频| 日韩精品极品视频| 日韩精品视频免费| 精品爽片免费看久久| 日韩成人在线观看| 日韩乱码在线视频| 亚洲精品在线91| 亚洲国产欧美一区| 国产丝袜一区二区三区| 亚洲欧美日韩一区二区在线| 日韩国产中文字幕| 精品小视频在线| 日韩成人性视频| 中文字幕精品网| 久久影视免费观看| 久久久久女教师免费一区| 欧美第一黄色网| 午夜免费在线观看精品视频| 7777精品久久久久久| 国产精品女人网站| 国产欧美日韩综合精品二区| 欧美久久在线| 成人小视频在线观看免费| 午夜肉伦伦影院|