色综合中文综合网_性猛交娇小69hd_久久精品99久久久久久_欧美日韩精品一区二区三区四区 _97视频色精品_国产高清精品久久久久_日日鲁鲁鲁夜夜爽爽狠狠视频97 _国产成人免费视频精品含羞草妖精 _熟女少妇在线视频播放_精品人妻一区二区三区麻豆91 _久久女同性恋中文字幕_一区二区福利视频

GPT-4數(shù)學(xué)再提30分,代碼解析器任督二脈被打開(kāi),網(wǎng)友:像大腦的工作方式

新SOTA!

西風(fēng) 發(fā)自 凹非寺

量子位 | 公眾號(hào) QbitAI

GPT-4數(shù)學(xué)能力還能更強(qiáng)!

新研究發(fā)現(xiàn)GPT-4代碼解釋器做題準(zhǔn)確率與其使用代碼的頻率有關(guān)。

為此,研究人員提出新方法對(duì)癥下藥,直接將其數(shù)學(xué)能力拔至新SOTA:

在MATH數(shù)據(jù)集上,做題準(zhǔn)確率從53.9%增加到了84.3%

GPT-4數(shù)學(xué)再提30分,代碼解析器任督二脈被打開(kāi),網(wǎng)友:像大腦的工作方式

你沒(méi)聽(tīng)錯(cuò),就是前段時(shí)間被稱為ChatGPT推出后最強(qiáng)模式的那個(gè)代碼解析器(Code Interpreter)。

研究人員窺探了其代碼生成和執(zhí)行機(jī)制,使用自我驗(yàn)證、驗(yàn)證引導(dǎo)加權(quán)多數(shù)投票的方法,直接打開(kāi)其做數(shù)學(xué)題的任督二脈。

好奇網(wǎng)友隨即而來(lái):

還想看他們做高數(shù)。

GPT-4數(shù)學(xué)再提30分,代碼解析器任督二脈被打開(kāi),網(wǎng)友:像大腦的工作方式

還有網(wǎng)友認(rèn)為:

這也就是大腦的工作方式,人類(lèi)在解決數(shù)學(xué)問(wèn)題時(shí)也會(huì)自我驗(yàn)證。

GPT-4數(shù)學(xué)再提30分,代碼解析器任督二脈被打開(kāi),網(wǎng)友:像大腦的工作方式

一起來(lái)康康這項(xiàng)研究的細(xì)節(jié)~

兩步提升數(shù)學(xué)能力

GPT-4代碼解析器的代碼生成和執(zhí)行機(jī)制究竟是怎樣的?

來(lái)自港中文MMLab、南京大學(xué)、中科大、清華、城大、長(zhǎng)沙理工等多個(gè)機(jī)構(gòu)的學(xué)者為解開(kāi)這一問(wèn)題,使用特定代碼約束提示進(jìn)行了一項(xiàng)試驗(yàn)。

GPT-4數(shù)學(xué)再提30分,代碼解析器任督二脈被打開(kāi),網(wǎng)友:像大腦的工作方式

他們?cè)O(shè)計(jì)了3種不同的提示方法,限制GPT-4代碼解析器使用代碼的頻率:

  • Prompt 1:完全不允許使用代碼,輸出完全依賴自然語(yǔ)言推理,禁止將代碼合并到解決方案中。
  • Prompt 2:只允許使用1次代碼,也就是在生成解決方案時(shí),只能在單個(gè)代碼塊內(nèi)使用代碼。
  • Basic Prompt:沒(méi)有限制,GPT-4代碼解析器可以進(jìn)行一系列推理步驟,每個(gè)步驟都可由文字+Python代碼組成。

GPT-4數(shù)學(xué)再提30分,代碼解析器任督二脈被打開(kāi),網(wǎng)友:像大腦的工作方式

△(a)不同提示回答準(zhǔn)確率比較(b)代碼使用頻率與五個(gè)難度級(jí)別準(zhǔn)確率都成比例,數(shù)學(xué)問(wèn)題相對(duì)復(fù)雜時(shí)更明顯

結(jié)果發(fā)現(xiàn),允許GPT-4代碼解析器多次生成和執(zhí)行代碼,其解題正確度明顯高于僅用自然語(yǔ)言推理或只用1次代碼的情況。

經(jīng)分析,研究人員認(rèn)為代碼的多次生成和執(zhí)行可以讓GPT-4代碼解析器逐步完善解決方案,當(dāng)代碼執(zhí)行產(chǎn)生錯(cuò)誤時(shí),GPT-4代碼解析器可以自我調(diào)試修改方案。

繼而引入“代碼使用頻率”概念,量化不同提示方法下代碼的使用次數(shù)。

基于前面的分析結(jié)果,研究人員希望能加強(qiáng)GPT-4代碼解析器生成準(zhǔn)確代碼、評(píng)估代碼執(zhí)行結(jié)果以及自動(dòng)調(diào)整解決方案的能力。

所以提出了CSV(自我驗(yàn)證)提示的方法,也就是為解決方案C引入了一個(gè)額外的驗(yàn)證階段,稱為V。

加入自我驗(yàn)證提示效果對(duì)應(yīng)上圖綠色Verification Prompt。

如此一來(lái),GPT-4代碼解析器需額外生成代碼來(lái)驗(yàn)證答案,如果結(jié)果是False則重新推理得到正確答案。

GPT-4數(shù)學(xué)再提30分,代碼解析器任督二脈被打開(kāi),網(wǎng)友:像大腦的工作方式

CSV提示不僅對(duì)驗(yàn)證到邏輯推理每一步都進(jìn)行了擴(kuò)展,而且可以自動(dòng)更正錯(cuò)誤,無(wú)需外部模型或人工參與。

GPT-4數(shù)學(xué)再提30分,代碼解析器任督二脈被打開(kāi),網(wǎng)友:像大腦的工作方式

△MATH數(shù)據(jù)集中第712個(gè)中級(jí)代數(shù)問(wèn)題。

CSV prompt:To solve the problem using code interpreter step by step, and please verify your answer using code interpreter.

通過(guò)上圖這個(gè)例子可看出,在沒(méi)有自我驗(yàn)證的情況下,模型生成了一個(gè)錯(cuò)誤的答案。通過(guò)自我驗(yàn)證,模型糾正了錯(cuò)誤并生成了正確的答案。

此外,鑒于CSV可以有效地驗(yàn)證問(wèn)題的答案,研究人員又提出了驗(yàn)證引導(dǎo)加權(quán)多數(shù)投票(VW-voting)的方法,將自我驗(yàn)證結(jié)果集成到多數(shù)表決中,給予不同驗(yàn)證狀態(tài)不同權(quán)重,使表決更可靠。

GPT-4數(shù)學(xué)再提30分,代碼解析器任督二脈被打開(kāi),網(wǎng)友:像大腦的工作方式

在實(shí)際操作中,一旦一個(gè)答案被確認(rèn)為錯(cuò)誤,那就不會(huì)進(jìn)行額外的驗(yàn)證,從而得到一個(gè)錯(cuò)誤的驗(yàn)證狀態(tài)。研究人員分配相應(yīng)的權(quán)重給這些狀態(tài):真實(shí)(wT)、不確定(wU)和錯(cuò)誤(wF)。

GPT-4數(shù)學(xué)再提30分,代碼解析器任督二脈被打開(kāi),網(wǎng)友:像大腦的工作方式

最后從候選答案中擇取得分最高的那一個(gè):

GPT-4數(shù)學(xué)再提30分,代碼解析器任督二脈被打開(kāi),網(wǎng)友:像大腦的工作方式

比此前最高水平提高30%

用上了上述方法,GPT-4代碼解析器做數(shù)學(xué)題的能力up up。

在MATH數(shù)據(jù)集上,原始GPT-4代碼解析器的準(zhǔn)確率為69.69%,使用CSV提示后提高到73.54%,再結(jié)合加權(quán)多數(shù)表決后進(jìn)一步提高到84.32%,相比之前SOTA提高了30%以上。

GPT-4數(shù)學(xué)再提30分,代碼解析器任督二脈被打開(kāi),網(wǎng)友:像大腦的工作方式

△在MATH數(shù)據(jù)集上的準(zhǔn)確率(%)

在MATH數(shù)據(jù)集的各個(gè)子任務(wù)中,提出方法均取得顯著提高,尤其是在高難度級(jí)別的題目中效果更明顯。例如在中級(jí)代數(shù)(Intermediate Algebra)題目中,原來(lái)的GPT-4代碼解析器準(zhǔn)確率為50.1%,使用新方法后提高到74.4%。

除此之外,研究人員還在GSM8K、MMLU-Math、MMLU-STEM等數(shù)據(jù)集上進(jìn)行了驗(yàn)證。

GPT-4數(shù)學(xué)再提30分,代碼解析器任督二脈被打開(kāi),網(wǎng)友:像大腦的工作方式

△在GSM8K數(shù)據(jù)集上的表現(xiàn)

上表可以看出,使用驗(yàn)證引導(dǎo)加權(quán)多數(shù)投票的方法還可以顯著減少需要采樣的解路徑數(shù)量(Sampled paths),在GSM8K數(shù)據(jù)集上只需要5個(gè)路徑就達(dá)到97%的準(zhǔn)確率。

GPT-4數(shù)學(xué)再提30分,代碼解析器任督二脈被打開(kāi),網(wǎng)友:像大腦的工作方式

△在MMLU數(shù)據(jù)集上的表現(xiàn)

針對(duì)不同難度的題目(下圖a)以及不同類(lèi)型題目(下圖b)的測(cè)試中,使用新方法后準(zhǔn)確率都有了提升。

GPT-4數(shù)學(xué)再提30分,代碼解析器任督二脈被打開(kāi),網(wǎng)友:像大腦的工作方式

△每條曲線上的四個(gè)點(diǎn)分別對(duì)應(yīng)于使用Prompt 1、Prompt 2、BasicPrompt、CSV Prompt得到的結(jié)果。

研究人員還發(fā)現(xiàn)GPT-4代碼解析器的代碼使用頻率提高與準(zhǔn)確率提高正相關(guān)。隨著題目難度的增加,代碼使用頻率穩(wěn)步上升。這說(shuō)明在較難的數(shù)學(xué)問(wèn)題上,更頻繁地使用代碼很重要。

此外,值得注意的是,盡管添加基于代碼的自我驗(yàn)證可以提高每個(gè)單獨(dú)題目類(lèi)型的性能,但改進(jìn)的程度也因題目類(lèi)型而異,從7.6%到僅0.6%不等。

研究人員指出:

特別是幾何問(wèn)題的準(zhǔn)確性僅提高了0.6%,原本GPT-4代碼解析器的準(zhǔn)確性也只有54.0%,在各個(gè)題目類(lèi)型中屬于較低的。這種差異可能是因?yàn)榻鉀Q幾何問(wèn)題通常需要多模態(tài),超出了本文研究范圍。

論文傳送門(mén):https://arxiv.org/abs/2308.07921

參考鏈接:
[1]https://twitter.com/_akhaliq/status/1691734872329699813?s=20
[2]https://x.com/justfannet/status/1691983780498600376?s=46&t=iTysI4vQLQqCNJjSmBODPw

版權(quán)所有,未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用,違者必究。

相關(guān)閱讀

在线观看日本中文字幕| 免费中文字幕在线观看| 天天做天天爱天天高潮| 97在线视频一区| 亚洲一区二区三区自拍| 亚洲 欧美 激情 另类| 波多野结衣 在线| 青青青国产在线视频| 久久精品午夜一区二区福利| 欧美日韩第一页| 精品av综合导航| 欧美日韩国产综合新一区| 99精品视频免费在线观看| 欧美一区二区三区四| 日本激情小视频| 亚洲污视频在线观看| 韩国黄色一级大片| 精品视频一区二区三区四区| 国产成人精品999| 在线精品播放av| 欧美老年两性高潮| 午夜精品福利在线| 国产精品精品国产色婷婷| 国产寡妇亲子伦一区二区| 一级黄色小视频| 日韩三级小视频| 中文字幕精品亚洲| 性色av蜜臀av浪潮av老女人| 999精品视频在线| 男人c女人视频| 美女av一区二区三区| 亚洲人精选亚洲人成在线| 日韩一区二区在线观看| 欧美艳星brazzers| 亚洲高清视频在线| 懂色av成人一区二区三区| 国产一级片免费看| 亚洲色婷婷一区二区三区| 久久久国产一级片| 娇妻被老王脔到高潮失禁视频| 韩国中文字幕av| 精品人妻无码一区| 欧美一区国产一区| 亚洲午夜未删减在线观看 | 欧美视频一区二区三区四区 | 亚洲高清免费在线| 日韩欧美aⅴ综合网站发布| 一本久道久久综合中文字幕| 欧美日韩激情一区| 亚洲乱亚洲乱妇无码| 九九热最新视频//这里只有精品| 欧美一区二区三区精品电影| 成人黄色短视频在线观看| 麻豆传媒一区| av免费观看大全| 五月天国产视频| 精品国产成人亚洲午夜福利| 九九视频免费观看| 国产精品爽爽久久久久久| 日本免费新一区视频| 91在线小视频| 欧美日韩午夜剧场| 日韩精品免费综合视频在线播放| 久久99精品久久久久久青青91 | 欧美另类69xxxx| 探花国产精品一区二区| 久久九九99| 国产亚洲美州欧州综合国| 色综合久久88色综合天天| 精品亚洲一区二区三区四区五区 | aa片在线观看视频在线播放| 久久精品第一页| 欧美熟女一区二区| 久久久久久久久久久黄色 | 亚洲色欲色欲www| 欧美日韩中文字幕精品| 久久久精品在线| 黄色99视频| 一区二区三区 日韩| 搜索黄色一级片| 午夜激情小视频| 中文字幕日韩精品一区| 欧美成人激情免费网| 7m第一福利500精品视频| 日本一区二区三不卡| 99热一区二区| 精品在线播放视频| 国产成人综合亚洲网站| 欧美亚洲动漫另类| 国产69精品久久久久99| 欧美男女爱爱视频| 国产xxx在线观看| 国产性猛交╳xxx乱大交| 国产精品99久久久久久有的能看| 欧洲亚洲精品在线| 青草青草久热精品视频在线观看| 国产91在线亚洲| wwwav国产| 国产一区二区三区免费在线观看| 欧美中文字幕不卡| 国产精品久久久久久久9999| 青青艹视频在线| 久久国产视频精品| 久久久国产精品麻豆| 国产亚洲成精品久久| 亚洲国产一区二区三区在线| 久久久久99精品成人| 韩国精品在线观看| 精品免费一区二区三区| 蜜桃臀一区二区三区| 在线免费播放av| 久久精品国产久精国产爱| 欧美一区二区精品久久911| 99在线国产| 免费在线观看你懂的| 国产美女精品在线| 亚洲精品一区二区三区不| 一区二区成人国产精品| 日韩欧美亚洲一区二区三区| 国产日韩欧美亚洲| 欧美黄网免费在线观看| www.浪潮av.com| 国产不卡av在线播放| 欧美性猛交xxxxx免费看| 成人两性免费视频| 中国女人特级毛片| 91热门视频在线观看| 色妞欧美日韩在线| 日本女优爱爱视频| 凸凹人妻人人澡人人添| 制服丝袜亚洲精品中文字幕| 日韩av影视| 69亚洲精品久久久蜜桃小说| 欧美日韩免费在线观看| 国产精品久久久久久免费观看| 国产真实乱在线更新| √…a在线天堂一区| 日本久久久久久| 欧美黄色一级生活片| 久久亚洲欧美国产精品乐播| 97欧美精品一区二区三区| 波多野结衣国产精品| 激情综合网av| 欧美精品videofree1080p| 在线成人精品视频| 丁香婷婷综合激情五月色| 91po在线观看91精品国产性色| 日批在线观看视频| 日本一区二区三区在线观看| 午夜美女久久久久爽久久| 成人一级生活片| 国产成人毛毛毛片| 精品sm在线观看| 日本人视频jizz页码69| 成人福利电影精品一区二区在线观看 | 99re这里只有精品6| 69久久夜色精品国产7777| 国产黄色网址在线观看| 亚洲日韩欧美一区二区在线| 国产女主播一区二区三区| 波多野结衣绝顶大高潮| 欧美不卡在线视频| 欧美一级特黄a| 国产精品正在播放| 国语自产精品视频在线看抢先版图片| 欧美大波大乳巨大乳| 亚洲国产成人91porn| 欧美在线视频二区| 亚洲国产综合一区| 成人97在线观看视频| 久久丫精品国产亚洲av不卡| 伊人婷婷欧美激情| 色姑娘综合网| 天天av天天翘| 久久久久久久久国产| 日本乱子伦xxxx| 精品动漫一区二区| 日本美女爱爱视频| 久久精品国产精品亚洲精品 | 欧美日韩综合一区| 男女高潮又爽又黄又无遮挡| 免费xxxx性欧美18vr| 77777亚洲午夜久久多人| 战狼4完整免费观看在线播放版| 五月激情六月综合| 97国产在线播放| 99国产麻豆精品| 久久riav| 蜜桃av一区二区在线观看| 国产精品18久久久久久首页狼| www.av麻豆| 国产一区二区激情| 色欲狠狠躁天天躁无码中文字幕 | 粉嫩久久99精品久久久久久夜 | 深夜福利一区二区| 国产黄色小视频网站| 日韩免费高清av| 成熟妇人a片免费看网站| 欧美日韩国产在线看| 国产一区二区在线免费播放| 亚洲三级在线观看| 黄网站色视频免费观看| 久久亚洲精品国产精品紫薇| 日韩一区免费观看| 国产酒店精品激情| 欧美不卡三区| 国产精品一区二区久久精品爱涩 | 国产精品h片在线播放| 97国产精品久久久| 欧美亚洲另类在线| 在线视频欧美亚洲| 国产91色在线播放| 日韩一区二区三区不卡| 亚洲一区二区三区成人在线视频精品| 久久久综合九色合综国产精品| 香蕉成人在线视频| 国产精品电影院| 欧美另类极品videosbest最新版本 | 大桥未久一区二区三区| 国产精品一区二区久激情瑜伽| av日韩免费电影| 国产精品资源网站| 亚洲精品偷拍视频| 亚洲人成小说网站色在线| 日本人视频jizz页码69| 在线视频欧美区| 欧美熟妇激情一区二区三区| 亚洲男人av电影| 国产www在线| 国产精品老女人精品视频| 天天爽夜夜爽夜夜爽| 欧美中日韩免费视频| 2017欧美狠狠色| 午夜视频在线瓜伦| 欧美电影一区二区| 国产五月天婷婷| 国产精品h在线观看| 国产精品亚洲一区二区三区在线 | 亚洲一区中文字幕在线观看| 不卡一区在线观看| 男女午夜激情视频| 精品国精品国产尤物美女| 综合激情网五月| 91网免费观看| 欧美国产精品一区二区三区| 国产情侣久久久久aⅴ免费| 亚洲欧美一区二区三区情侣bbw| 中文字幕永久在线观看| 97视频中文字幕| 国产精品伦一区二区三级视频| 人妻 丝袜美腿 中文字幕| 中文字幕视频在线免费欧美日韩综合在线看| 国产精品久久久久精| 免费日韩av电影| 一本到三区不卡视频| 精品午夜福利视频| av一区观看| 亚洲免费电影在线| 成人免费视频网站入口::| 成人精品视频99在线观看免费| 成人国产精品免费观看动漫 | 韩国欧美国产一区| 亚洲综合日韩欧美| 久久综合电影一区| 高清国产一区二区三区| 91香蕉国产线在线观看| 蜜臀久久99精品久久久无需会员| 国产一区免费电影| 日本网站在线看| 5566日本婷婷色中文字幕97| 欧美国产日本韩| 精品99在线观看| 国产厕所精品在线观看| 精品国产福利在线| 国产剧情精品在线| 成人在线观看毛片| 亚洲国产精久久久久久| 视频在线观看一区二区三区| 亚洲色图欧美自拍| 国产精品自产拍在线观看| 欧美日韩在线观看视频| 国产丰满果冻videossex| 成人精品小视频| 欧美精品videos| 亚洲三级在线免费观看| 国产又大又黄视频| 国产精品久久久久久久乖乖| 亚洲精品视频在线播放| 高清国产一区二区三区| 国产一级久久久| 日本男女交配视频| 欧美黑人巨大xxx极品| 中文字幕亚洲一区二区av在线| 波多野结衣视频在线观看| 国产成人无码a区在线观看视频| 欧美激情精品久久久久久| 一区二区三区四区蜜桃| 亚洲黄色一级大片| caoporm在线视频| 成人久久一区二区| 欧美精品一区二区三区很污很色的| 国产精品 欧美精品| 精品人妻在线播放| 17c丨国产丨精品视频| 91av福利视频| 日韩欧美在线网站| 99久久精品国产一区色| 国产手机免费视频| 亚洲欧洲午夜一线一品| 国产一区二区三区久久久| 美女爆乳18禁www久久久久久| 日本午夜人人精品| 婷婷开心激情综合| 国产婷婷一区二区三区久久| 免费成人黄色大片| 91久久精品国产91久久性色tv| 91精品久久久久久久99蜜桃| 久久久久久穴| 噜噜噜在线视频| 久久精品国产综合精品| 日韩国产精品一区| 国产美女视频一区| 亚洲精品自拍视频在线观看| 久久国产精品亚洲va麻豆| 亚洲成人动漫在线播放| 精品亚洲国内自在自线福利| 国产免费嫩草影院| 国模精品娜娜一二三区| 欧美一区二区日韩一区二区| 国产精品一区二区久激情瑜伽| 九九视频在线观看| 欧美大片在线播放| 国产精品电影久久久久电影网| 亚洲国产精品一区二区久久 | 欧美日韩在线高清| 色哟哟入口国产精品| 91福利小视频| 欧美韩日一区二区三区四区| 免费看日韩精品| 欧美 日韩 国产 一区二区三区| 成年人午夜免费视频| 国产精品久久精品国产| 国产99久久久欧美黑人| 欧美videos大乳护士334| 亚洲精品免费视频| 国产成人午夜精品影院观看视频| 欧美男人亚洲天堂| 91高清免费看| 我看黄色一级片| 欧美一区二区三区在线免费观看 | 日本亚洲最大的色成网站www| 成年人午夜剧场| 五月婷婷六月丁香激情| 亚洲精品国产一区| 肥熟一91porny丨九色丨| 成人黄在线观看| 国产精品第三页| 亚洲精品成人免费| 欧美一区二区三区四区在线观看| 狠狠操狠狠色综合网| 日韩美女精品在线| 99久久er热在这里只有精品15| 国产精品日韩精品欧美在线| 亚洲激情在线播放| 欧美日韩国产一区二区| 岛国av一区二区| 久久婷婷国产综合精品青草| 日本亚洲欧美天堂免费| 99久久婷婷国产| 国产精品丝袜在线| 日韩欧美亚洲综合| 亚洲视频在线观看| 蜜臀久久99精品久久久久久宅男 | 久久综合一区二区三区| 国产日韩精品在线观看| 国产成人在线视频| 久久久久一本一区二区青青蜜月| 久久视频这里只有精品| 欧美大片顶级少妇| 色婷婷激情久久| 欧美亚洲日本国产| 欧美一区二区在线免费观看| 亚洲精品久久久久| 91精品国产91久久久久久 | 一区二区三区四区中文字幕| 一区二区三区在线高清| 亚洲1区2区3区4区| 亚洲视频在线观看一区| 免费一级欧美片在线观看| 久久一区中文字幕| 国产一区二区三区日韩| 国产成人精品www牛牛影视| www.性欧美| 欧美精品视频www在线观看| 91精品国产91久久久久久| 青青草久久网络| 韩国三级视频在线观看| 成人黄色片在线观看| 美洲天堂一区二卡三卡四卡视频| 亚洲精品乱码久久久久久黑人| 高跟丝袜一区二区三区| 最好看的2019的中文字幕视频| 国产精品视频地址| 国产精品中文久久久久久久| 成人激情电影一区二区| 日本高清视频一区二区三区| 91香蕉视频在线下载| www.夜夜爱| 制服丝袜中文字幕第一页| 自拍偷拍激情视频|