色综合中文综合网_性猛交娇小69hd_久久精品99久久久久久_欧美日韩精品一区二区三区四区 _97视频色精品_国产高清精品久久久久_日日鲁鲁鲁夜夜爽爽狠狠视频97 _国产成人免费视频精品含羞草妖精 _熟女少妇在线视频播放_精品人妻一区二区三区麻豆91 _久久女同性恋中文字幕_一区二区福利视频

大模型權(quán)威測試被曝翻車!偏袒GPT-4等閉源模型,提示詞區(qū)別對待

簡單改下提示詞,LIama3漲10分

白交 發(fā)自 凹非寺

量子位 | 公眾號 QbitAI

大模型權(quán)威測試,翻車了?!

HuggingFace都在用的MMLU-PRO,被扒出評測方法更偏向閉源模型,被網(wǎng)友直接在GitHub Issue提出質(zhì)疑。

大模型權(quán)威測試被曝翻車!偏袒GPT-4等閉源模型,提示詞區(qū)別對待

此前MMLU原始版本早已經(jīng)被各家大模型刷爆了,誰考都是高分,對前沿模型已經(jīng)沒有了區(qū)分度

號稱更強大、更具挑戰(zhàn)線性多任務(wù)語言基準MMLU-Pro,成了業(yè)界對大模型性能的重要參考。

但結(jié)果沒想到的是,現(xiàn)在有人扒出其在采樣參數(shù)、系統(tǒng)提示和答案提取等方面設(shè)置不公平,存在一些令人震驚的差異。

隨便對系統(tǒng)提示詞做了個小修改,直接將開源陣營的Llama-3-8b-q8的性能提高了10分?!

大模型權(quán)威測試被曝翻車!偏袒GPT-4等閉源模型,提示詞區(qū)別對待

emmm……就問大模型跑分到底還能不能信了?

被扒偏向閉源模型

這是源于Reddit上一位ML/AI愛好者的意外發(fā)現(xiàn)。

還特意做了個免責聲明,自己只是感興趣,并不是ML研究員(Doge)

大模型權(quán)威測試被曝翻車!偏袒GPT-4等閉源模型,提示詞區(qū)別對待

出于好奇想了解它是如何工作的,于是檢查了原始repo中的代碼以及每個模型使用的提示和響應(yīng)。

不看不知道,一看嚇一跳。

首先,他們不會對所有模型使用相同的參數(shù)。

大模型權(quán)威測試被曝翻車!偏袒GPT-4等閉源模型,提示詞區(qū)別對待

其次,給每個大模型的Prompt差別也挺大啊喂?!

跟GPT-4o說:

您是知識專家,您應(yīng)該回答多選題,得出最終答案為「答案是 ….」

跟GPT-4說:

以下是有關(guān){主題}的選擇題(含答案)。請逐步思考,然后在最后以 “答案是 (X) ”作為輸出。

……

大模型權(quán)威測試被曝翻車!偏袒GPT-4等閉源模型,提示詞區(qū)別對待

更離譜的是Claude3,沒有系統(tǒng)提示詞?!!!

大模型權(quán)威測試被曝翻車!偏袒GPT-4等閉源模型,提示詞區(qū)別對待

此外,這位網(wǎng)友還發(fā)現(xiàn),模型必須按照指令輸出準確的短語和格式,這點至關(guān)重要。

否則,模型的答案就不會被認可,而是會為模型隨機生成一個答案。

于是乎他進行了一個小小的測試。

通過調(diào)整系統(tǒng)提示,來強調(diào)格式的重要性,結(jié)果模型分數(shù)顯著提高。

比如給llama-3-8b-q8說了這些話,結(jié)果它在一些類別中得分提高了10分以上。

大模型權(quán)威測試被曝翻車!偏袒GPT-4等閉源模型,提示詞區(qū)別對待

作為一名知識淵博的專家,你的任務(wù)是回答只有一個正確答案的多項選擇題。清楚地解釋你對每道題的思考過程,提供全面、逐步的推理,說明你是如何得出最終答案的。如果沒有一個選項完全符合,請選擇最接近的一個。用準確的短語和格式結(jié)束每個回答至關(guān)重要: 答案是 (X),其中 X 代表字母選項,即使選擇最接近的選項也是如此。

此外對各個模型答案提取regex也不一樣。

大模型權(quán)威測試被曝翻車!偏袒GPT-4等閉源模型,提示詞區(qū)別對待

此事一出,大家一片嘩然。他去團隊GitHub頁面底下反應(yīng),也得到了官方回復。

官方回應(yīng):對結(jié)果影響不超過1%

大概有這么幾個意思。

首先,關(guān)于采樣參數(shù)和系統(tǒng)提示,我們建議使用我們 git 倉庫中的 evaluate_from_api.py 和 evaluate_from_local.py,因為這些設(shè)置與我們論文中報告的結(jié)果一致。

至于像那些閉源模型的結(jié)果,因為是不同合作者同時運行的,所以會有些細微差別。

不過他們表示,有進行抽樣測試,發(fā)現(xiàn)對結(jié)果的影響很小,不超過 1%。

另外,他們在論文中還強調(diào)了 MMLU-Pro 的魯棒性,因此從節(jié)約成本的角度出發(fā),我們選擇了不重新運行所有項目。

對于答案提取regex問題,團隊承認:這的確是一個重要問題。

因為像 GPT-4o 和 Gemini 這樣的高性能模型來說,影響微乎其微。但對于較小規(guī)模的模型來說,影響可能會更大。

他們正計劃引入召回率更高的答案提取詞法,并將相應(yīng)地進行標準化和重新提取答案。

此前還被爆出MMLU-Pro以數(shù)學為主

今年5月,來自滑鐵盧大模型老虎實驗室陳文虎團隊推出MMLU-Pro版。

當時強調(diào)它主要有這些特點:

1、隨機猜測的空間更小。Pro版使用 10 個選項而不是 4 個選項。

2、更復雜:MMLU-Pro 添加了更多不同學科的大學水平問題,共計12K個問題。

3、MMLU-Pro 更穩(wěn)健,對不同提示的敏感度更低。

結(jié)果 GPT-4o(71%)實際上比 GPT-4-turbo(62%)提高了 9%在原始 MMLU 上,改進只有 2% 左右。

大模型權(quán)威測試被曝翻車!偏袒GPT-4等閉源模型,提示詞區(qū)別對待

但使用之后發(fā)現(xiàn),有人反饋說MMLU-Pro以數(shù)學能力為主,但此前MMLU的價值在于知識和推理。

很多問題都需要多步驟的思維鏈CoT推理來解決應(yīng)用數(shù)學問題。

這樣的話對大模型來說太難了,大部分都集中在低端,這樣評估也就沒有意義。

大模型權(quán)威測試被曝翻車!偏袒GPT-4等閉源模型,提示詞區(qū)別對待

好了對于這件事你怎么看呢?

參考鏈接:
[1]https://www.reddit.com/r/LocalLLaMA/comments/1dw8l3j/comment/lbu6efr/?utm_source=ainews&utm_medium=email&utm_campaign=ainews-et-tu-mmlu-pro
[2]https://github.com/TIGER-AI-Lab/MMLU-Pro/issues/5
[3]https://www.reddit.com/r/LocalLLaMA/comments/1du52gf/mmlupro_is_a_math_benchmark/?utm_source=ainews&utm_medium=email&utm_campaign=ainews-et-tu-mmlu-pro
[4]https://x.com/WenhuChen/status/1790597967319007564
[5]https://x.com/WenhuChen/with_replies

版權(quán)所有,未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用,違者必究。
国产性xxxx高清| 国产精品三区www17con| 91在线观看欧美日韩| 日本福利视频在线观看| 亚洲第一综合网| 成人免费公开视频| 国产精品每日更新在线播放网址| 欧美精品精品一区| 欧美中文字幕视频在线观看| av女优在线播放| 看免费黄色录像| 国内成人精品2018免费看| 红桃视频成人在线观看| 国内精品久久久久影院 日本资源| 日韩影片在线播放| 波多野结衣av在线观看| 亚洲日本香蕉视频| 欧美日韩一区二区三区| 91高清视频免费观看| 日韩五码在线观看| 亚洲一区欧美在线| 国产日韩欧美一区二区三区乱码 | 欧美一区1区三区3区公司| 五月天国产视频| www.超碰在线.com| 日韩欧美在线看| 日韩av不卡在线| 999精品网站| 国产精品久久久久久久久毛片| 国产日产精品一区| 精品国产网站地址| 欧美黄网在线观看| 最新中文字幕一区| 中文字幕免费不卡| 欧美激情欧美激情| 国产无套粉嫩白浆内谢的出处| 国产裸体美女永久免费无遮挡| 久久你懂得1024| 日韩中文字幕视频在线| 91国在线高清视频| 中文字幕一区二区人妻视频| 伊人色综合久久天天| 69av视频在线播放| 色网站在线视频| 久久久久国产精品一区二区| 欧美色男人天堂| 古典武侠综合av第一页| 国产又黄又粗又猛又爽的| 91蜜桃网址入口| 欧美福利小视频| 国产又猛又黄的视频| 欧美 日韩 综合| 日韩欧美色综合网站| 精品人伦一区二区三区| 无码人妻精品一区二区三区夜夜嗨| 成人深夜在线观看| 欧美成人午夜剧场免费观看| 黄大色黄女片18第一次| 麻豆91精品91久久久的内涵| 日韩精品视频在线观看网址| 国产freexxxx性播放麻豆 | 亚洲视频电影图片偷拍一区| 久久www视频| 国产视频手机在线观看| 日本精品视频一区二区三区| 精品婷婷色一区二区三区蜜桃| 欧美国产日韩在线观看成人| 亚洲欧美一区二区三区国产精品| 国产精品av电影| 在线看片中文字幕| 中文字幕在线观看不卡| 91精品在线看| 久草视频精品在线| 欧美影片第一页| 中文字幕欧美日韩一区二区| 999精品国产| 亚洲国产成人久久综合一区| 国产日韩一区二区在线观看| 人人狠狠综合久久亚洲| 乱亲女秽乱长久久久| 伊人av在线播放| 91麻豆国产自产在线观看| 欧美一区二三区| 国产欧美小视频| 一区二区在线看| 欧美激情www| 一起草av在线| 亚洲欧美成人精品| 国产高清av片| 中文子幕无线码一区tr| 国产精品9999久久久久仙踪林 | 亚洲а∨天堂久久精品2021| 亚洲视频免费观看| 日本一区高清不卡| 少妇高潮一区二区三区69| 日韩中文字幕在线播放| 三级男人添奶爽爽爽视频| 伊人性伊人情综合网| 午夜精品区一区二区三| 天堂成人免费av电影一区| 欧美国产日韩二区| 久久国产波多野结衣| 欧美体内she精视频| 欧美爱爱视频免费看| 国产精品1区2区| 国产玖玖精品视频| 中文文字幕一区二区三三| 亚洲男人天堂古典| www.av天天| 91成人国产精品| 日韩久久一级片| 久久九九久精品国产免费直播| 9a蜜桃久久久久久免费| 国产美女无遮挡永久免费| 俺去亚洲欧洲欧美日韩| 天堂网av2018| 日韩视频在线你懂得| 91大神免费观看| 亚洲线精品一区二区三区 | 国产精品久久波多野结衣| www.国产免费| 青青草成人在线| 精品国产青草久久久久96| 日韩亚洲成人av在线| tube国产麻豆| 亚洲欧美制服丝袜| 开心激情五月网| 亚洲成人xxx| 日韩av片在线| 日韩精品一区二区三区四区| av天堂一区二区| 日本韩国视频一区二区| 亚洲第一色av| 91国产精品成人| gogo亚洲国模私拍人体| 欧美日韩国产一中文字不卡 | 四虎精品欧美一区二区免费| 99久久免费视频.com| 欧美日韩精品免费观看视一区二区| 美女mm1313爽爽久久久蜜臀| 成人羞羞视频免费| 国产呦萝稀缺另类资源| 久久久综合香蕉尹人综合网| 国产一区二区导航在线播放| 久久人人爽爽人人爽人人片av| 蜜桃av一区二区| 国产乱码精品一区二区三区中文| 久久福利视频一区二区| 你懂的网址一区二区三区| 激情综合色综合久久综合| 久久亚裔精品欧美| 91在线视频免费观看| 成人毛片100部免费看| 中文字幕在线不卡一区| www.天天射.com| 在线观看免费亚洲| 三上悠亚ssⅰn939无码播放| 亚洲第一区在线观看| 欧美精品久久久久久久久46p| 一本一本久久a久久精品综合小说| 国产精品视频看看| 久久夜精品va视频免费观看| 伊人久久亚洲综合| 91色在线视频| yourporn久久国产精品| 国产妇女馒头高清泬20p多| 亚洲成人久久影院| 特级西西人体wwwww| 亚洲免费视频观看| 成人黄色激情视频| 91精品国产自产在线观看永久| 日韩在线卡一卡二| 在线观看一区二区三区三州| 一区二区三区美女| 久久午夜夜伦鲁鲁片| 国产一区二区黄| 91麻豆国产视频| 国产麻豆日韩| 中文在线资源观看网站视频免费不卡 | 国产精品一区视频网站| 久久综合九色欧美综合狠狠| 天天色综合社区| 精品噜噜噜噜久久久久久久久试看| 日韩精品在线不卡| 91在线观看免费高清完整版在线观看| 丰满少妇久久久久久久| 国产免费人做人爱午夜视频| 日韩一级片网站| 樱花视频在线免费观看| 波多野结衣久草一区| 国产精品久久久久久亚洲毛片| 午夜性福利视频| www国产精品com| 久热精品在线| 91成人在线观看喷潮教学| 在线播放日韩导航| 自拍偷拍福利视频| 日本一区高清不卡| 在线观看欧美精品| 91在线视频免费播放| 精品国产一区二区三区麻豆小说 | 久久一区亚洲| 欧美 丝袜 自拍 制服 另类| 欧美r级电影在线观看| 91福利免费视频| 一区二区三区偷拍| 欧美男女性生活在线直播观看| 欧美黄色一级大片| 午夜精品福利一区二区| 欧美视频自拍偷拍| 欧美性受xxx黑人xyx性爽| 日本一区二区在线视频| 在线影院国内精品| 最近国语视频在线观看免费播放| 性欧美.com| 91精品欧美综合在线观看最新| 中文字幕一区二区三区四区免费看| 乱一区二区三区在线播放| 色综合婷婷久久| 国产美女www爽爽爽| 翔田千里亚洲一二三区| 欧美一区二视频| 六月丁香色婷婷| 日本一极黄色片| 日韩亚洲综合在线| 国产91精品一区二区麻豆亚洲| 香蕉视频xxxx| 欧洲精品在线视频| 亚洲色图另类专区| 日本网站在线免费观看| 日韩影片在线播放| 亚洲国产精久久久久久| 日韩不卡一区二区| 日本黄色大片在线观看| 国产成人一区二区三区小说| 亚洲美女视频在线观看| 国产一级一级国产| 免费日韩在线观看| 丝袜一区二区三区| 91免费版在线看| 九九热精品免费视频| 亚洲国产精品一区二区第四页av| 日韩欧美国产高清| 麻豆精品视频在线观看视频| 日本少妇xxxx| 亚洲综合在线做性| 欧美老肥妇做.爰bbww| 日本aⅴ亚洲精品中文乱码| 波多野结衣加勒比| 国产精品免费看一区二区三区| 欧美日韩大陆一区二区| 久久在线精品| 美女洗澡无遮挡| 免费毛片一区二区三区久久久| 精品美女在线播放| 国产精品一区二区男女羞羞无遮挡 | 亚洲一级不卡视频| 99视频国产精品免费观看a| 亚洲人视频在线| 成人黄色免费片| 欧美日韩午夜在线视频| 久久精品久久久精品美女| jizz中文字幕| 这里只有精品66| 美女视频黄免费的亚洲男人天堂| 国产精品伦一区| 国产精品玖玖玖| 亚洲精品一区二区18漫画 | 国产日韩欧美在线视频观看| 在线看国产一区| 久久99深爱久久99精品| 久久久久亚洲av片无码| 成人性免费视频| 国产精品美女无圣光视频| 欧美日韩一区久久| 国产成人免费在线观看不卡| 国产精品二区一区二区aⅴ| 黄色国产一级视频| 国产精品成人v| 日韩你懂的在线播放| 久久毛片高清国产| 国产又粗又猛视频免费| 亚洲一级av无码毛片精品| 日韩欧美一区二区三区四区五区 | 97视频免费看| 欧美日韩一级黄| 91色|porny| 精品国产无码AV| 精品人伦一区二区| 91九色丨porny丨国产jk| 国产精品丝袜白浆摸在线| 欧美大片免费久久精品三p| 日本一区二区三区四区 | 无码人妻丰满熟妇精品区| 日日夜夜精品视频免费观看| 欧美日韩综合精品| 91国产美女视频| 亚洲福利精品在线| 亚洲图片欧美综合| 国产精品白丝jk白祙喷水网站| 亚洲午夜无码久久久久| 欧美精品黑人猛交高潮| 精品一二三四五区| 97人人模人人爽人人喊38tv| xvideos亚洲人网站| 欧美揉bbbbb揉bbbbb| 国产亚洲短视频| 日韩精品视频网站| 国产www在线| 成人午夜剧场视频网站| 成年人免费在线播放| 美女三级99| 国产精品久久久av| 中文字幕综合在线| 欧美高清视频一二三区| 一区二区三区日韩欧美精品 | 国模娜娜一区二区三区| 欧美激情一区二区三区免费观看| 亚洲av无码国产精品麻豆天美| 韩国一区二区av| 自拍偷拍99| 国产精品日韩欧美一区二区| 91av在线影院| 色妞在线综合亚洲欧美| 欧美成人福利视频| 色先锋资源久久综合| 国产精品久久久久久久久晋中 | 日韩va欧美va亚洲va久久| 无码视频一区二区三区| 天堂网avav| 熟女少妇一区二区三区| 亚洲综合123| 国产一级不卡毛片| 亚洲一区 在线播放| 精品国产免费一区二区三区| 国产日本欧美一区| 51精品在线观看| 欧美乱大交xxxxx| 中文国产成人精品| 日韩av一区在线| 欧美日韩精品一二三区| 欧美日韩国产精品专区 | 欧美精品色婷婷五月综合| 亚洲制服中文| 久久一区二区精品| 国产成人精品日本亚洲11| 国产综合久久久久久| 日本久久精品视频| 26uuu另类亚洲欧美日本老年| 中文字幕亚洲欧美在线| 亚洲国语精品自产拍在线观看| 欧美精品第1页| 在线观看不卡一区| 欧美日韩午夜剧场| 欧美日韩国产综合视频在线观看中文| 中文字幕在线观看一区二区| 国产欧美日本一区二区三区| 91麻豆视频网站| 国产视频在线观看一区二区三区| 成人黄色一级视频| 99在线精品一区二区三区| 成人99免费视频| 99re热这里只有精品视频| av在线播放成人| 91在线精品一区二区| 99久久99久久综合| 久久先锋影音av鲁色资源| 久久久精品免费免费| 国产日韩av一区| 中文字幕日韩一区| 一区二区高清视频在线观看| 亚洲午夜激情av| 精品久久久久久久久久久久久久| 五月天久久比比资源色| 一本一道综合狠狠老| 欧美日韩国产免费| 亚洲成人教育av| 国产一区二区三区三区在线观看| 在线观看亚洲区| 欧美放荡办公室videos4k| 2019中文字幕免费视频| 国产精品高清在线观看| 91精品免费| 日本精品一区二区| 香港三级日本三级a视频| 国产精品欧美激情在线观看| 午夜精品中文字幕| 免费黄色三级网站| 国产老头老太做爰视频| 成人毛片18女人毛片| 亚洲中文字幕在线观看| 无码精品视频一区二区三区| 狠狠色狠狠色综合| 久久久久久麻豆| 亚洲图片欧美色图| 欧美一区二区三区婷婷月色| 亚洲色图美腿丝袜| 午夜精品视频在线| 97人人模人人爽人人喊38tv| 亚洲免费视频一区| 欧美黄网站在线观看| xxx中文字幕| 手机av在线看| 中文字幕+乱码+中文字幕明步| 亚州视频一区二区三区| 成人精品视频一区| 亚洲国产视频一区二区| 日韩欧美国产综合| 免费成人高清视频| 不卡视频一区二区三区|