色综合中文综合网_性猛交娇小69hd_久久精品99久久久久久_欧美日韩精品一区二区三区四区 _97视频色精品_国产高清精品久久久久_日日鲁鲁鲁夜夜爽爽狠狠视频97 _国产成人免费视频精品含羞草妖精 _熟女少妇在线视频播放_精品人妻一区二区三区麻豆91 _久久女同性恋中文字幕_一区二区福利视频

北大伯克利聯(lián)手“拷問”大模型:最強(qiáng)Agent也才40分!新基準(zhǔn)專治“不聽話”的AI分析師

IDA-Bench:給AI一場真實的“隨堂測驗”

北大鄧小鐵課題組 投稿

量子位 | 公眾號 QbitAI

給大模型當(dāng)老師,讓它一步步按你的想法做數(shù)據(jù)分析,有多難?

結(jié)果是,連Claude-3.7和Gemini-2.5 Pro這樣的頂尖選手,都開始“不聽話”了。

在一個全新的測試基準(zhǔn)中,它們面對多輪、不斷演進(jìn)的指令,最終的任務(wù)成功率最高僅有40%。

這項名為IDA-Bench的新基準(zhǔn),就是為了模擬真實世界中這種“邊想邊改”的分析場景而生。

北大伯克利聯(lián)手“拷問”大模型:最強(qiáng)Agent也才40分!新基準(zhǔn)專治“不聽話”的AI分析師

它不再是給模型一道題,讓它一口氣算完;而是模擬一位真實的數(shù)據(jù)分析師,在對話中不斷給出新指令,考察Agent在多輪交互中的真實能力。

可以說,專治各種“自作主張”和“一意孤行”的AI。

值得一提的是,這項工作由一支星光熠熠的團(tuán)隊打造,匯集了北京大學(xué)加州大學(xué)伯克利分校的頂尖學(xué)者,其中不乏機(jī)器學(xué)習(xí)泰斗Michael I. Jordan教授,仿真科學(xué)領(lǐng)域?qū)<?strong>鄭澤宇 (Zeyu Zheng)?副教授,以及ACM/IEEE Fellow鄧小鐵 (Xiaotie Deng)?教授的身影。

“不聽話”的AI,問題出在哪?

目前,我們看到的很多大模型數(shù)據(jù)分析工具,比如OpenAI、Gemini和Claude的網(wǎng)頁應(yīng)用,能力已然非常強(qiáng)大。

但現(xiàn)有的評估基準(zhǔn),大多側(cè)重于單輪互動:用戶給出一個明確的、預(yù)設(shè)好的任務(wù),然后看Agent能否成功執(zhí)行。
可現(xiàn)實世界的數(shù)據(jù)分析,遠(yuǎn)非如此。

真實的數(shù)據(jù)分析師,工作流程是迭代式探索性的。他們會先查看數(shù)據(jù)分布,再決定如何處理異常值;會根據(jù)初步結(jié)果,調(diào)整后續(xù)的分析策略。這些決策充滿了基于領(lǐng)域知識的“主觀性”,指令也是一步步演進(jìn)的。

現(xiàn)有基準(zhǔn)恰恰忽略了這種動態(tài)交互過程,因此無法全面評估Agent在真實協(xié)作場景下的可靠性。

IDA-Bench:給AI一場真實的“隨堂測驗”

為了解決這一痛點,IDA-Bench應(yīng)運而生。它旨在忠實地反映真實數(shù)據(jù)分析的主觀性和交互性特征。

整個測試框架包含四大核心組件:

  • 指令材料 (Instruction Materials):從真實的、復(fù)雜的Kaggle數(shù)據(jù)分析項目(Python notebooks)中提取,包含背景知識、分析目標(biāo)和專家的“主觀洞察”。
  • 模擬用戶 (Simulated User):由一個大模型扮演,它會參照指令材料,像真人一樣逐步向Agent下達(dá)指令,甚至?xí)岢瞿:虿粩嘧兓囊蟆?/li>
  • Agent:即被測試的大模型,它的任務(wù)是嚴(yán)格遵循“用戶”的指令,通過編寫和執(zhí)行代碼來完成任務(wù)。
  • 沙盒環(huán)境 (Sandbox Environment):一個安全隔離的環(huán)境,Agent可以在其中執(zhí)行代碼、訪問數(shù)據(jù),并像在Jupyter中一樣保持上下文。

北大伯克利聯(lián)手“拷問”大模型:最強(qiáng)Agent也才40分!新基準(zhǔn)專治“不聽話”的AI分析師

△圖1:(左) IDA-Bench的測試場景 ,(右) IDA-Bench中的任務(wù)軌跡示例

為了確保任務(wù)的真實性和時效性,防止數(shù)據(jù)污染,IDA-Bench的構(gòu)建流程完全自動化。它能持續(xù)從Kaggle上發(fā)布的最新項目中提取任務(wù),經(jīng)過篩選、預(yù)處理和人工檢查后,生成新的測試用例。

北大伯克利聯(lián)手“拷問”大模型:最強(qiáng)Agent也才40分!新基準(zhǔn)專治“不聽話”的AI分析師

△圖2: IDA-Bench的自動化構(gòu)建流程

Agent慘遭滑鐵盧,最高分僅40

在這樣一套“嚴(yán)刑拷打”下,各大模型紛紛現(xiàn)出原形。

初步評估結(jié)果顯示,即便是最先進(jìn)的大模型,成功率也不足50%。

具體來看,Gemini-2.5-Pro、OpenAI o4-mini和Claude-3.7-Sonnet-Thinking表現(xiàn)位列第一梯隊,但其“基準(zhǔn)達(dá)成率”(即結(jié)果達(dá)到或超過人類基準(zhǔn))也僅為40%。

而DeepSeek系列中,作為指令模型的DeepSeek-V3(24%)表現(xiàn)明顯優(yōu)于其“思考型”模型DeepSeek-R1(12%),這揭示了一個核心挑戰(zhàn):在遵循指令和自主推理之間取得平衡,對當(dāng)前Agent來說非常困難。

北大伯克利聯(lián)手“拷問”大模型:最強(qiáng)Agent也才40分!新基準(zhǔn)專治“不聽話”的AI分析師

△表1: 各大模型在IDA-Bench上的表現(xiàn)

此外,Agent們在任務(wù)中還會犯下各種低級錯誤,導(dǎo)致提交結(jié)果無效。其中最主要的原因是根本沒有生成提交文件,這往往源于模型的“幻覺”。

北大伯克利聯(lián)手“拷問”大模型:最強(qiáng)Agent也才40分!新基準(zhǔn)專治“不聽話”的AI分析師

“自信”的Claude vs “謹(jǐn)慎”的Gemini

深入分析失敗案例,研究團(tuán)隊發(fā)現(xiàn)不同模型展現(xiàn)出了迥異的“性格”。

Claude-3.7DeepSeek-R1表現(xiàn)得像個“過度自信”的實習(xí)生。

它們不怎么遵循用戶的具體指令,而是主動推進(jìn)分析流程,結(jié)果常常因為“自作主張”而錯過了關(guān)鍵步驟和信息。比如,用戶建議用一種新方法改進(jìn)模型,Claude-3.7不等嘗試就直接否定,并提交了之前效果較差的結(jié)果。

相比之下,Gemini-2.5-Pro則像一個“過度謹(jǐn)慎”的助理。它每走一步都要反復(fù)向用戶尋求確認(rèn),有時一個簡單的數(shù)據(jù)清洗操作能來回溝通30輪,最終因超過回合數(shù)限制而任務(wù)失敗。

  • 幻覺或夸大:許多Agent會聲稱執(zhí)行了并未進(jìn)行的操作,比如號稱“優(yōu)化”了參數(shù),但實際只是隨機(jī)設(shè)置;更有甚者,憑空捏造從未生成的代碼和不存在的數(shù)字結(jié)果。
  • 格式錯誤:提交文件的列名大小寫弄反,或數(shù)據(jù)類型不對(如在二分類任務(wù)中,要求提交標(biāo)簽“0”或“1”,模型卻提交了標(biāo)簽為“1”的概率),都是常見的低級錯誤。
  • 固守首次嘗試:一些Agent在初期會做出一個簡單粗暴的嘗試(比如在預(yù)測任務(wù)中,模型在初期會直接用訓(xùn)練集的中位數(shù)作為預(yù)測值),然后就“固執(zhí)己見”,在后續(xù)交互中不再根據(jù)新指令開發(fā)更復(fù)雜的模型。
  • 級聯(lián)錯誤:當(dāng)一個代碼塊中途執(zhí)行失敗時,Agent有時會“假裝”它成功了,導(dǎo)致后續(xù)代碼塊因為引用不存在的變量而出錯,引發(fā)連鎖反應(yīng)。

這些發(fā)現(xiàn)凸顯了當(dāng)前LLM Agent在真正成為可靠數(shù)據(jù)分析助手之前,仍需在理解、遵循和交互能力上進(jìn)行大量改進(jìn)。

論文鏈接:
https://arxiv.org/abs/2505.18223

項目主頁:
https://github.com/lhydave/IDA-Bench

版權(quán)所有,未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用,違者必究。
夜夜嗨av一区二区三区中文字幕| 国产三级小视频| 国产精品美女久久久久av爽| 日韩高清在线电影| 日韩美女精品在线| 欧美一区二区在线免费观看| 欧美精品18videos性欧| 欧美下载看逼逼| 亚洲国产激情一区二区三区| 少妇一级淫免费播放| 国产高潮流白浆| 久久一区二区三区超碰国产精品| 国产精品传媒入口麻豆| 日韩视频在线永久播放| 久久久久久久久国产精品| 日韩精品一区二区三区色偷偷| 日本精品一区在线观看| 日韩av毛片在线观看| 人妻少妇精品无码专区久久| 亚洲国产高清不卡| 日韩av中文字幕在线免费观看| 国产福利成人在线| 日本网站免费在线观看| 少妇人妻丰满做爰xxx| 久久99久久久欧美国产| 欧美性大战久久久| 国产91在线播放九色快色| 日韩日韩日韩日韩日韩| 欧美aaaaa成人免费观看视频| 婷婷综合在线观看| 国产欧美日韩视频一区二区三区| 日韩电影网在线| 伊人成人在线观看| 99国产精品久久| 亚洲第一免费网站| 国产欧美日韩视频一区二区三区| 久久无码专区国产精品s| 国产成人精品一区二区无码呦 | 色av成人天堂桃色av| 午夜精品久久久久久99热| 69堂免费视频| 一级特黄色大片| 7777精品伊人久久久大香线蕉经典版下载 | 一区二区三区免费在线视频| 亚洲另类春色国产| 欧美在线欧美在线| 亚洲欧美一区二区三区不卡| 91久久精品美女高潮| 中文字幕精品—区二区日日骚| 黄色一级片一级片| 久久久久国产免费免费| 久久久久久久久久国产| 国产wwwxx| 久久久精品日韩| 日韩欧美一级在线播放| 蜜桃av噜噜一区二区三| 国产乡下妇女做爰毛片| 一区二区在线观看免费| 国产日韩欧美一二三区| 人人爽人人爽人人片| 2020国产精品自拍| 久久久综合免费视频| 国产成人美女视频| 黄色小说综合网站| 最近2019中文免费高清视频观看www99| 成人免费观看在线| 粉嫩av一区二区夜夜嗨| 精品国精品国产| 国产情侣第一页| 国产黄色免费大片| 日韩午夜激情免费电影| 超级碰在线观看| 性少妇videosexfreexxx片| 日韩午夜在线影院| 国产肉体ⅹxxx137大胆| 黄色小视频免费观看| 日韩经典第一页| 韩国日本在线视频| 极品少妇一区二区| 国产69精品久久久久9999| 亚洲av无码一区二区三区网址| 26uuu欧美| 国产精品手机播放| 青青草国产在线观看| 欧美日韩国产一区中文午夜| 日韩av不卡播放| 国产一区二区麻豆| 日韩激情视频在线| 亚洲一区二区三区观看| 久久综合久久99| 国产精品每日更新| 亚洲成人av片| 日韩精品一区二区三区不卡| 麻豆精品视频在线| 97精品国产97久久久久久免费| 欧美亚一区二区三区| 亚洲久本草在线中文字幕| 九九热久久66| 精品免费久久久| 怡红院精品视频| 国产人妻精品午夜福利免费| 国产精品伦理在线| 精品日本一区二区| 国产黄a三级三级看三级| 中文字幕亚洲自拍| 免费在线观看成年人视频| √…a在线天堂一区| 日本在线成人一区二区| 久久亚洲国产精品一区二区| 国语自产在线不卡| 国产一级一片免费播放放a| 欧美精品精品一区| 别急慢慢来1978如如2| 成人的网站免费观看| 亚洲精品日韩av| 国产情侣自拍小视频| 日韩亚洲欧美成人| 欧美色视频一区二区三区在线观看| 日本韩国视频一区二区| 色诱视频在线观看| 中文字幕日韩av资源站| 欧美三级午夜理伦三级老人| 国产黑丝在线一区二区三区| 99精品国产一区二区| 精品国产av 无码一区二区三区| 久久国产精品99国产精| 久久机热这里只有精品| 日韩成人av在线| 91资源在线播放| 日韩一级完整毛片| 50一60岁老妇女毛片| 日韩欧美主播在线| 杨幂毛片午夜性生毛片| 亚洲一区二区三区国产| 精品久久久久久无码国产| ㊣最新国产の精品bt伙计久久| 国产手机视频在线观看| 久久免费视频一区| 成人污网站在线观看| 久久精品在这里| 天堂а√在线中文在线 | 奇门遁甲1982国语版免费观看高清| 国产视频91在线| 日韩在线视频网| 国产做受高潮漫动| 久久国产精彩视频| 高潮无码精品色欲av午夜福利| 欧美另类在线观看| 国产在线观看第一页| 91精品国产91久久久久久久久| 国产成人麻豆免费观看| 欧美亚洲国产另类| 国产黄a三级三级看三级| 国产日产欧美a一级在线| 久久免费高清| 国产视色精品亚洲一区二区| 国内精品伊人久久久久影院对白| 久久久久久高清| av亚洲精华国产精华精| 免费视频爱爱太爽了| 一区二区三区在线免费视频| 色戒在线免费观看| 欧美日韩国产综合一区二区三区| 中文字幕在线免费看线人| 精品少妇一区二区| 精品午夜福利视频| 97视频在线观看亚洲| 六月婷婷中文字幕| 精品久久中出| 国产人成亚洲第一网站在线播放| 无码精品a∨在线观看中文| 亚洲18女电影在线观看| 成年人小视频在线观看| 日韩成人久久久| 国产黄色免费观看| 国产精品久久久久久久久久久久久久 | 综合久久国产九一剧情麻豆| 中文字幕资源在线观看| 精品久久一区二区| 国产成人愉拍精品久久 | 欧美国产第二页| 欧美一级做性受免费大片免费| 精品国产一区二区三区四区vr| 久久精品在这里| 日韩欧美中文视频| 亚洲人成在线观看| 91在线视频国产| 精品国产综合| 一区二区在线看| 免费网站在线高清观看| 欧美激情中文网| 久草这里只有精品视频| 日韩欧美不卡在线| 91精品欧美福利在线观看| www.日本精品| 久久超级碰视频| 97精品国产91久久久久久| 男人日女人视频网站| 成人黄色大片在线观看 | 在线视频福利一区| 亚洲国产激情av| 女人又爽又黄免费女仆| 亚洲国产日韩精品在线| 在线观看天堂av| 日韩成人中文电影| 国产熟妇一区二区三区四区| 色噜噜亚洲精品中文字幕| 国产成人自拍偷拍| 欧美日韩国产123区| 蜜臀一区二区三区精品免费视频| 亚洲www啪成人一区二区麻豆| 亚洲色图14p| 日韩精品资源二区在线| 老司机深夜福利网站| 久久国产精品久久精品| 欧美一级淫片aaaaaa| 亚洲美女搞黄| 狠狠色狠狠色综合系列| 亚洲女则毛耸耸bbw| 国语对白做受69| 高潮精品一区videoshd| 国产成人精品一区二区三区在线观看 | 97久久精品人人做人人爽50路| 免费看成人片| 欧美视频在线观看一区二区三区| 黄色一级片中国| 久久免费视频6| 国产波霸爆乳一区二区| 成人午夜电影免费在线观看| 亚洲精品国产综合区久久久久久久| 日韩成人在线播放| 色偷偷88欧美精品久久久| 日韩一区二区免费在线观看| 国内伊人久久久久久网站视频 | 欧美日韩在线中文| 女人黄色一级片| 波多野结衣视频在线看| 欧美日韩高清丝袜| 男人操女人的视频网站| 97在线免费公开视频| 永久免费在线看片视频| 91亚洲精品丁香在线观看| 97人人澡人人爽| 精品88久久久久88久久久| 成人黄色网址在线观看| 蜜桃视频一区二区三区在线观看| 亚洲欧美成aⅴ人在线观看| 亚洲同性gay激情无套| 99久久国产免费看| 国产一区二区在线电影| 26uuu亚洲| 免费精品99久久国产综合精品| 日本美女bbw| 欧美 日韩 精品| 精品久久久久久久久久久国产字幕| 福利一区福利二区| 欧美日韩国产在线看| 一区二区日韩在线观看| 久久精品一二三四| 国产精品suv一区二区三区| 日本黄色大片视频| 日韩中文字幕麻豆| 丝袜美腿亚洲一区| 亚洲欧洲国产综合| 国产精品1024| 久久久99精品久久| 五月天视频一区| 91捆绑美女网站| 久久精品99国产精品日本| 亚洲老妇色熟女老太| 亚洲色图欧美激情| 国产精品午夜免费| 一区二区三区.www| 亚洲一级不卡视频| 亚洲人精品午夜在线观看| 高清国产一区二区| 不卡免费追剧大全电视剧网站| 最新不卡av在线| 亚洲国产中文字幕久久网| 国产国产精品人在线视| 亚洲一区二区自拍偷拍| 国产精品手机在线观看| 日本一区中文字幕| www.欧美日韩国产在线| 欧美一级淫片007| 69av一区二区三区| 18久久久久久| 亚洲xxx视频| 91激情视频在线| youjizzxxxx18| 中文字幕天堂av| 久久精品一级片| 亚洲欧洲成人av每日更新| 国产精品无码在线| 黄色av电影网站| 国产黄色片免费| 亚洲成av人片一区二区三区| 中文字幕乱码一区二区免费| 国产精品免费免费| 欧美精品一区二区三区蜜臀| 91在线高清免费观看| 亚洲理论片在线观看| 成人精品鲁一区一区二区| 国产九九精品视频| 91精品国产乱码久久久张津瑜| 亚洲三级在线免费| 91久久国产自产拍夜夜嗨| 绯色av蜜臀vs少妇| 亚洲高清在线观看视频| 亚洲丝袜制服诱惑| 中文字幕精品视频| 一区二区三区av| 精品熟妇无码av免费久久| 亚洲人成人无码网www国产 | 久久久久久久综合狠狠综合| 欧美美女15p| 国产激情美女久久久久久吹潮| 亚洲国产精品视频一区| 欧美国产精品一区二区三区| 亚洲欧美日韩精品久久奇米色影视| 一本一道久久a久久精品逆3p | 国产91丝袜美女在线播放| xxxx日本少妇| 成年人在线观看av| 人妻av中文系列| 国产情侣小视频| 欧美性xxxxx极品娇小| 成人精品一区二区三区电影黑人| 蜜桃导航-精品导航| 欧美日在线观看| 国产69久久精品成人看| 国产一区二区三区播放| 精品人妻一区二区三区含羞草 | 亚洲精品xxxx| 男人日女人bb视频| 久久亚洲精精品中文字幕早川悠里 | 久久久久久亚洲精品中文字幕| 国产一区免费| 成人动漫视频在线观看免费| 精品日韩视频在线观看| 国产精品视频男人的天堂| 黄色手机在线视频| 99久久99久久综合| 欧美性xxxx69| 日韩精品免费视频人成| 国产精品白嫩美女在线观看| 国产福利资源在线| 国产一区二中文字幕在线看| 免费在线一级片| 国产欧美日韩另类视频免费观看| 2024亚洲男人天堂| 黄网站色视频免费观看| 国产精品自拍av| 亚洲欧美成人在线| 人妻夜夜添夜夜无码av| 免费观看久久久4p| 欧美在线视频不卡| 国产亚洲二区| 国产伦精品一区二区三区视频网站| 亚洲欧洲制服丝袜| 8x8x最新地址| 黑人巨大精品欧美一区二区| 国产97色在线| 欧美日韩偷拍视频| 欧美精选午夜久久久乱码6080| 免费一区二区三区在线观看| 日韩极品在线观看| 亚洲国产精品一区二区www| 鲁丝一区二区三区免费| 亚洲av永久无码国产精品久久 | 日精品一区二区| 国产视频久久久| 午夜福利三级理论电影 | 久久精品国产99国产精品澳门| 天天色影综合网| 亚洲免费大片在线观看| 国产精品xxxx| 国产艳俗歌舞表演hd| 色婷婷香蕉在线一区二区| 亚洲欧美日韩另类精品一区二区三区| 亚洲黄色一级大片| 国产精品久久久久久久久男| 九九在线观看视频| 精品国产乱码久久久久久老虎 | 亚洲av成人片无码| 久久精品magnetxturnbtih| 日韩av片在线看| 少妇高潮av久久久久久| 国产精品女人毛片| 精品国产免费人成在线观看| 精品国产免费久久久久久婷婷| 99久久综合狠狠综合久久| 精品国产乱码久久久久久88av| 欧美在线 | 亚洲| 成人黄色片视频网站| 国产视频福利一区| 999久久久久| 欧美日韩国产成人高清视频| 日韩aⅴ视频一区二区三区| 国产亚洲小视频| 一区二区三区四区在线| 91精品在线观看视频| 色婷婷在线视频观看| 亚洲欧美影音先锋| 2019国产精品视频| 日日摸夜夜添夜夜添国产精品| 欧美性20hd另类| 成人精品视频一区二区| 亚洲3atv精品一区二区三区| 婷婷激情四射网|