色综合中文综合网_性猛交娇小69hd_久久精品99久久久久久_欧美日韩精品一区二区三区四区 _97视频色精品_国产高清精品久久久久_日日鲁鲁鲁夜夜爽爽狠狠视频97 _国产成人免费视频精品含羞草妖精 _熟女少妇在线视频播放_精品人妻一区二区三区麻豆91 _久久女同性恋中文字幕_一区二区福利视频

大模型全員0分!謝賽寧領銜華人團隊,最新編程競賽基準出爐,題目每日更新禁止刷題

聞樂 發自 凹非寺

量子位 | 公眾號 QbitAI

好夸張……

參賽大模型全軍覆沒,通通0分。

謝賽寧等人出題,直接把o3、Gemini-2.5-pro、Claude-3.7、DeepSeek-R1一眾模型全都難倒。

大模型全員0分!謝賽寧領銜華人團隊,最新編程競賽基準出爐,題目每日更新禁止刷題

到底是什么讓一眾領先模型一敗涂地?

大模型全員0分!謝賽寧領銜華人團隊,最新編程競賽基準出爐,題目每日更新禁止刷題

LiveCodeBench Pro:一個包含來自IOI、Codeforces和ICPC的競賽級編程問題的實時基準測試。

題庫還每日更新,來預防LLMs“背題”,不得不說這太狠了(doge)。

大模型全員0分!謝賽寧領銜華人團隊,最新編程競賽基準出爐,題目每日更新禁止刷題

謝賽寧雖然也參與了這項工作,但他謙虛地說自己只是個啦啦隊成員。

大模型全員0分!謝賽寧領銜華人團隊,最新編程競賽基準出爐,題目每日更新禁止刷題

此前有報道稱,LLM編程現在已超越人類專家,但本次測試結果表明并非如此。

表現最佳的模型,在中等難度題上的一次通過率僅53%,難題通過率更是為0。

即使是最好的模型o4-mini-high,一旦工具調用被屏蔽,Elo也只有2100,遠低于真正大師級的2700傳奇線。

大模型全員0分!謝賽寧領銜華人團隊,最新編程競賽基準出爐,題目每日更新禁止刷題

謝賽寧表示:

擊敗這個基準就像AlphaGo擊敗李世石一樣。我們還沒有達到那個水平——甚至對于有明確可驗證結果的問題也是如此。

大模型全員0分!謝賽寧領銜華人團隊,最新編程競賽基準出爐,題目每日更新禁止刷題

LiveCodeBench Pro:動態題庫考驗LLMs算法邏輯深度

測試是如何構建的

該基準由一眾奧林匹克獲獎者構建,在比賽結束后立即收集每道Codeforces、ICPC和IOI題目,在互聯網上出現正確答案之前捕獲每個問題。

每日更新題庫,以減少數據污染,保證評估環境的真實性與挑戰性。

測試收錄了584道頂流競賽題,團隊手動對每個問題進行標注,標注內容包括解決每個任務所需的關鍵技能,并根據問題的認知焦點將題目分為知識密集型、邏輯密集型觀察密集型三大類。

還將題目分為三個難度級別,這并非是人工挑選的,而是通過正態分布自動選擇。

例如,所有Codeforces問題的評分在2000分以上的都會被歸入困難等級。

大模型全員0分!謝賽寧領銜華人團隊,最新編程競賽基準出爐,題目每日更新禁止刷題

模型具體表現

團隊會基于題目背后的算法思想進行分類,記錄Codeforces官方難度評級(對應Elo分數下50%的成功率),同時梳理關鍵觀察點、常見陷阱及邊緣案例,為評估提供多維度參考。

在測試過程中,團隊對模型和人類專家提交的每個解決方案,記錄其判定結果(如通過、答案錯誤、超時等),并標注根本原因(思路層面錯誤或實現層面錯誤)。

如果代碼無法通過題目自帶的樣例輸入輸出,會標記 “樣例未通過”。

結合題目分類與提交結果,對比人類專家的解題模式,分析模型在不同難度(簡單 / 中等 / 困難)、題型(知識密集型 / 邏輯密集型 / 觀察密集型)下的表現,定位模型在算法推理、樣例利用及邊緣案例處理等方面的短板。

大模型全員0分!謝賽寧領銜華人團隊,最新編程競賽基準出爐,題目每日更新禁止刷題

團隊一共測試了22款大模型,并根據表現給出了完整榜單,大家可以自行查看任何一個模型在每一個問題上給出的解決方法。

大模型全員0分!謝賽寧領銜華人團隊,最新編程競賽基準出爐,題目每日更新禁止刷題
大模型全員0分!謝賽寧領銜華人團隊,最新編程競賽基準出爐,題目每日更新禁止刷題

同時繪制了每一個模型的評分趨勢,可供自由選擇想要了解的模型。

大模型全員0分!謝賽寧領銜華人團隊,最新編程競賽基準出爐,題目每日更新禁止刷題
大模型全員0分!謝賽寧領銜華人團隊,最新編程競賽基準出爐,題目每日更新禁止刷題

測試結果顯示

模型在知識密集型和邏輯密集型問題上表現更好,擅長 “死記硬背”(如數據結構模板),但在觀察密集型問題或案例工作中表現較差,搞不定 “靈光一現” 的貪心、博弈題。

大模型全員0分!謝賽寧領銜華人團隊,最新編程競賽基準出爐,題目每日更新禁止刷題

與人類相比,o3-mini 等模型在精確、無錯誤的實現方面展現出更高級的技能,但在算法設計方面遜色。

LLMs擅長實現類問題,但在需要精細算法推理和復雜案例分析的題目上表現欠佳,還常給出看似正確實則錯誤的解釋。

LLMs經常無法正確通過題目提供的示例輸入,顯示其對給定信息的利用不充分。

大模型全員0分!謝賽寧領銜華人團隊,最新編程競賽基準出爐,題目每日更新禁止刷題

LLMs很大程度上依賴工具增強(如終端訪問、網絡搜索),而非自身推理能力。

團隊還增加了嘗試次數(pass@k),并發現這樣可以顯著提升LLMs在中簡單題的表現,但對難題依舊無力。

比如,通過增加o3-high模型的嘗試次數來測試其性能,但無論嘗試多少次,它仍然無法解決任何一個困難分區的題目。

大模型全員0分!謝賽寧領銜華人團隊,最新編程競賽基準出爐,題目每日更新禁止刷題

啟用推理功能后,LLMs在組合數學等知識密集型題目中提升明顯,但在觀察密集型題目中提升有限。

大模型全員0分!謝賽寧領銜華人團隊,最新編程競賽基準出爐,題目每日更新禁止刷題

研究員還透露,每個季度,團隊都將發布一個完全全新的評估集,保證數據的時效性。

大模型全員0分!謝賽寧領銜華人團隊,最新編程競賽基準出爐,題目每日更新禁止刷題

團隊超半數成員為華人

LiveCodeBench Pro團隊由一眾奧林匹克競賽得獎者組成,其中超半數成員為華人。

該項目的主要負責人鄭子涵畢業于成都外國語學校,現于紐約大學本科在讀,曾代表紐約大學參加ICPC世界總決賽,獲得第二名。

他先后在騰訊、英偉達擔任研發實習生,今年2月份以實習生的身份進入OpenAI。

大模型全員0分!謝賽寧領銜華人團隊,最新編程競賽基準出爐,題目每日更新禁止刷題

另一位負責人柴文浩于2023年在浙江大學完成本科學業,碩士就讀于華盛頓大學,今年9月將前往普林斯頓大學計算機科學專業就讀博士。

他曾于Pika Labs和微軟亞洲研究院實習,先前研究主要涉及視頻理解和生成模型。

他領導開發了MovieChat,這是第一個用于長視頻理解的超大多模態模型。

并且,他在ICLR、CVPR、ICCV等頂會期刊發表過相關研究論文。

大模型全員0分!謝賽寧領銜華人團隊,最新編程競賽基準出爐,題目每日更新禁止刷題

該項目的其他參與者分別來自加州大學、普林斯頓大學等,這是一支非常年輕的隊伍。

論文地址:https://arxiv.org/abs/2506.11928
項目地址:https://github.com/GavinZhengOI/LiveCodeBench-Pro
排行榜:https://livecodebenchpro.com/

參考鏈接:
[1]https://x.com/ZihanZheng71803/status/1934780656665677928
[2]https://x.com/rohanpaul_ai/status/1934751145400111572
[3]https://x.com/sainingxie/status/1934786355969851630

— 完 —

版權所有,未經授權不得以任何形式轉載及使用,違者必究。
国精产品一区一区| 久久久久九九视频| 激情欧美一区二区三区在线观看| 免费视频一区二区| 手机在线精品视频| 日韩黄色免费电影| 国产精品一区不卡| aaa亚洲精品| 国产一本一道久久香蕉| 成人晚上爱看视频| 国产亚洲欧美激情| 美女一区二区三区| 中文字幕乱码av| 国内精品写真在线观看| 免费高清不卡av| 国产精品成人免费观看| 天天视频天天爽| 岛国av免费在线| caopor在线| 久久久久久国产免费a片| 国产精品白丝喷水在线观看| 日韩 欧美 综合| 国产绿帽刺激高潮对白| 日韩精品91亚洲二区在线观看| 久久精品免费看| 成人免费公开视频| 国产一区二区在线电影| 99久久精品一区| 亚洲精品国产a| 国产精品天天看| 国产91对白在线观看九色| 国产精品成人免费| 欧美色涩在线第一页| 一区二区三区视频免费在线观看 | 成年人看片网站| 极品颜值美女露脸啪啪| 肥臀熟女一区二区三区| 男男视频亚洲欧美| 亚洲手机成人高清视频| 亚洲国产成人精品激情在线| 99re这里只有| 免费无遮挡无码永久在线观看视频| 在线观看免费观看在线| 国产麻豆91精品| 欧美日韩中文在线观看| 最近2019好看的中文字幕免费| 欧美肥婆姓交大片| 欧美久久在线| 中国老熟女重囗味hdxx| 摸摸摸bbb毛毛毛片| 波多野结衣网站| 男人操女人的视频在线观看欧美| 欧美三级在线看| 97久久精品人人澡人人爽| 色综合亚洲欧洲| 亚洲第一页自拍| 国产精品久久久999| 精品日韩电影| 一区二区在线免费观看视频| 高潮毛片又色又爽免费| 成人丝袜18视频在线观看| 五月激情综合色| 欧美成人精品在线| 国产日韩欧美综合精品| 亚洲熟女乱色一区二区三区| 免费看一级大片| 激情文学综合丁香| 亚洲国产视频一区| 久久久噜噜噜久久中文字免| 六月婷婷激情网| 精品国产大片大片大片| 国产一区二区三区香蕉| 91精品国产综合久久久久久漫画 | 亚洲自拍偷拍综合| 欧美黑人性视频| 亚洲国产精品一区二区第一页| 欧美成人乱码一二三四区免费| wwwwww在线观看| 国产精品蜜臀在线观看| 自拍偷拍亚洲精品| 亚洲精品少妇一区二区| 成人黄色短视频| 国产v综合v亚洲欧| 日韩一区二区在线观看视频| 国产91精品最新在线播放| 亚洲午夜激情| 国产无遮挡又黄又爽在线观看| 国产福利91精品| 欧美在线|欧美| 99国产超薄肉色丝袜交足的后果| 国产精品嫩草69影院| av女名字大全列表| 五月婷婷欧美视频| 91精品久久久久久久久久入口| 无码任你躁久久久久久老妇| 久久精品二区亚洲w码| 欧美va亚洲va国产综合| 蜜桃传媒视频麻豆第一区免费观看| 成年人在线免费看片| 成人午夜伦理影院| 日韩视频一区在线| 尤物av无码色av无码| 91精品视频免费在线观看| 亚洲成人福利片| 91免费综合在线| 精品亚洲aⅴ无码一区二区三区| 韩国精品一区二区| 国产亚洲精品美女久久久| 奇米精品在线| 成年人视频免费| 色哟哟亚洲精品| 久久久久成人精品免费播放动漫| 中文字幕电影av| 亚洲激情图片小说视频| 国产精品美女www爽爽爽视频| 精品人妻在线视频| 成人av在线网站| 欧美成人午夜激情| 人妻激情偷乱视频一区二区三区| 精品亚洲成a人在线观看 | 国产精品视频黄色| www国产在线| 亚洲电影中文字幕| 无码人妻少妇伦在线电影| 精品久久国产视频| 欧美精品vⅰdeose4hd| 麻豆亚洲一区| 久久久久久久久久99| 亚洲午夜久久久久久久久久久| 欧美在线观看视频| 中国美女乱淫免费看视频| 99久久99久久免费精品蜜臀| 欧美激情第一页xxx| 天海翼在线视频| 欧美美女一区二区| 日本成人三级电影网站| 国产在线视频二区| 一区二区三区丝袜| 欧美日韩综合精品| 少妇太紧太爽又黄又硬又爽| 亚洲一区二区美女| 成人av在线网址| 五月天综合激情| 精品日本美女福利在线观看| 亚洲欧洲一区二区| 国产精品呻吟久久| 亚洲美女激情视频| 四虎永久免费观看| 亚洲精品亚洲人成人网| 成人久久久久久久| 999精品视频在线观看播放| 色综合久久六月婷婷中文字幕| 国内精品二区| 亚洲国产精品久久久久久6q| 日韩精品中文字幕在线不卡尤物 | 欧美综合一区二区三区| 日韩成人手机在线| 丁香激情综合国产| 国产精品美女xx| 性高潮视频在线观看| 欧美成人一级视频| 九一精品久久久| 伊人开心综合网| 天堂va久久久噜噜噜久久va| 免费在线观看成人| 亚洲aⅴ日韩av电影在线观看| 日本一级一片免费视频| 国产视频精品一区二区三区| 亚洲精品国产一区黑色丝袜| 欧美亚洲国产一区二区三区 | 91gao视频| 日本精品999| 日韩av电影在线网| 国产一级理论片| 亚洲精品午夜精品| 五月天免费网站| 亚洲福利视频专区| 日本一区二区视频在线播放| 精品免费国产一区二区三区四区| 白丝女仆被免费网站| 日韩欧美精品在线视频| 高清国产在线观看| 亚洲黄色av网站| 日本天堂中文字幕| 中文字幕av一区中文字幕天堂| 日韩在线不卡av| 国产一区二区黄| 国产成人无码一区二区三区在线| 日韩av网站大全| 国产美女福利视频| 最近2019中文免费高清视频观看www99 | 国产精品天天av精麻传媒| 欧美激情综合在线| 日韩在线三级| 国产精品久久久爽爽爽麻豆色哟哟 | 久久久亚洲综合网站| 蜜臀久久99精品久久久画质超高清| 国产精品国产三级欧美二区 | 国产精品久久久久影院日本| 日韩中文字幕观看| 国产啪精品视频网站| 日本欧美在线看| 亚洲人体一区| 亚洲精品乱码久久久久久黑人 | 特级西西444www大精品视频| 亚洲国产成人一区二区三区| 国产成人精品无码播放| 黑人巨大精品欧美一区免费视频| 欧美xxxxx精品| 国产手机视频精品| aaa在线视频| 亚洲a成v人在线观看| av影院午夜一区| 亚洲一区二区三区免费观看| 亚洲美女偷拍久久| 亚洲啪av永久无码精品放毛片| 激情综合网俺也去| 天天av天天翘| 日本欧美精品久久久| 亚洲另类春色国产| 理论片大全免费理伦片| 一个色综合导航| 六月丁香婷婷综合| 国产日产久久高清欧美一区| 99视频热这里只有精品免费| 孩娇小videos精品| 日韩经典第一页| 国产理论片在线观看| 日本福利一区二区三区| 亚洲国产精品久久人人爱蜜臀| 中日韩精品一区二区三区| 亚洲视频自拍偷拍| 乱色精品无码一区二区国产盗| 视频在线99re| 亚洲精品成a人| 又黄又爽的网站| 精品久久久中文字幕人妻| 亚洲精品女av网站| 成人免费黄色大片| 国模吧无码一区二区三区| 日韩欧美一区在线| 日韩视频免费观看高清| 国产99在线免费| 天天操天天干天天综合网| 谁有免费的黄色网址| 91a在线视频| 国产一区二区0| 免费日韩视频在线观看| 亚洲精品视频在线观看视频| 在线免费av网| 欧美视频1区| 欧美日韩国产大片| 国产精品一区二区三区在线免费观看| 丝袜足脚交91精品| 色婷婷久久久综合中文字幕| 久操视频在线免费观看| 亚洲一区尤物| 精品乱人伦小说| 久久一区视频| 国产裸体舞一区二区三区| 日韩色在线观看| 久久久久久久欧美精品| 国产精品久久久久久久av福利| 久久免费福利视频| 久久影院视频免费| 啪啪一区二区三区| 免费成人看片网址| 色8久久精品久久久久久蜜| 中文字幕黄色av| 日本免费不卡一区二区| 久久精品91久久香蕉加勒比| 97久久精品人人爽人人爽蜜臀| 大胸美女被爆操| 成人欧美一区二区三区视频xxx| 在线视频中文字幕一区二区| 丰满人妻一区二区三区免费| 亚洲不卡视频在线| 国产成人jvid在线播放| 亚洲成精国产精品女| 亚洲香蕉在线视频| 亚洲一区二区三区自拍| 青青青在线免费观看| 一区二区三区四区视频在线观看 | 欧美成人a视频| 99热这里只有精品在线观看| 日本熟妇人妻xxxxx| 欧美日本中文字幕| 国产精品久久777777换脸| 青草青草久热精品视频在线网站 | 久久中文字幕一区| 国产精品毛片久久久久久久| 日韩精品一区二区亚洲av观看| 成人精品一区二区三区中文字幕| 制服下的诱惑暮生| 欧美亚洲国产一区二区三区 | 欧美日韩成人一区| 极品美女销魂一区二区三区| 91动漫免费网站| 久热这里只精品99re8久| 精品福利一区二区三区免费视频| 成人avav影音| 少妇人妻好深好紧精品无码| 国产99在线播放| 亚洲欧洲在线免费| 成人aaaa免费全部观看| 亚洲黄色一区二区| 男女猛烈激情xx00免费视频| 欧美激情亚洲一区| 欧美性感一区二区三区| 蜜臀av性久久久久蜜臀aⅴ四虎| 极品白嫩少妇无套内谢| 狠狠色综合网站久久久久久久| 亚洲国产精品成人av| 中文字幕 日韩有码| 国产中文字幕日韩| 精品av综合导航| 国产精品一区二区果冻传媒| 国产精品成人国产乱| 一路向西2在线观看| 欧美12av| 日韩视频精品在线| 亚洲一区av在线| 国产成人在线视频网站| 手机在线成人av| 欧美成在线观看| 亚洲免费高清视频在线| 国产成人三级一区二区在线观看一| 岛国av免费在线| 日韩高清国产精品| 国产成人精品一区| 亚洲欧美另类在线观看| 欧美色另类天堂2015| 久久网站最新地址| 国产有码在线观看| 午夜剧场免费在线观看| 天天干天天色天天干| 相泽南亚洲一区二区在线播放| 久久99视频精品| 欧美亚洲综合另类| 18成人在线观看| 成人午夜视频福利| 怡红院男人的天堂| 卡通动漫亚洲综合| 毛茸茸free性熟hd| 国产视频在线视频| 久久青青草原| 欧美在线亚洲在线| 国产一区av在线| 日韩视频在线观看一区二区| 精品国产福利视频| 亚洲欧美国产77777| 久久亚洲私人国产精品va媚药| 欧美一区二区黄片| 日本少妇久久久| 人妻体内射精一区二区三区| 亚洲一二三区av| 777久久久精品一区二区三区 | 国产成人在线视频| 伊人久久久久久久久久久| 日韩三级av在线播放| 在线视频一区二区三区| 亚洲国产高清aⅴ视频| 不卡av在线免费观看| 国产88在线观看入口| wwwav在线播放| 极品国产91在线网站| 久久久久久天堂| 欧美性猛交xxxxx少妇| 熟女俱乐部一区二区视频在线| 男人女人黄一级| 欧美日韩福利在线| 视频一区二区在线观看| 奇米视频888战线精品播放| 国产伦精品一区二区三区四区免费| 91免费版网站入口| 国产在线拍揄自揄视频不卡99| 日韩美女免费视频| 国产精品成人v| 国产欧美日韩中文字幕在线| 成人中心免费视频| 91久久国产婷婷一区二区| 7777精品伊久久久大香线蕉语言| 亚洲aa中文字幕| 麻豆一区区三区四区产品精品蜜桃| 久久久久国产精品视频| 欧美三级网色| 日韩中文字幕亚洲精品欧美| 一区二区三区|亚洲午夜| 日韩欧美一级在线| 成人免费性视频| 自拍偷拍 国产| 91精品人妻一区二区三区蜜桃2| 中文字幕日本最新乱码视频| 成年女人18级毛片毛片免费| 嫩草av久久伊人妇女超级a| 日本黄色片在线播放| www.99re6| 天天做夜夜爱爱爱| 顶级黑人搡bbw搡bbbb搡| 久久久久久天堂| 伊人精品在线视频| 美女诱惑黄网站一区| 亚洲av毛片成人精品| 日韩av一区二区在线影视| 日日夜夜精品视频免费| 九一九一国产精品| 91丝袜国产在线播放| 天堂在线资源8| 久久99精品一区二区三区| 91免费精品国自产拍在线不卡|