蘋果AI論文太坑了!用GPT寫的GT,導(dǎo)致北京程序員通宵加班
5個ICLR審稿人誰也沒看出來
衡宇 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
大無語事件天天有,今天特別多——
AI大模型公司階躍星辰的研究員,自曝被蘋果掛在arXiv上的論文,狠狠坑了一把。
自己去反饋問題,對方簡單回了兩句就把issue關(guān)了;直到自己留下公開評論,對方才撤稿下架代碼了。

別著急,我們先來梗概一下故事線:
這個月月初,階躍研究員Lei Yang被同事安利了一篇arXiv上蘋果出品的論文(該論文也在投ICLR 2026),論文中提出的benchmark和Lei Yang最近做的研究非常契合。
他超級開心,馬上停下手頭的工作,開始適配這個benchmark。
結(jié)果這個聲稱“小模型全面超越GPT-5、數(shù)據(jù)經(jīng)人工精心把控”的視覺benchmark,實(shí)際上卻存在荒謬的官方代碼bug和高達(dá)約30%的GT(Ground Truth)錯誤率。

看到這兒,你是不是已經(jīng)覺得夠離譜了?
不好意思了朋友們,這還不是最離譜的……后續(xù)的故事看得人腦子上一個問號接一個問號冒出來。
這場鬧劇的荒誕程度,一步步升級,直到最終Lei Yang“公開把它噴撤稿了”。
總之看得圍觀的Reddit吃瓜網(wǎng)友連連搖頭:
我們曾擁有BatchNorm、ResNet、Dropout、Transformer這些革命性成果。
但到了大模型時代看起來真的是一團(tuán)糟。

好了,咱們一起來詳細(xì)看看這個大無語事件到底是怎么回事。
什么,GT的錯誤率可能高達(dá)30%?
這個荒誕故事涉及的論文名為《Where Did the Reasoning Go Wrong? A Benchmark of Puzzle-Based Visual Tasks with CoT Error Detection》。
它提出了一個基于謎題的視覺推理任務(wù)的診斷benmark。
巧的是,論文中提出的這個新benchmark,和Lei Yang近期的研究方向挺契合。
所以Lei Yang讀完論文后,停下手頭其他工作,開始著手適配。

沒想到的是,熬了一個周末的通宵完成適配后,模型跑出來的點(diǎn)數(shù)極其之低,遠(yuǎn)低于預(yù)期。
“我非常沮喪。”Lei Yang又開始做各種檢查和嘗試。
這個階段就開始出現(xiàn)不對勁了。Lei Yang發(fā)現(xiàn)了官方代碼的bug:
請求VLM的時候只用了圖片路徑的字符串,而不包含圖片本身。
行,有bug咱們就修bug唄!
好家伙,修復(fù)這個bug后,模型的點(diǎn)數(shù)更低了……
這結(jié)果給Lei Yang干懵了。他在多個平臺公開的小作文中寫道:“由于結(jié)果過于離譜,我不得不做更多的驗(yàn)證工作,最終結(jié)論仍然是修了bug后點(diǎn)會更低。”

不得已,Lei Yang決定一條一條地分析錯題,看看自家的模型是怎么做錯的。
他抽查了前20道階躍模型答錯的題,結(jié)果令人大吃一驚:
- 里面有6道題明確屬于GT錯誤。
- 從GT錯誤風(fēng)格來看,很可能是模型自動生成的GT加上質(zhì)檢嚴(yán)重不足,導(dǎo)致GT包含大量幻覺。
這意味著,寫進(jìn)論文里、作者精心挑選用于展示的內(nèi)容存在大問題。
他初步估算了一下,GT錯誤率可能高達(dá)30%。
“我公開把它噴撤稿了”
于是,Lei Yang選擇在GitHub上向作者反饋,指出其中的錯誤。
6天過后,論文作者簡單回復(fù)了一下,然后直接關(guān)閉了issue。

給Lei Yang氣的呀,組織語言一通回?fù)簟?/p>
然而這件荒謬事件沒有最離譜,只有更離譜——
ICLR review公布后,Lei Yang看了看該論文的5條reviews,居然沒有任何一個審稿人發(fā)現(xiàn)GT質(zhì)量問題,也沒人發(fā)現(xiàn)論文中的例子存在幻覺和錯誤。
(這里中插一下Openreview的直通車:https://openreview.net/forum?id=pS9jc2zxQz)
憤怒之下,他撰寫了一份詳盡的Public Comment。
內(nèi)容大概是列舉GT問題的實(shí)例,提醒ICLR審稿人和社區(qū)這個數(shù)據(jù)集質(zhì)量堪憂、極易誤導(dǎo)研究方向。

在這條評論最后,Lei Yang留了句話
我在這里評論是為了防止有興趣的研究人員重復(fù)我經(jīng)歷的相同循環(huán)——看到第一個錯誤檢測任務(wù)時的興奮,運(yùn)行它后的震驚和失望,以及追蹤底層GT問題后的沮喪——從而節(jié)省每個人的時間和精力。
Fine,看似是輸出憤怒,實(shí)則是真沒招了,順便警醒一下后來人不要再被坑。
不少網(wǎng)友為Lei Yang的這個行為超棒的:

最后,在這條公開評論發(fā)表的第二天,論文作者就宣布撤稿,并刪除了GitHub上的repo。

原論文作者公開回應(yīng)
這兩天Lei Yang在多個平臺分享自己的慘痛踩坑經(jīng)歷,希望通過分享這一遭遇,讓更多研究者警覺起來,尤其不要盲目信任表面包裝,哪怕是來自大公司。
今天上午,論文作者在小地瓜(沒錯就是那個平臺)上現(xiàn)身回應(yīng)了。
他首先聲明自己這邊已經(jīng)和Lei Yang詳細(xì)交流,也感謝和尊重推動學(xué)術(shù)社區(qū)進(jìn)展的每個人。

我們梳理了一下論文作者的回應(yīng)。
首先關(guān)于數(shù)據(jù)質(zhì)量,作者承認(rèn)審核不周。
雖然當(dāng)初對injected error(人為注入錯誤)的樣本做了人工檢查,但沒有認(rèn)真審核更關(guān)鍵的部分。
所以也就沒有留意到GT解答思路由GPT自動轉(zhuǎn)換成分步驟CoT時出現(xiàn)了幻覺,導(dǎo)致step label出現(xiàn)了問題。
這部分實(shí)質(zhì)上承認(rèn)了此次荒謬事件中最核心的問題,即自動構(gòu)建數(shù)據(jù)時的質(zhì)檢嚴(yán)重不足。
其次說了說關(guān)于論文中example inference的事兒。
他解釋稱項(xiàng)目中的example inference代碼是一個dummy示例,不是正式的演示代碼。
在o3的輸出例子中,是可以看到模型確實(shí)看到了圖片的。
然后,他表示當(dāng)時接收到Lei Yang的提醒后,修改了dummy代碼,并且回復(fù)了Lei Yang。
最后他對自己當(dāng)時直接關(guān)閉了issue感到非常抱歉。
“當(dāng)時reopen并且回復(fù)了新提出的問題,下次也會一直開著直到問題全部解決。”
回應(yīng)貼的最后一點(diǎn)是這么寫的:
我們的目標(biāo)包括這個benchmark的目的都是推進(jìn)各個研究方向,在做數(shù)據(jù)時有不應(yīng)出現(xiàn)的疏忽,但我們各自都是出于對這個方向的興趣,利用業(yè)余時間在做這個項(xiàng)目,也在其中花費(fèi)了大量時間精力為了推進(jìn)這個小方向的發(fā)展。
我們會認(rèn)真總結(jié)這次的經(jīng)驗(yàn)教訓(xùn),再接再厲。

參考鏈接:
[1]https://x.com/diyerxx/status/1994042370376032701
[2]https://www.reddit.com/r/MachineLearning/comments/1p82cto/d_got_burned_by_an_apple_iclr_paper_it_was/
[3]https://www.xiaohongshu.com/explore/6928aaf8000000001b022d64?app_platform=ios&app_version=9.10&share_from_user_hidden=true&xsec_source=app_share&type=normal&xsec_token=CBLEH7cvuVDNN78gtS-RUB8YQp0_GXstBHlQAk14v6t8I=&author_share=1&xhsshare=WeixinSession&shareRedId=NzxHOEQ6OTw6Pjw3Sj81SD1HQUk5R0lK&apptime=1764289526&share_id=c73caa18d27a408898ea99622f8e0360
[4]https://openreview.net/forum?id=pS9jc2zxQz
[5]https://openreview.net/pdf/e5917f72a8373c7f56b3cb9c0ac881d991294ee2.pdf



