色综合中文综合网_性猛交娇小69hd_久久精品99久久久久久_欧美日韩精品一区二区三区四区 _97视频色精品_国产高清精品久久久久_日日鲁鲁鲁夜夜爽爽狠狠视频97 _国产成人免费视频精品含羞草妖精 _熟女少妇在线视频播放_精品人妻一区二区三区麻豆91 _久久女同性恋中文字幕_一区二区福利视频

密室逃脫成AI新考場,通關(guān)率不足50%,暴露空間推理短板丨清華ICCV25

人類密室逃脫率100%,頂級大模型僅71%!

清華大學(xué)團(tuán)隊 投稿
量子位 | 公眾號 QbitAI

近年來,多模態(tài)大模型(MLLMs)發(fā)展迅猛,從看圖說話到視頻理解,似乎無所不能。

但你是否想過:它們真的“看懂”并“想通”了嗎?

模型在面對復(fù)雜的、多步驟的視覺推理任務(wù)時,能否像人類一樣推理和決策?

為評估多模態(tài)大模型在視覺環(huán)境中,完成復(fù)雜任務(wù)推理的能力。清華大學(xué)團(tuán)隊受密室逃脫游戲啟發(fā),提出EscapeCraft:一個3D密室逃脫環(huán)境,讓大模型在3D密室中通過自由探索尋找道具,解鎖出口。

該論文目前已入選ICCV 2025。

圖片

EscapeCraft 環(huán)境

沉浸式互動環(huán)境,靈感源自密室逃脫

研究團(tuán)隊打造了可自動生成、靈活配置的 3D 場景 EscapeCraft,模型在里面自由行動:找鑰匙、開箱子、解密碼、逃出房間……其中每一步都需整合視覺、空間、邏輯等多模態(tài)信息。

任務(wù)可擴(kuò)展,應(yīng)用無限可能

EscapeCraft以逃出房間為最終目的,重點評測逃脫過程中的探索和決策行為、推理路徑等。支持不同房間風(fēng)格、道具鏈長度與難度組合,還可擴(kuò)展到問答、邏輯推理、敘述重建等任務(wù)。它是一個高度靈活、可持續(xù)迭代的通用評測平臺,也可以為未來的智能體、多模態(tài)推理、強(qiáng)化學(xué)習(xí)等方向研究提供基礎(chǔ)環(huán)境、數(shù)據(jù)和獎勵設(shè)置方面的支持。

EscapeCraft支持自由定制和擴(kuò)展想要的難度等級。不同難度等級下所需的逃脫步驟有所不同。

圖片

為了提高任務(wù)的難度,我們將線索放置在了墻上而不是箱子中,考驗?zāi)P蛯τ诃h(huán)境信息的接收和處理能力,除此之外線索在房間的擺放位置也可自由選擇。

在第一個場景中,線索位于靠近出口的墻上,此時GPT-4o的表現(xiàn)更加出色,可以對線索進(jìn)行正確利用。

不過,當(dāng)我們把線索移動到距離出口較遠(yuǎn)的墻上,GPT-4o開始不斷重復(fù)歷史路徑,無法對正確理解和利用線索,導(dǎo)致逃脫失敗。

圖片

模型推理和過程評測

Gemini-1.5-Pro 密室逃脫第一視角

圖片

這張圖展示了 Gemini-1.5-pro 模型成功逃脫一個房間的全過程。

開始的0到4步,模型原地不動,通過旋轉(zhuǎn)視角來觀察房間的環(huán)境。

它先從右側(cè)開始旋轉(zhuǎn),一步步查看房間的不同區(qū)域,試圖找到可交互的物體或線索,比如電視、桌子和椅子。

到了第五步,模型將視角對準(zhǔn)電視方向,繼續(xù)尋找可操作的元素,這時我們可以看到桌上有一把鑰匙。

第六步時,模型前進(jìn)并拾取了這把鑰匙。拿到鑰匙后,模型表示自己準(zhǔn)備轉(zhuǎn)身面對門,嘗試使用鑰匙。

接下來的步驟中,模型開始朝門的方向移動,意圖解鎖房門。在移動過程中,它多次調(diào)整視角,尤其是向上看,試圖確認(rèn)門的位置。

由于視角偏低,模型一開始沒能看到門,于是不斷微調(diào)視角方向來定位門的位置。

從“答對”到“會想”

與傳統(tǒng)只看最終任務(wù)結(jié)果的評測不同,EscapeCraft 關(guān)注整個任務(wù)完成過程:模型是否自主探索?有沒有重復(fù)犯錯?道具用得對不對?從而真正測試模型的“類人推理過程”。

論文重點彌補(bǔ)以結(jié)果為導(dǎo)向的評估缺陷,強(qiáng)調(diào)中間推理過程。為此設(shè)計了多個衡量視覺感知、多模態(tài)推理、環(huán)境探索和工具獲取和利用的過程的創(chuàng)新指標(biāo):

Intent-Outcome Consistency(意圖與結(jié)果一致性):衡量模型與環(huán)境的交互結(jié)果是否和的模型的交互意圖一致,即模型是否“在正確的位置做正確的事”。

Prop Gain / Grab Ratio / GSR:刻畫模型在探索和推理過程中的行為模式,反映模型的交互質(zhì)量、推理效率、和智能程度。

評測結(jié)果顯示:GPT-4o 在 Difficulty-3 中僅有 26.5% 的子目標(biāo)達(dá)成是“真正理解后完成的”,其余大多為偶然成功(比如想拿電視卻誤抓到關(guān)鍵道具)。

研究還發(fā)現(xiàn)大量有趣失敗案例。例如:

模型面對不可交互的沙發(fā),仍試圖抓取,并在“理由”中解釋“沙發(fā)下可能藏著鑰匙”;

模型原本已經(jīng)看見了關(guān)鍵道具,卻在移動過程中將其“逐步移出視野”,隨后繼續(xù)提及該道具卻操作失敗……

團(tuán)隊據(jù)此將錯誤拆分為兩類:

視覺感知錯誤:誤判目標(biāo)是否可交互,視角控制失敗;

推理邏輯錯誤:目標(biāo)設(shè)定錯誤,或動作與意圖不符。

其中 Claude 3.5 的錯誤中,61.1% 屬于推理問題,38.9% 屬于視覺問題。這說明即便模型“看到了”,不代表它“想清楚了”。

誰能逃離“密室”?模型表現(xiàn)結(jié)果對比

單房間逃脫結(jié)果統(tǒng)計,包括3個不同難度級別(數(shù)值越大越難)。
圖片

研究評測了包括 GPT-4o、Gemini-1.5 Pro、Claude 3.5、LLaMA-3.2、Qwen、Phi-3 等熱門模型,發(fā)現(xiàn):

在任務(wù)評價指標(biāo)方面:

GPT-4o 逃脫成功率(ER)最佳,但在任務(wù)復(fù)雜度提升后仍頻頻出錯;

國產(chǎn)大模型Doubao 1.5 Pro在最簡單的關(guān)卡中,逃脫成功率超越Gemini 1.5 Pro和Claude 3.5 Sonnet;并且其交互成功率(Grab SR)超越GPT-4o和Claude 3.5 Sonnet;

即使模型逃脫成功率相同,EscapeCraft依然能利用道具獲取率(Prop)、使用步數(shù)(Step),交互成功率(Grab SR)和交互率(Grab Ratio)對模型進(jìn)行比較。

比如,在“Difficult-2”中,Gemini 1.5 Pro和Claude 3.5 Sonnet有相同的逃脫成功率和道具獲取率,但是Gemini 1.5 Pro憑借較高的交互率,即使它的交互成功率較低,也能通過相對較少的步數(shù)成功逃脫;而Claude 3.5 Sonnet雖然交互率低,但每一步交互的成功率較高,體現(xiàn)出該模型完成任務(wù)時的“深思熟慮”。

在推理和探索行為方面:

Gemini 和 Claude 常在房間角落“卡住”,空間方向等判斷失誤,空轉(zhuǎn)失敗;

多數(shù)模型容易“反復(fù)抓錯”或“認(rèn)錯道具”,他們的失敗方式也各有特色:有的不會動、有的亂動、有的只移動不采取交互行動、有的動作對了但“目的不清”……;

子目標(biāo)達(dá)成率雖高,但意圖-結(jié)果一致性普遍低下,即“想要和沙發(fā)交互,但是意外地拿到鑰匙”;

在多房間設(shè)定下,模型能從第一個房間學(xué)習(xí)到的逃脫經(jīng)驗有限,僅在兩個房間關(guān)卡設(shè)定相似的條件下有輔助作用。

?
項目主頁:https://thunlp-mt.github.io/EscapeCraft
GitHub 地址:https://github.com/THUNLP-MT/EscapeCraft
論文原文:https://arxiv.org/abs/2503.10042v4
版權(quán)所有,未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用,違者必究。

相關(guān)閱讀

亚洲高清精品视频| 久久久久久久免费视频了| 国产情侣av自拍| 欧美mv日韩mv| 激情小说亚洲一区| 免费不卡av网站| 国产在线精品成人一区二区三区| 亚洲第一主播视频| 精品人妻一区二区三区蜜桃| 黄色免费视频大全| 不卡视频一区二区| 日韩精品一二三四区| 国产女人18水真多18精品一级做| 少妇又紧又色又爽又刺激视频 | 国产裸体舞一区二区三区| 国产精品18久久久久久首页狼| 狠狠躁夜夜躁人人爽天天天天97| 欧美日本在线视频| 波多野结衣中文字幕一区 | 亚洲天堂开心观看| 午夜久久久久久电影| 国精品**一区二区三区在线蜜桃 | 欧美日本精品一区二区三区| 成人夜色视频网站在线观看| 精品自拍偷拍视频| 黄色网址在线免费看| 欧美在线视频免费播放| 日韩精品一区二区三区中文不卡| 青青草97国产精品免费观看 | 国产日韩欧美自拍| 久久精品国产电影| 51午夜精品国产| 国产精品1区2区3区在线观看| 国产成人综合在线视频| 国产高潮视频在线观看| 欧美视频在线观看视频| 久精品国产欧美| 欧美在线一区二区视频| 中文字幕亚洲一区二区三区| 欧美一区二区成人| 性久久久久久久久| 中文字幕在线一区| 三级全黄做爰视频| 水蜜桃av无码| 四虎精品一区二区| aaa毛片在线观看| 丝袜人妻一区二区三区| 久久久久久久一区二区| 欧美四级电影在线观看| 色国产综合视频| 亚洲欧洲日产国码二区| 欧美激情一区二区三区不卡| 老牛国产精品一区的观看方式| 一二三四区视频| 亚洲熟妇av乱码在线观看| 性少妇bbw张开| 欧美偷拍一区二区三区| 双性尿奴穿贞c带憋尿| 极品人妻一区二区| 99久久人妻无码精品系列| 一级网站在线观看| 国产精品69av| 国产精品久久久久久久久久99| 国产精品成人一区| 91精品国产91久久久久久久久| 在线播放国产一区二区三区| 欧美激情按摩在线| 国产精品va在线播放我和闺蜜| 国产色综合天天综合网| 国产精品视频1区| 国产精品白丝jk喷水视频一区| av一区二区三区四区电影| 视频一区二区三区免费观看| 日本不卡久久| 国产97色在线 | 日韩| 日本一道本久久| 精品网站在线看| 久久精品国产精品国产精品污| 亚洲va码欧洲m码| 好色先生视频污| 欧美牲交a欧美牲交aⅴ免费下载| 亚洲av无一区二区三区久久| 无码人妻丰满熟妇区毛片蜜桃精品 | 波多野结衣在线观看一区| 一女二男一黄一片| 99久久精品国产毛片| 欧美特级www| 日韩中文字幕av| 亚洲一区二区中文| 无码精品国产一区二区三区免费| 人妻大战黑人白浆狂泄| www.爱爱.com| 久久久99精品免费观看不卡| 欧美成人r级一区二区三区| 69久久夜色精品国产7777 | 亚洲国产精品一| 国产精品白丝在线| 欧美日韩精品一区二区三区| 秘密基地免费观看完整版中文| 亚洲精品日韩成人| 特种兵之深入敌后| 免费看av毛片| 少妇高潮 亚洲精品| 法国空姐在线观看免费| 欧美日韩中文视频| 日韩理论片网站| 2022国产精品| 国产一二三四在线| 亚洲精品中文在线| 亚洲福利一区二区三区| 日本午夜在线亚洲.国产| 青青草原成人网| 婷婷五月综合激情| 91精品蜜臀在线一区尤物| 欧美高清一区二区| 国产午夜视频在线| 一区二区高清视频在线观看| 国产精品入口免费视| 熟女俱乐部一区二区视频在线| 久久国产精品色婷婷| 在线电影欧美日韩一区二区私密| 日本国产在线播放| 刘亦菲久久免费一区二区| 不卡的看片网站| 欧美乱人伦中文字幕在线| 男人网站在线观看| 久久精品网站免费观看| 国产精品爽黄69天堂a| 国产三级短视频| 成人精品电影在线观看| 51ⅴ精品国产91久久久久久| 丝袜美腿中文字幕| 国产精品欧美一区二区三区| 国产免费一区二区三区在线能观看 | 亚洲自拍高清视频网站| 国内毛片毛片毛片毛片毛片| 亚洲综合另类小说| 台湾无码一区二区| 国产成人久久精品77777最新版本| 国产999在线| 天天爽夜夜爽夜夜爽精品| 在线观看免费亚洲| 中文字幕欧美日韩一区二区| 日韩精品国产精品| 精品少妇一区二区30p| 国产成人福利在线| 在线观看国产一区二区| 国产一二三区av| 亚洲免费在线电影| 国产乱子伦精品无码专区| 99久久精品99国产精品| 日韩久久久久久久久久久久久| 久久se精品一区二区| 久久国产精品-国产精品| 美日韩一区二区三区| 久久久久九九九九| 日韩精品1区2区| 亚洲欧美日韩精品| 成人黄色免费网站在线观看| 日韩美女黄色片| 亚洲视频专区在线| 国产一区二区三区四区在线| 欧美精品在线视频| 一边摸一边做爽的视频17国产| 亚洲午夜电影在线观看| 免费无遮挡无码永久视频| 91网址在线看| 男人日女人的bb| 国产激情91久久精品导航| 免费久久久一本精品久久区| 国产福利一区二区三区视频 | 国产一线二线三线在线观看| 久久福利视频一区二区| 日本久久精品视频| 亚洲国产成人一区二区| 国产精品夜间视频香蕉| 天天色综合av| 久99久在线| 91在线国内视频| 亚洲国产精品视频一区| 国产精品毛片久久久久久久| 久热免费在线观看| 欧美性猛交xxx| 国产精品无码专区| 欧美精品色综合| 久久久美女视频| 亚洲 日韩 国产第一| 在线观看日本网站| 91欧美视频网站| 日韩精品一二区| 欧美日本国产精品| 1024成人网| 男人天堂999| 日韩欧美激情四射| 亚洲中文字幕无码爆乳av| av一区二区在线看| 亚洲人成人一区二区在线观看| 美女日批在线观看| 亚洲白虎美女被爆操| 中文字幕一级片| 91亚洲精品在线观看| 国产精品一区在线| 国产精品激情av在线播放| 国产iv一区二区三区| 日本一本中文字幕| 亚洲国产精品嫩草影院久久| 亚洲黄色在线免费观看| 黄色一级片国产| 日韩久久免费电影| 日韩激情视频在线观看| 亚洲 高清 成人 动漫| 亚洲精品720p| 96日本xxxxxⅹxxx17| 欧美少妇一级片| 一本大道久久a久久精二百| 中文字字幕在线中文| 国产精品三区www17con| 欧美在线免费观看视频| 国产精品嫩草影院精东| 国产原创中文在线观看| 欧美一区三区二区| 日本成人动漫在线观看| 日韩人妻无码精品久久久不卡| 亚洲欧美另类自拍| 91啪亚洲精品| 免费黄在线观看| 亚洲福利av在线| 亚洲视频在线视频| 国产在线不卡一区| 亚洲av无一区二区三区| 91久久爱成人| 日韩成人在线免费观看| 粉嫩小泬无遮挡久久久久久| 少妇精品无码一区二区三区| 日韩av片免费在线观看| 色欧美日韩亚洲| 午夜精品久久久久久久96蜜桃| 天天色综合天天色| 91免费看蜜桃| 国产亚洲xxx| 国产精品乱码一区二三区小蝌蚪| 国产真人无遮挡作爱免费视频| 亚洲精品在线免费看| 欧美超级免费视 在线| 精品久久久一区二区| 蜜桃一区二区三区在线观看| 国产极品美女在线| 国产日本欧美在线观看| 秋霞精品一区二区三区| 美女黄毛**国产精品啪啪| 久久久精品国产亚洲| 亚洲一区二区三区自拍| 青娱乐精品视频在线| 黄色片视频免费| 五月激情五月婷婷| 天堂av一区二区| 国产精品福利观看| 中文字幕av一区二区| 樱桃国产成人精品视频| 成人高潮片免费视频| 国产高清在线免费观看| 91高清国产视频| 亚洲一二区在线 | 男女裸体影院高潮| 不卡视频一区二区三区| 精品视频偷偷看在线观看| 欧美日产在线观看| 国产精品久久久久久久裸模 | 欧美一区二粉嫩精品国产一线天| 欧美日韩国产在线观看| 亚洲精品菠萝久久久久久久| www久久精品| 国产福利不卡视频| 精品在线一区二区三区| 久久精品午夜| 中文字幕一二三四| 中文字幕视频在线播放| 成人性生交大片免费看无遮挡aⅴ| 久久久老熟女一区二区三区91| 精品国产一区二区三区在线| 日韩影片在线播放| 一区二区三区四区视频在线| 91国语精品自产拍在线观看性色 | 成人区一区二区| 欧美高清中文字幕| 国产乱子伦农村叉叉叉| 免费观看日韩毛片| 小说区图片区图片区另类灬| 神马影院一区二区三区| 好色先生视频污| 日韩av综合在线观看| 黄色特一级视频| 国产又粗又长又大的视频| 777视频在线| 爱情岛论坛vip永久入口| 少妇性l交大片7724com| 肉色超薄丝袜脚交| 西西444www无码大胆| 亚洲乱码国产乱码精品精大量| 自拍一级黄色片| 男人晚上看的视频| 亚洲成人av影片| 最近中文字幕av| 污视频在线免费| 久久久一区二区| 婷婷色在线观看| 中字幕一区二区三区乱码| 57pao成人国产永久免费| 美女久久久久久久久久久| 日韩不卡一二区| 国产又粗又猛又爽又黄av| 中文字幕有码av| 久久av红桃一区二区禁漫| 91美女精品福利| 日韩经典中文字幕| 乱人伦xxxx国语对白| 成人免费公开视频| yellow中文字幕久久| 久久久久久无码精品人妻一区二区| 亚洲卡一卡二卡三| 国产视频在线一区二区| 日本三日本三级少妇三级66| 中国毛片直接看| 国产美女av一区二区三区| 91黄色激情网站| 日韩av理论片| 成年人网站大全| 国产精品久久久久久在线| 最新日韩在线视频| 亚洲国产女人aaa毛片在线| 成人黄色在线观看| 日韩三级久久久| 亚洲男人的天堂在线观看| 亚洲欧美一区二区三区四区| 国产日韩欧美一区二区| 国产午夜视频在线播放| 欧美日韩国产片| 国产精品自拍网| 亚洲成人动漫在线| 日本aⅴ免费视频一区二区三区| 国产一区999| 欧美三级乱人伦电影| 日韩大片免费观看视频播放| 国产69精品久久久久久| 免费成人在线观看av| 欧美日韩亚洲一| 日韩在线观看视频一区二区| 一级黄色大片网站| 成人一区二区三区中文字幕| 国产精品美女久久久久aⅴ国产馆| 成人欧美一区二区三区| 国产视频欧美视频| 97超碰蝌蚪网人人做人人爽 | www.综合色| 国产成人综合视频| 色综合天天做天天爱| 日韩亚洲国产中文字幕| 91九色视频在线观看| 少妇一级淫片免费放播放| 欧美性色视频在线| 一区二区不卡视频| 国产乱码精品一区二区三区忘忧草 | 第四色在线视频| 精品黑人一区二区三区国语馆| 色av成人天堂桃色av| 老牛影视免费一区二区| 一级成人黄色片| 欧美乱熟臀69xxxxxx| 99亚洲精品视频| 国产在线视频一区二区三区| 91成人免费视频| 午夜精品久久久久久久96蜜桃| 欧美主播一区二区三区美女| 特级西西人体www高清大胆| 2021中文字幕一区亚洲| 国产精品91免费在线| 99在线精品视频免费观看20| 99九九精品视频| 亚洲欧洲制服丝袜| 一本二本三本亚洲码| 秋霞精品一区二区三区| 91精品国产福利在线观看| 黄色片在线免费| 中文字幕乱码久久午夜不卡| 亚洲精品一区二区三| 美美哒免费高清在线观看视频一区二区 | 高清久久久久久| 成人av番号网| www.污视频| 91精品视频在线看| 亚洲欧美另类日本| 91视频com| 一本一道久久a久久精品综合| 成人性生交大片| 国产精品50p| 亚洲男人天堂古典| 三级网站免费观看| 97久久国产亚洲精品超碰热| 9191精品国产综合久久久久久| h狠狠躁死你h高h| 欧美做暖暖视频| 亚洲人成电影在线播放| 久久精品免费在线| 亚洲免费视频观看| 国产强伦人妻毛片| 日韩av电影中文字幕| 六月丁香婷婷久久| 蜜桃网站成人| 91免费在线视频观看| 免费不卡av在线|