色综合中文综合网_性猛交娇小69hd_久久精品99久久久久久_欧美日韩精品一区二区三区四区 _97视频色精品_国产高清精品久久久久_日日鲁鲁鲁夜夜爽爽狠狠视频97 _国产成人免费视频精品含羞草妖精 _熟女少妇在线视频播放_精品人妻一区二区三区麻豆91 _久久女同性恋中文字幕_一区二区福利视频

大模型參與推理崩潰論戰(zhàn)!從「思維錯覺」到「錯覺的錯覺」再到「錯覺的錯覺的錯覺」

聞樂 發(fā)自 凹非寺

量子位 | 公眾號 QbitAI

蘋果團隊一篇論文,現(xiàn)已升級成AI圈“論文連續(xù)劇”。

《思維的錯覺》:大模型推理會崩潰。

《思維的錯覺的錯覺》:大模型崩潰是錯覺。

《思維的錯覺的錯覺的錯覺》:大模型還是會崩潰。

大模型參與推理崩潰論戰(zhàn)!從「思維錯覺」到「錯覺的錯覺」再到「錯覺的錯覺的錯覺」

起初,蘋果團隊發(fā)了一篇論文炮轟所有大模型推理都是假象,遇到高復(fù)雜度長推理問題時都會崩潰,即使給他們足夠的時間和計算資源。

大模型參與推理崩潰論戰(zhàn)!從「思維錯覺」到「錯覺的錯覺」再到「錯覺的錯覺的錯覺」

這篇文章引起了廣泛關(guān)注,有人支持也有人質(zhì)疑。

在質(zhì)疑的人中,有一位網(wǎng)友與Claude Opus“合作”寫了一篇長達5頁的文章,來說明大模型這種明顯的崩潰是人為因素造成的。

大模型參與推理崩潰論戰(zhàn)!從「思維錯覺」到「錯覺的錯覺」再到「錯覺的錯覺的錯覺」
大模型參與推理崩潰論戰(zhàn)!從「思維錯覺」到「錯覺的錯覺」再到「錯覺的錯覺的錯覺」

沒多久,第三篇文章也來了,這篇綜合了前兩篇的觀點,贊同大模型崩潰是實驗設(shè)計不合理這一人為因素造成的,但也強調(diào)模型在非常長的逐步執(zhí)行中仍然會出錯,盡管方法有所改進,但脆弱性依然存在。

也就是說,大模型在推理過程中還是會崩潰。

基于上次的經(jīng)驗,網(wǎng)友猜測第三篇文章的第一作者或許是Gemini Pro~

大模型參與推理崩潰論戰(zhàn)!從「思維錯覺」到「錯覺的錯覺」再到「錯覺的錯覺的錯覺」
大模型參與推理崩潰論戰(zhàn)!從「思維錯覺」到「錯覺的錯覺」再到「錯覺的錯覺的錯覺」

讓我們來看看這部“連續(xù)劇”到底在“演”什么。

大模型推理到底會不會崩潰

最新的這篇文章對前兩篇內(nèi)容進行了雙重審視,得出的結(jié)論是:你倆說的都有道理。

認(rèn)同第二篇的三個關(guān)鍵修正

原研究的觀點是:當(dāng)題目難度超過臨界點時,大模型推理會崩潰。

蘋果的原研究是通過設(shè)計4類謎題環(huán)境(漢諾塔、跳棋交換、過河問題、積木世界),系統(tǒng)觀察模型在不同復(fù)雜度下的行為變化。

他們進行了大量實驗,對比“會思考”和“不思考”的模型組合。

發(fā)現(xiàn)在低復(fù)雜度任務(wù)中,那些“不思考”標(biāo)準(zhǔn)語言模型實際上表現(xiàn)得更好。

隨著任務(wù)難度進入中等水平,“會思考”的推理模型開始顯現(xiàn)優(yōu)勢。

當(dāng)問題復(fù)雜度繼續(xù)增加并超過某個臨界點時,無論是推理模型還是標(biāo)準(zhǔn)模型都會經(jīng)歷完全的性能崩潰,準(zhǔn)確率直線下降至零,甚至?xí)p少思考token。

大模型參與推理崩潰論戰(zhàn)!從「思維錯覺」到「錯覺的錯覺」再到「錯覺的錯覺的錯覺」

比如漢諾塔問題,在超過大約8個盤后,標(biāo)準(zhǔn)模型和推理模型都崩潰到0%,推理模型的輸出token甚至更少,這表明當(dāng)前的思維鏈擴展在較小深度之外就失效了。

大模型參與推理崩潰論戰(zhàn)!從「思維錯覺」到「錯覺的錯覺」再到「錯覺的錯覺的錯覺」

第二篇認(rèn)為這里面有三個測試瑕疵,token預(yù)算限制、評估誤判、以及謎題設(shè)計的數(shù)學(xué)不可解性。

于是,作者進行了模型重新驗證。

  • 替代表示法的有效性:當(dāng)要求模型以Lua函數(shù)等緊湊形式輸出漢諾塔解法時(而非枚舉所有步驟),測試模型(如Claude-3.7-Sonnet、Gemini 2.5)在N=15時仍能保持高準(zhǔn)確率,且token消耗遠低于上下文限制(<5000token),證明模型具備遞歸算法理解能力,失敗源于格式約束而非推理缺陷。
  • 復(fù)雜度指標(biāo)的誤用:原研究以 “組合深度”(最小移動步數(shù))衡量復(fù)雜度,但漢諾塔雖需指數(shù)級步數(shù),每步?jīng)Q策復(fù)雜度僅為O(1),而積木世界因涉及最優(yōu)解搜索(NP難問題),實際難度更高。模型在長序列漢諾塔問題中的表現(xiàn)優(yōu)于短序列積木問題,印證了 “解長度≠計算復(fù)雜度” 的觀點。
大模型參與推理崩潰論戰(zhàn)!從「思維錯覺」到「錯覺的錯覺」再到「錯覺的錯覺的錯覺」

結(jié)論就是,原研究的 “崩潰” 本質(zhì)上是實驗設(shè)計對模型輸出限制、謎題不可解性和復(fù)雜度誤判的綜合結(jié)果,而非LRMs(推理模型)的根本性推理局限。

最新的第三篇認(rèn)同了第二篇的三個關(guān)鍵修正。

大模型參與推理崩潰論戰(zhàn)!從「思維錯覺」到「錯覺的錯覺」再到「錯覺的錯覺的錯覺」

大模型在面對高復(fù)雜度長推理時還是避免不了“崩潰”

雖然認(rèn)為第二篇的反駁有道理,但該作者又指出:

第二篇的實驗測試的是算法知識檢索與代碼生成,而非原實驗的 “連續(xù)執(zhí)行與狀態(tài)追蹤”。

模型可能因訓(xùn)練數(shù)據(jù)包含漢諾塔算法而成功生成函數(shù),但無法證明其能無錯執(zhí)行3萬余步(如N=15的32767步)。

也就是說,雖然漢諾塔每步規(guī)則很簡單,但模型仍可能因中間步驟誤差累積導(dǎo)致失敗。

原研究中,即使向模型提供算法提示,它仍表現(xiàn)為崩潰,暗示瓶頸在于執(zhí)行保真度而非解法發(fā)現(xiàn)。

簡單來說就是,雖然token限制是直接原因,但模型在長序列任務(wù)中的失敗反映了 “持續(xù)高保真執(zhí)行” 的內(nèi)在缺陷。

并且,模型在接近 “崩潰點” 時會提前減少推理投入(如推理token數(shù)下降),這一現(xiàn)象無法僅用token限制解釋。

也就是說,即使修正了測試設(shè)計并提供了足夠的輸出空間,模型一旦將逐步計劃擴展到數(shù)千步,仍然會開始失去對計劃的追蹤。

因此,這位作者認(rèn)為大模型在維持非常長的推理鏈方面仍然存在真正的弱點。

這或許需要后續(xù)的研究跟進。

One More Thing

目前,這部“連續(xù)劇”已經(jīng)發(fā)展到了第三集,有些網(wǎng)友看熱鬧不嫌事兒大,表示想快進到第四集!

大模型參與推理崩潰論戰(zhàn)!從「思維錯覺」到「錯覺的錯覺」再到「錯覺的錯覺的錯覺」
大模型參與推理崩潰論戰(zhàn)!從「思維錯覺」到「錯覺的錯覺」再到「錯覺的錯覺的錯覺」

你認(rèn)為第四集會是什么劇情呢?

參考鏈接:
[1]https://x.com/rohanpaul_ai/status/1930968053027578199
[2]https://x.com/rohanpaul_ai/status/1933296859730301353
[3]https://x.com/rohanpaul_ai/status/1935746720144544157

— 完 —

版權(quán)所有,未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用,違者必究。
91香蕉视频污| 精品国产va久久久久久久| 久久综合伊人77777麻豆| 88xx成人精品| 久久久91精品国产一区二区精品| 91激情视频在线观看| 麻豆一区在线观看| 久久久久久久久久福利| 成人av中文| 在线观看中文字幕亚洲| 久久久久综合网| 久久女同精品一区二区| 欧美日韩中文精品| 91色在线视频| 一区二区三区伦理片| 亚洲av无码一区二区三区性色| 97人妻精品视频一区| 麻豆传传媒久久久爱| 亚洲精品成人自拍| 亚洲一卡二卡三卡| 欧美日韩成人在线播放| 欧美喷潮久久久xxxxx| 久久久成人的性感天堂| 精品一区二区三区四区| 日韩欧美不卡视频| 黄色一级片在线免费观看| 91av在线不卡| 国产精品国产三级国产aⅴ9色| 亚洲欧洲国产精品| 欧美三级网色| 亚洲无码精品在线播放| 韩国理伦片一区二区三区在线播放 | 初高中福利视频网站| 中国女人做爰视频| 欧美视频在线第一页| 国产视频不卡一区| 91视频免费观看| 亚洲国产成人av网| 欧美视频在线不卡| 一区二区三区免费观看视频| 奇米综合一区二区三区精品视频| 亚洲h动漫在线| 懂色中文一区二区三区在线视频| 少妇精品无码一区二区免费视频| 99久久精品免费观看| 亚洲激情第一区| 色老头久久综合| 欧美亚洲动漫精品| 欧美午夜不卡视频| 久久久精品一区二区| 亚洲私人黄色宅男| 欧美丰满美乳xxx高潮www| 91网免费观看| www国产无套内射com| 一级日本黄色片| youjizz.com亚洲| 色综合五月婷婷| 久久久久久久九九九九| 性xxxfllreexxx少妇| 国产日韩欧美精品在线| 91黄色免费网站| 亚洲午夜私人影院| 91麻豆精品国产91| 欧美一性一乱一交一视频| 在线不卡一区二区| 欧美高清性hdvideosex| 一级性生活视频| 国产精品成人免费观看| 国产极品久久久| 国产亚洲精品精华液| 日本中文字幕在线观看视频| 99久久精品国产色欲| 成人高清免费观看| 欧美大片网站在线观看| 亚洲最大色综合成人av| 精品影片一区二区入口| 色婷婷av777| 亚洲第一网站在线观看| 国产精品亲子伦对白| 精品国产99久久久久久宅男i| 人妻妺妺窝人体色www聚色窝| 日韩精品极品视频免费观看| 欧美在线视频免费播放| 三级a在线观看| 福利网址在线观看| 91成人在线免费| 一区二区三区中文在线| 一区二区在线不卡| 久久久久九九视频| 精品视频在线观看| 国产日韩欧美中文字幕| 色在人av网站天堂精品| www深夜成人a√在线| 最近中文字幕免费观看| 国产人与禽zoz0性伦| av在线免费观看不卡| 国产黄色一区二区| 精品久久中文字幕| 久久av二区| 精品国自产在线观看| 亚洲专区中文字幕| 青娱乐精品视频在线| 成人免费看吃奶视频网站| 麻豆传媒一区二区三区| 神马国产精品影院av| 九色91国产| 鲁丝一区二区三区| 国产午夜一区二区三区| 在线观看国产精品日韩av| 国产成人亚洲综合91| 亚洲综合20p| 777精品伊人久久久久大香线蕉| av电影一区二区三区| 国产乱淫a∨片免费观看| 色综合天天做天天爱| 日韩一区二区三区在线播放| 久久中文免费视频| 亚洲欧美一区二区三区在线| 日本特黄一级片| 成人免费网站在线| 欧洲熟妇的性久久久久久| 色屁屁草草影院ccyy.com| 亚洲成av人片在线观看香蕉| 国产又黄又猛视频| 国产精品一区二区黑丝| 亚洲伊人第一页| 熟妇熟女乱妇乱女网站| 国产在线日韩欧美| 久久久久久久久一区二区| 久久激情一区| 久久亚洲精品无码va白人极品| 亚洲欧美日韩中文字幕一区二区三区| 国产视频手机在线播放| 91在线看国产| 亲爱的老师9免费观看全集电视剧| 老熟妇仑乱视频一区二区| 91蝌蚪porny| 欧美成人精品在线观看| 大陆av在线播放| 免费在线观看不卡| 中文字幕乱码一区二区三区| 在线观看日本网站| 久久在线观看视频| 国产熟人av一二三区| 日本精品999| 国产日韩欧美一二三区| 国产福利91精品| 国产乱了高清露脸对白| 欧美中文字幕视频| 久久久久久久精| 成人免费毛片日本片视频| 欧美日韩国产成人在线91| 国产精品97在线| 亚洲成人免费在线观看| 男人天堂网视频| 欧美影院一区二区| 国产在线视频欧美一区二区三区| 国产盗摄一区二区三区在线| 日韩在线观看免费高清| 国产一区999| 91免费版网站入口| 精久久久久久久久久久| 欧美人与动牲交xxxxbbbb| 小早川怜子久久精品中文字幕| 日韩一二三区视频| 欧美精品一区二区蜜桃| 97av自拍| 91精品国产综合久久精品图片| 老鸭窝一区二区久久精品| 97国产在线播放| 神马国产精品影院av| 神宫寺奈绪一区二区三区| 男人舔女人下部高潮全视频| 懂色一区二区三区av片| 亚洲女人天堂成人av在线| 国产裸体永久免费无遮挡| 国产亚洲欧美一区二区三区| 欧美影视一区在线| 成人一区在线观看| 小泽玛利亚一区二区三区视频| 国产人妻777人伦精品hd| 欧美性色19p| 国产精品嫩草69影院| 疯狂做受xxxx高潮欧美日本 | 国产在线高清精品| 日韩精品aaa| 亚洲精品视频自拍| 免费在线观看91| 亚洲国产成人精品一区二区三区| 伊人网在线免费| 色一情一伦一子一伦一区| 日韩精品一区二区三区四| 国产亚洲综合久久| 成人免费观看视频| 亚洲AV无码精品色毛片浪潮| 野花社区视频在线观看| 免费在线观看污网站| 亚洲国产激情一区二区三区| 日韩有码视频在线| 美女免费视频一区| 动漫av网站免费观看| 亚洲黄色免费三级| 91福利在线观看视频| 黄瓜视频免费观看在线观看www | 一本一本久久a久久精品综合小说| 欧美精品欧美极品欧美激情| 精品视频资源站| 国产一区二区三区在线视频观看| 国产高清精品一区| 精品国产91乱码一区二区三区| 天天干天天干天天干天天| 久久久性生活视频| 国产日韩欧美一区二区| 91欧美激情另类亚洲| 久99九色视频在线观看| 美女视频黄免费的亚洲男人天堂| 一本久久综合亚洲鲁鲁五月天 | 一二三av在线| 性色av一区二区三区红粉影视| 亚洲免费在线看| 国产精品无码久久av| 日产精品久久久一区二区福利| 中文字幕人妻一区二区三区视频| 中文字幕人妻熟女在线| 超碰97在线看| 色狠狠综合天天综合综合| 亚洲精品福利网站| 成人一级片免费看| 激情伦成人综合小说| 中文字幕精品三区| 精品人妻少妇嫩草av无码专区| 97国产在线播放| 国产老女人精品毛片久久| 日本一区二区三区四区五区六区| 国产精品久久久久久久久图文区| 亚洲图片 自拍偷拍| 亚洲国产天堂久久综合网| 91视频在线视频| 精品一区二区三区免费毛片| 国产精品免费久久| 成年人网站免费看| 性欧美亚洲xxxx乳在线观看| 久久国产欧美日韩精品| 国产精品999视频| 欧美精品一区二区三区视频| 91丨九色丨海角社区| 国语精品中文字幕| 亚洲成人7777| 久久亚洲成人av| 国产精品国产三级国产专区53| 中文字幕亚洲综合久久菠萝蜜| 粉嫩av懂色av蜜臀av分享| 久久久久久久久久久国产| 大陆成人av片| www国产视频| 欧美伊久线香蕉线新在线| av网站免费线看精品| 久久久久亚洲av片无码v| 久久成人精品视频| 国产成人精品三级麻豆| 免费看91视频| 4438全国亚洲精品在线观看视频| 成人免费视频国产在线观看| 国产高清999| 欧美精品激情在线观看| 国产性天天综合网| 女人裸体性做爰全过| 亚洲va久久久噜噜噜| 天天色综合天天| 日本熟妇一区二区三区| 日本女人高潮视频| 亚洲女人被黑人巨大进入| 久久精品国产99| 亚洲精品乱码久久| 91精品在线影院| 色婷婷av一区二区三区软件| 四虎成人在线观看| 日本老太婆做爰视频| 亚洲人午夜色婷婷| 变态另类丨国产精品| 久草视频在线观| 久久国产精品99久久久久久丝袜| 欧美性20hd另类| 国产视频一二三四区| 久久人人爽人人爽人人av| 亚洲最新av在线| 97精品视频在线观看自产线路二| 精品一区二区三区蜜桃在线| 91精品天堂| 在线不卡欧美精品一区二区三区| 亚洲精品字幕在线| 天天视频天天爽| 日本电影亚洲天堂| 午夜精品影院在线观看| 国产日韩免费视频| 一区二区三区四区毛片| 国产精品www网站| 在线影视一区二区三区| 五月天婷婷激情网| 亚洲精品激情视频| 成人激情直播| 亚洲国产成人久久| 91亚洲国产成人精品一区二三| 欧美精品一区二区成人| 在线不卡日本| 亚洲春色综合另类校园电影| 国产一区二区三区高清视频| 在线观看av不卡| 日韩精品国产精品| 亚洲午夜久久久久久久久| 国产精品一区二区三区精品| 欧美一级国产精品| 99在线热播精品免费| 亚洲天堂一区在线| 伊人色在线观看| 国产富婆一区二区三区| 亚洲精选中文字幕| 亚洲欧洲av在线| 国产综合在线播放| 蜜桃久久精品成人无码av| 亚洲一区二区不卡视频| 高清一区二区三区四区五区| 精品久久久久久久久久久久久久| 日韩精品每日更新| 久久久夜色精品| 欧美大尺度做爰床戏| 国产乱码精品一区二区三| 香蕉网在线播放| 一区二区三区欧美成人| 国内精品久久久久伊人av| 欧美日韩一区视频| 国产午夜精品一区二区三区视频 | 国产精品白丝jk喷水视频一区 | 日本视频精品一区| 欧美国产乱视频| 日韩一区二区三区四区| 中文字幕精品一区二区三区精品| 色网站免费观看| 日韩免费黄色片| 国产精品一区二区无码对白| 偷拍盗摄高潮叫床对白清晰| 日韩av片免费在线观看| 日韩成人av网址| 欧美性猛交xxxx偷拍洗澡| 99精品黄色片免费大全| 黄色成人一级片| 在线观看亚洲天堂| 精品国产av无码| 福利片一区二区三区| 免费国产成人看片在线| 91麻豆桃色免费看| 国产做受69高潮| 国产一区二区三区网站| 欧美日韩国产一级| 亚洲一区在线看| 久久久久高清精品| 国产黄人亚洲片| 亚洲欧美综合在线观看| 四虎影院在线免费播放| 国产乱子轮xxx农村| 国产性猛交96| 国产高潮免费视频| 国产情侣第一页| 亚洲国产一区二区三区在线播| 成人性生交大片免费看视频直播| 久久91精品国产91久久久| 日韩国产在线看| 日韩欧美国产综合一区| 欧美午夜性色大片在线观看| 国产女人水真多18毛片18精品视频 | 久久久久久久av麻豆果冻| 精品一区精品二区高清| 神马午夜精品95| 不卡视频免费在线观看| 五月婷婷激情五月| 国产精品30p| 妺妺窝人体色www聚色窝仙踪| 精品少妇人妻一区二区黑料社区| 色悠悠久久综合网| 久久精品99国产| 国产精品自拍片| 黄色av网址在线播放| 精品国产一区二区三区无码| 影音先锋亚洲视频| 樱花www成人免费视频| 久久精品99| 久久久久se| 欧美精品一区在线| 欧美视频小说| 日韩免费中文专区| 亚洲看片网站| 性做爰过程免费播放| 一区二区三区四区不卡| 欧美一区二区在线视频观看| 国产综合 伊人色| 久久久久成人精品免费播放动漫| 九色视频成人porny| 麻豆av一区二区三区| 欧美欧美一区二区| 午夜欧美性电影| 中文字幕在线观看一区二区三区| 一区二区三区av| 亚洲免费不卡| dy888午夜| 黄色一级片播放| 91蝌蚪视频在线观看| 国产女同无遮挡互慰高潮91| 中文字幕亚洲日本| 高清国产在线观看| 国产日韩欧美在线观看视频|