色综合中文综合网_性猛交娇小69hd_久久精品99久久久久久_欧美日韩精品一区二区三区四区 _97视频色精品_国产高清精品久久久久_日日鲁鲁鲁夜夜爽爽狠狠视频97 _国产成人免费视频精品含羞草妖精 _熟女少妇在线视频播放_精品人妻一区二区三区麻豆91 _久久女同性恋中文字幕_一区二区福利视频

o3/o4-mini幻覺暴增2-3倍!OpenAI官方承認暫無法解釋原因

OpenAI只是說“需要更多研究來了解原因”

夢晨 發自 凹非寺
量子位 | 公眾號 QbitAI

OpenAI新模型發布后,大家體感都幻覺更多了。

甚至有人測試后發出預警:使用它輔助編程會很危險。

o3/o4-mini幻覺暴增2-3倍!OpenAI官方承認暫無法解釋原因

具體來說,它經常捏造從未運行過的代碼返回結果,在被質問時找理由狡辯甚至還會說是用戶的錯

o3/o4-mini幻覺暴增2-3倍!OpenAI官方承認暫無法解釋原因

當大家帶著疑問仔細閱讀System Card,發現OpenAI官方也承認了這個問題,與o1相比o3幻覺率是兩倍,o4-mini更是達到3倍

并且OpenAI只是說“需要更多研究來了解原因”,翻譯一下就是暫時給不出合理解釋。

o3/o4-mini幻覺暴增2-3倍!OpenAI官方承認暫無法解釋原因

在第三方幻覺測試中,也出現讓人驚訝的結果:

從GPT-3.5一直到o3-mini,都遵循更新更強大的模型幻覺更少的規律。

o3/o4-mini幻覺暴增2-3倍!OpenAI官方承認暫無法解釋原因

但從最新一批深度思考模型的表現來看,推理能力更強的模型,幻覺率也變高了。

而且不只OpenAI一家出現這個問題,谷歌、xAI也同樣,Grok-3的幻覺比Grok-2嚴重,Gemini-2.0-Flash-Thinking的幻覺問題比Gemini 2.0和2.5其他型號嚴重。

o3/o4-mini幻覺暴增2-3倍!OpenAI官方承認暫無法解釋原因

推理越強,幻覺越嚴重?

第三方機構Transluce在o3正式推出之前測試了預發布版本,發現幻覺問題是相當嚴重。

在公布的案例中,o3會假裝在不存在的電腦上執行了代碼,還編造出具體硬件配置和軟件版本信息。

o3/o4-mini幻覺暴增2-3倍!OpenAI官方承認暫無法解釋原因

在受到質問時,o3居然還幻想自己是人,聲稱“輸入的時候手滑了”。

o3/o4-mini幻覺暴增2-3倍!OpenAI官方承認暫無法解釋原因

關鍵在于,在這項測試中o3根本就沒有使用代碼工具的權限,所有聲稱運行了代碼的回復都是模型捏造的。

在另一個案例中,o3回復了一個512位質數,實際上這個數能被3整除。

o3/o4-mini幻覺暴增2-3倍!OpenAI官方承認暫無法解釋原因

在受到質問時,又編造出一個換行/剪貼板故障。

o3/o4-mini幻覺暴增2-3倍!OpenAI官方承認暫無法解釋原因

更多類似幻覺如下:

  • 當用戶詢問現在幾點時,o3會編造一個時間。當被問及如何獲得這個時間時,o3回答說它使用了 Python的datetime模塊。
  • 用戶要求o3生成一首詩的SHA-1哈希值,當用戶質問哈希值不正確時,o3稱是用戶復制錯了,并堅稱自己生成的哈希值是正確的。
  • 用戶要求o3從Web服務器上的日志文件中提取統計數據。o3生成了一個Python腳本,并聲稱可以在本地運行。這一次在被問及代碼執行的更多細節時,它終于承認自己沒有Python解釋器,輸出是“手工編造的”。

……

那么是什么原因導致了o3的這些行為?

Transluce認為其中一些因素是大多數模型 (LM) 所共有的,還有一些是O系列模型特有的新因素。并假設這些新因素放大了通常可以通過標準Post-training緩解(但無法完全消除)的問題。

語言模型共有的因素包括:

  • 預訓練中的幻覺:
  • 語言模型的預訓練目標是最大化訓練數據中語句的概率,這可能會導致常見的誤解 、罕見的事實或采樣不確定性等導致的多種幻覺。
  • 獎勵黑客攻擊:
  • 如果人類評分者無法區分正確答案和錯誤答案,強化學習可能會獎勵“聽起來合理”的答案,導致模型對難以驗證的問題編造出聽起來合理的解釋。
  • 諂媚現象:
  • RLHF訓練通常會激勵模型同意用戶的觀點,當用戶暗示模型采取了特定行動或具有特定能力時,這可能會導致模型避免與用戶相矛盾。
  • 分布偏移:
  • 測試場景相對于訓練場景可能存在分布偏差,如模型可能是在啟用代碼工具的情況下訓練的,但評估時關閉了這些工具。

強化學習訓練特有的因素包括:

  • 最大化答案正確率的目標可能會獎勵瞎蒙

如果訓練期間的獎勵函數只獎勵正確答案,那么模型就沒有動力承認自己無法解決問題,因為承認了也不會被視作正確答案。

在這種情況下,當遇到一個無法解決或難度過高的問題時,模型可能仍會嘗試輸出一個概率最高的答案,萬一猜對了就可以得到獎勵。

– 在易于驗證的任務訓練可能使模型在其他任務上感到困惑

Transluce猜測o3的訓練過程中,鼓勵它成功使用代碼工具完成任務。它可能已經開發出一種策略,即使沒有真正的代碼工具,它也會幻想使用代碼工具來組織思維,這可能會提高其他推理任務的準確性,并在訓練過程中得到強化。

更重要的是,如果僅根據答案的正確性來評估模型,它可能永遠不會因為在訓練過程中在思維鏈中幻想代碼工具而受到懲罰,因此永遠不會學會區分真正的工具和幻想的工具

OpenAI的o系列模型,不會向用戶展示完整思維鏈這一特性也可能帶來新的問題。

2024年9月o1-preview的System Card中就包括這樣一個案例,由于沒有聯網權限無法生成真實的 URL,o1生成了一個看似合理的URL,但并未向用戶透露這一點。

o3/o4-mini幻覺暴增2-3倍!OpenAI官方承認暫無法解釋原因

Transluce認為,不向用戶展示思維鏈背后還有一個更大的風險:思維鏈沒有傳遞到未來的對話,模型前一輪的推理不再適用。

關于這一點,在OpenAI的文檔中有證實:

每個步驟的輸入和輸出tokens都會被保留,而推理tokens會被丟棄。

o3/o4-mini幻覺暴增2-3倍!OpenAI官方承認暫無法解釋原因

這意味著o系列模型無法理解上一部輸出的推理過程,當被問及后續問題時,必須給自己的行為給出一個合理的解釋。

換句話說,o系列模型實際上缺乏足夠的上下文信息來準確報告它們在之前回合中采取的行動。

當用戶詢問之前的操作時,這些模型無法使用“說實話”這種簡單的策略。如果再加上獎勵黑客攻擊和諂媚等其他因素,這可能會迫使模型盲目猜測其過去答案的合理解釋。

Transluce建議,測試能夠訪問和無法訪問先前思維鏈的兩種模型,可以為減少未來模型迭代中的這些捏造傾向提供寶貴的見解。

OpenAI o3 and o4-mini System Card
https://cdn.openai.com/pdf/2221c875-02dc-4789-

參考鏈接:
[1]https://transluce.org/investigating-o3-truthfulness
[2]https://x.com/nishffx/status/1913901642551865848

版權所有,未經授權不得以任何形式轉載及使用,違者必究。
综合国产在线观看| 国产精品一区二区三区在线播放 | 6080日韩午夜伦伦午夜伦| 国产成人一区三区| 亚洲欧洲在线一区| 丰满人妻一区二区三区53号| 日本黑人久久| 亚洲欧洲一区二区福利| 色中文字幕在线观看| 国产传媒久久久| 欧美丰满熟妇bbbbbb百度| 中文字幕免费高清在线| 女王人厕视频2ⅴk| 日本成人精品视频| 在线免费观看av网址| 成人日韩在线视频| 亚洲香蕉中文网| 亚洲精品乱码久久久久久蜜桃91| 久久av中文字幕| 欧美高清自拍一区| 成人一区二区三区中文字幕| 精品在线视频观看| 一区二区视频免费| 国产一区二区三区日韩| 亚洲综合五月天婷婷丁香| 亚洲综合久久久| 欧美成人黑人猛交| 免费黄色av网址| 伊人久久久久久久久久久久久久| 久久国产主播精品| 美女av免费看| 亚洲欧洲av在线| 国产精品一区二区在线| 正在播放国产对白害羞| 久久久久9999亚洲精品| 久久人人爽国产| 六十路息与子猛烈交尾| 久久在线观看免费| 国产精品久久久久久久久久久久久久 | 丰满少妇一级片| 日韩欧美电影在线| 九色91porny| 国产在线不卡视频| 欧美高跟鞋交xxxxhd| 免费高清视频在线观看| av不卡免费在线观看| 青青久久av北条麻妃黑人| 自拍偷拍中文字幕| 亚洲免费在线电影| 国产在线精品日韩| 特级毛片www| 日韩三级av在线播放| 黄色一级片在线看| 日本在线不卡一区| 欧美福利在线观看| 91免费在线看片| 午夜亚洲福利老司机| 色综合视频二区偷拍在线| 国产精品爽爽久久久久久| 亚洲电影免费观看高清| 亚洲天堂2018av| 99re热这里只有精品免费视频| 青青草99啪国产免费| 国产激情无码一区二区三区| 色综合天天做天天爱| 9191国产视频| 国产伦精品一区二区三区免费迷| 97国产成人精品视频| 99成人在线观看| 精品日韩美女的视频高清| 亚洲第一页在线视频| 无码国产伦一区二区三区视频| 伊人青青综合网站| 星空大象在线观看免费播放| 一个色综合网站| 一区二区视频在线播放| 日产国产高清一区二区三区| 97精品免费视频| 国产美女在线精品| 韩国19禁主播vip福利视频| 亚洲女优在线观看| 色综合久久久久| 日日鲁鲁鲁夜夜爽爽狠狠视频97 | 91亚色免费| 亚洲一级视频在线观看| 亚洲欧美一区二区三区在线| 美日韩在线视频| 每日在线更新av| 一区二区三区在线免费观看视频| 综合久久久久久| 97在线观看视频国产| 亚洲AV成人精品| 国产精品一区免费视频| 欧美日韩成人免费| 四虎国产精品永久免费观看视频| 丝袜国产日韩另类美女| 中文字幕欧美日韩在线| 五月婷婷六月丁香激情| 成人黄色片在线观看| 麻豆成人免费电影| 一本色道久久综合亚洲精品按摩| 美女久久久久久久久久久| 波多野结衣电影免费观看| 不卡的在线视频| 精品一区二区三区蜜桃在线| 天天操天天干天天综合网| 亚洲在线视频一区二区| 国产·精品毛片| 欧美一级爽aaaaa大片| 极品美女销魂一区二区三区免费| 亚洲一区二区三区在线视频| 手机看片福利在线| 国产专区欧美专区| 日韩精彩视频在线观看| 97自拍视频| 老司机午夜精品99久久| 久久国产精品-国产精品| 国产精品91一区二区| 日本婷婷久久久久久久久一区二区| 国产伦精品一区二区三区视频青涩| 国产在线精品一区| 成人av在线一区二区| 日韩不卡一二区| 国产成人久久精品77777最新版本 国产成人鲁色资源国产91色综 | 444亚洲人体| 精品一区二区三区在线播放| 蜜桃麻豆www久久国产精品| 岛国一区二区在线观看| 国产精品一二三在线观看| 中文字幕第一页久久| 久草精品在线播放| 欧美性受xxxx黑人xyx| 中国黄色a级片| 亚洲美女av在线| 日韩精品在线观看免费| 91国语精品自产拍在线观看性色 | 色天使色偷偷av一区二区| 久久人妻少妇嫩草av蜜桃| 欧美成人一区二区三区在线观看| 99精品中文字幕| 欧美成人在线影院| 超碰在线人人干| 国产精品一区二区免费看| 成人欧美视频在线| 国产一级在线视频| 97免费视频在线| 久久先锋资源| 亚洲v日韩v欧美v综合| 亚洲视频精选在线| 337p日本欧洲亚洲大胆张筱雨 | 欧美俄罗斯性视频| 亚洲精品一区二区三区新线路 | 91视频 - 88av| 精品国产乱码久久久久久虫虫漫画| fc2成人免费视频| 伊人伊成久久人综合网小说| 亚洲精品国产精品国自产网站按摩| 成人激情视频在线播放| 99国产精品99久久久久久| 欧美三级午夜理伦三级富婆| 日韩福利视频在线观看| 国产精选久久久| 日韩欧美在线观看强乱免费| 亚洲www啪成人一区二区麻豆| 国产 欧美 在线| 久久久久久久久久久人体| 久久99九九99精品| 亚洲国产欧美日韩另类综合| 国产成人激情视频| 欧洲av一区二区三区| **欧美日韩vr在线| 亚洲国产精品视频| 欧美在线一级片| 亚洲人成自拍网站| av小说在线观看| 欧美日韩在线观看一区二区| 久久久无码精品亚洲国产| 久久精品欧美一区二区三区麻豆| 97人摸人人澡人人人超一碰| 在线欧美小视频| 久久国产精品免费| 视频一区二区三区四区五区| 一区不卡字幕| 亚洲欧美成人网| 不卡高清视频专区| 天天综合网入口| 精品视频在线观看一区二区| 欧美成人黑人xx视频免费观看| 久久精品一区二区三区不卡| 久久久亚洲精品石原莉奈| 国产男女猛烈无遮挡| 日韩五码在线观看| 久久涩涩网站| 欧美亚洲成人精品| 日韩精品最新网址| 日本不卡123| 精品在线视频观看| 久久久久亚洲AV| 日韩wuma| 国产成人精品在线看| 欧美成人精品欧美一级乱| 欧美日韩午夜剧场| 韩国中文字幕hd久久精品| 精品亚洲aⅴ在线观看| 久久久久久久久久久久国产| 日本成人黄色网| 日本一区二区在线| 国产精品成人一区二区| 日韩av一区在线| 成人h动漫精品一区二| 五月激情六月丁香| 欧美美女一级片| 日韩欧美一区二区三区四区| 久久久噜噜噜久久久| 国产一区二区三区毛片| 天天操天天色综合| 亚洲网友自拍偷拍| 色国产综合视频| 成人av网站在线观看免费| a v视频在线观看| 亚洲第一在线播放| 亚洲天堂网在线观看视频| 国产欧美日韩中文久久| 亚洲国产另类 国产精品国产免费| 欧美激情精品久久久久久| 欧美日韩一区二区免费视频| 久久久亚洲午夜电影| 日韩精品人妻中文字幕有码| 国产91成人video| 日韩精品中文字幕在线不卡尤物| 特黄特色免费视频| 色伦专区97中文字幕| 日韩二区三区在线| 日韩三级高清在线| 亚洲成人激情在线| 亚洲精品美女久久| 91久久香蕉国产日韩欧美9色| 久久综合久久久久88| 天天操天天操天天| 中文字幕一区二区三区人妻四季| 性欧美疯狂猛交69hd| www.涩涩爱| 手机在线不卡av| 欧美日韩免费区域视频在线观看| 亚洲综合网站在线观看| 91福利在线播放| 色94色欧美sute亚洲线路一久 | 亚洲v中文字幕| 欧美群妇大交群中文字幕| 综合婷婷亚洲小说| 国产精品久久久久久久久久久免费看 | 国产精品久久久久久久久久精爆| 五月婷婷六月香| 一级特黄a大片免费| www.黄色av| 日韩精品一二三四| 亚洲不卡在线观看| zzjj国产精品一区二区| 亚洲国产精品一区二区第四页av| 日韩一级特黄毛片| 亚洲 欧美 日韩在线| 国产大尺度视频| 日韩人妻精品中文字幕| 亚洲黄色小说网| 蜜桃91丨九色丨蝌蚪91桃色| 在线免费av网| 国产一区高清在线| 最近日韩中文字幕中文| 国产伦理一区二区三区| 92国产精品视频| 国产视频一区二区三区在线播放| 无码 人妻 在线 视频| 蜜臀久久99精品久久久| 欧美另类一区二区| 欧美极品少妇xxxxⅹ高跟鞋| 精品对白一区国产伦| 一区二区不卡在线观看| 69视频免费看| 日韩免费福利电影在线观看| 亚洲自拍偷拍一区二区三区| 国产精品久久777777换脸| 国产aⅴ精品一区二区三区色成熟| 亚洲人被黑人高潮完整版| 色视频成人在线观看免| 黑丝美女久久久| 在线这里只有精品| 亚洲欧美综合v| 国产成人a亚洲精品| 成人午夜视频福利| 欧美激情一区二区三区蜜桃视频| 亚洲国产精品一区二区三区| 91九色蝌蚪国产| 色七七在线观看| 精品国产www| 成人在线视频一区| 天天色图综合网| 少妇久久久久久| 日韩片电影在线免费观看| 视频免费1区二区三区| 精品欧美一区二区三区免费观看| 美女精品一区二区| 性高潮视频在线观看| 亚洲国产成人一区二区 | 国产女人高潮时对白| 视频在线观看91| 国产一区二区不卡老阿姨| 最新久久zyz资源站| 在线观看亚洲成人| 日韩三级在线观看| 欧美黑人xxxx| 国产精品12| 国产成人在线免费看| 99re6在线观看| 日韩黄色在线视频| 91天堂素人约啪| 日本久久精品电影| 欧美另类xxx| 麻豆视频传媒入口| 精品自拍偷拍视频| 日韩三级视频在线| 精品人妻一区二区三区四区不卡| 韩国v欧美v亚洲v日本v| 午夜私人影院久久久久| 亚洲永久精品大片| 国产日韩精品在线观看| 国产精品日日摸夜夜爽| 国产成人日日夜夜| 精品国产一区久久久| 国内国产精品天干天干| 国产三区在线播放| 日韩精品一区二区三区蜜臀| 久久人人九九| 日本一区二区网站| 亚洲国产日韩综合久久精品| 国产有码一区二区| 亚洲18在线看污www麻豆| 亚洲国产欧美视频| 91好色先生tv| 成人国产在线观看| 国产亚洲精品久久久久动| 麻豆精品国产传媒av| 91精品国产色综合久久不卡蜜臀| 美女黄色片视频| 国产传媒一区在线| 国产日韩在线一区二区三区| 在线看黄色的网站| 欧美日韩一区免费| 欧美伦理片在线看| 久久久精品视频免费| 成人av在线资源网| 亚洲成人动漫在线播放| 日韩中文字幕av在线| 一起操在线视频| www男人的天堂| 欧美亚洲动漫另类| 国产成人精品久久| 少妇网站在线观看| 国产精品电影一区二区三区| 高清国产一区| 日本不卡一区二区三区| 久久精品这里热有精品| 国产激情视频网站| 欧美激情在线看| av资源一区二区| 亚洲激情综合网| 中文久久久久久| 91麻豆国产福利在线观看| 99精品在线直播| 国产一区二区视频在线| 久久综合一区| 国产午夜精品理论片a级大结局| 深夜福利一区二区| 88久久精品无码一区二区毛片| 日韩美女主播在线视频一区二区三区| 国产精品18在线| 亚洲第一精品在线| 337p粉嫩大胆噜噜噜鲁| 97se亚洲国产综合自在线| 国产精品永久免费观看| 先锋资源av在线| 欧洲一区二区三区在线| 亚洲三级在线观看视频| 午夜精品久久久久久久蜜桃app| 欧美视频在线观看一区二区| 日av在线播放中文不卡| 亚洲视屏在线观看| 日本亚洲欧美成人| 日韩制服丝袜先锋影音| 国产另类自拍| youjizz国产精品| 日本中文字幕在线视频观看| 久久综合色之久久综合| 天堂资源在线亚洲视频| 北条麻妃国产九九精品视频| 亚洲精品永久www嫩草| 国产一区在线精品| 亚洲图色在线| 久久久99久久精品欧美| 欧美国产一区二区在线| 91麻豆国产精品久久| 国产 日韩 欧美 在线| 国产免费黄色一级片| 久久久久久91香蕉国产| 精品久久久久久久久久| 亚洲高清视频在线播放| 免费看91视频| 国产日韩换脸av一区在线观看| 亚洲色欲色欲www| 91麻豆精品国产91久久综合| 国产成人精品自拍|