色综合中文综合网_性猛交娇小69hd_久久精品99久久久久久_欧美日韩精品一区二区三区四区 _97视频色精品_国产高清精品久久久久_日日鲁鲁鲁夜夜爽爽狠狠视频97 _国产成人免费视频精品含羞草妖精 _熟女少妇在线视频播放_精品人妻一区二区三区麻豆91 _久久女同性恋中文字幕_一区二区福利视频

o3-pro答高難題文字游戲引圍觀,OpenAI前員工諷刺蘋果:這都不叫推理那什么叫推理

各大評測榜最新排名也出爐了

西風 發自 凹非寺

量子位 | 公眾號 QbitAI

OpenAI“最新最強版”推理模型o3-pro,實際推理能力到底有多強?

全球首位全職提示工程師Riley Goodside來給它上難度:

說出歌手Sabrina Carpenter的一首歌的歌名,回答這個問題時,每個單詞最后一個字母連起來看,也能對應這首歌名

o3-pro答高難題文字游戲引圍觀,OpenAI前員工諷刺蘋果:這都不叫推理那什么叫推理

結果,o3-pro在經過4分25秒的推理過后,成功給出正確答案。

經Sabrina Carpenter實測,o3只能做對個大概,通常只能把最后幾個字母湊對。

o3-pro答高難題文字游戲引圍觀,OpenAI前員工諷刺蘋果:這都不叫推理那什么叫推理

該測試引來OpenAI前AGI Readiness團隊負責人Miles Brundage的轉發關注。

雖然人已經不在OpenAI了,但Miles Brundage還是替老東家直接開大陰陽蘋果:如果這都不叫推理那什么叫推理。

PS:蘋果前幾天發了個新研究,用漢諾塔等四個小游戲測試大模型,稱推理模型全都沒在真正思考,只是另一種形式的“模式匹配”,所謂思考只是一種假象。

o3-pro答高難題文字游戲引圍觀,OpenAI前員工諷刺蘋果:這都不叫推理那什么叫推理

除了網友實測外,各大評測榜單已陸續同步更新排名。

總結來看,和官方給的測試結果略有不同。

官方測評中,o3-pro超越o3、o1-pro,成為當前最擅長編碼的OpenAI模型。

o3-pro答高難題文字游戲引圍觀,OpenAI前員工諷刺蘋果:這都不叫推理那什么叫推理

而在大模型權威榜單LiveBench上,o3-pro和o3編碼平均得分幾乎無差,o3-pro僅有0.07分的優勢。

智能體編碼平均得分方面,o3-pro甚至大比分落后于o3(31.67 vs 36.67)。

o3-pro答高難題文字游戲引圍觀,OpenAI前員工諷刺蘋果:這都不叫推理那什么叫推理

亞馬遜云科技&谷歌前高管Bindu Reddy表示:

主要是它在智能體這塊不太行,工具使用也不咋擅長。

昨天的大新聞不是o3-pro ,而是o3降價了!!

o3-pro答高難題文字游戲引圍觀,OpenAI前員工諷刺蘋果:這都不叫推理那什么叫推理

另外,針對大模型長上下文理解的基準測試Fiction.LiveBench也放榜了。

o3-pro在較短上下文場景下表現很出色,較o3有所提升。

然鵝,192k超長上下文處理依然是Gemini 2.5 Pro占優勢,Gemini 2.5 Pro得分90.6,而o3-pro僅得分65.6。

o3-pro答高難題文字游戲引圍觀,OpenAI前員工諷刺蘋果:這都不叫推理那什么叫推理

讓人困惑的是,在這個基準測試中,不管是o3-pro還是o3,在16k上下文中分數都下降了,到了32k,兩個模型得分又回到了100。

o3-pro答高難題文字游戲引圍觀,OpenAI前員工諷刺蘋果:這都不叫推理那什么叫推理

除此之外,蘋果&SpaceX前工程師Ben Hylak之前分享o1使用心得,得到不少網友關注,連奧特曼、Brockman都轉發了。

這次o3-pro他同樣沒放過,而且又被奧特曼翻了牌子。

o3-pro答高難題文字游戲引圍觀,OpenAI前員工諷刺蘋果:這都不叫推理那什么叫推理

蘋果&SpaceX前工程師分享使用心得

蘋果&SpaceX前工程師Ben Hylak的分享,好似恰巧解釋了o3-pro的官方測評和各大評測榜單結果有所出入的問題。

o3-pro答高難題文字游戲引圍觀,OpenAI前員工諷刺蘋果:這都不叫推理那什么叫推理

Ben Hylak曾任SpaceX軟件工程師、蘋果VisionOS人機交互設計師,目前在創業為AI產品提供分析服務。

此前o1 pro推出滿血$200/月版本時,Ben Hyla第一天就交了錢,整整測試了一天。

o3-pro答高難題文字游戲引圍觀,OpenAI前員工諷刺蘋果:這都不叫推理那什么叫推理

結果體驗很糟糕,很多人表示同感,但也有人強烈反對。Ben Hylak在與持不同觀點人激烈討論了一番后,意識到自己的使用方法完全錯了。

我還在把o1當聊天模型來用,但o1已經不是聊天模型了。

后來,Ben Hylak從討厭o1轉變成了每天都在用它解決最重要的問題。這件事兒的反轉,讓Ben Hylak測試o3-pro更加用心。

他透露這次自己一周前就已經提前接觸到了3-pro,o3-pro“以不同方式測試,實際體驗會有所不同”。

從經常測評大模型的經驗來看,Ben Hylak認為“模型能力的發揮高度依賴背景信息”,他表示自己目前使用o3關鍵就是:

不把它當聊天對象,而是當作報告生成器。給它背景信息、設定目標,然后讓它自由發揮。

由此,要看出o3-pro的真正實力,得給它多得多的背景信息。然鵝,Ben Hylak手頭的信息素材都快榨干了。于是,Ben Hylak換了種方法:

他和他的聯合創始人Alexis花時間把他們在Raindrop所有歷史會議記錄、目標全翻出來,甚至錄了語音備忘錄,一股腦塞給o3-pro,讓它做規劃。

結果,被o3-pro驚艷到了:

它輸出的計劃精準踩中我們想要的點——目標數據、時間排期、優先級排序,連“必須砍哪些業務”都寫得明明白白。

o3給出的計劃合理、說得通;但o3-pro給出的計劃足夠具體、有依據,真真切切改變了我們對未來的思考方式。

這在評估中很難體現出來。

除此之外,Ben Hylak認為如今的模型在孤立環境下表現已然十分出色,簡單測試難不倒它,真正的挑戰在于將其融入社會。

這種融入主要體現在工具調用方面,即模型與人類、外部數據以及其它AI協作得如何

經測試,Ben Hylak表示o3-pro在這方面有了實實在在的提升——

“它在識別自身所處環境、準確說明可使用的工具、知曉何時需詢問外部世界信息(而非假裝自己掌握相關信息或權限 )以及為任務挑選合適工具等方面,表現都明顯更優。”

下面是展示示例。Ben Hylak讓o3-pro和o3做一個日歷。

o3-pro顯然能更好地理解其所處環境的邊界,明確表示:

在這個聊天窗口中無法顯示實時交互的HTML預覽(我的環境僅支持純文本和代碼片段)

并且給出了要查看渲染后日歷的詳細步驟操作,還描述了用戶將看到的視覺內容。

o3-pro答高難題文字游戲引圍觀,OpenAI前員工諷刺蘋果:這都不叫推理那什么叫推理

相比之下,o3明明做不到還裝能做,表示可以“創建日歷小組件的實時交互預覽”。

下面這個例子,Ben Hylak讓模型找今年關于Borges的Substack文章。

o3-pro同樣明確表示進行實時Substack查詢所需的網頁搜索工具在當前環境未啟用,所以無法直接獲取最新鏈接。

而o3表示搜索了,但沒有找到2025年發布的Borges的Substack文章。

o3-pro答高難題文字游戲引圍觀,OpenAI前員工諷刺蘋果:這都不叫推理那什么叫推理

Ben Hylak還發現,需要給o3-pro提供更多上下文,要是不提供足夠的上下文,它會出現過度思考的情況。

它在分析方面超強,也很擅長借助工具做事,但自己直接動手做事就沒那么在行。我覺得它會是個超棒的協調者。不過,有些ClickHouse SQL相關問題,o3處理得更好。實際效果因人而異。

o3-pro給Ben Hylak帶來的體驗與Claude Opus、Gemini 2.5 Pro相比,都不同。

Ben Hylak認為Claude Opus雖體量龐大,但沒讓他真切感受到這種“大”的獨特價值;而o3-pro的輸出更優,仿佛兩者完全處于不同的競爭維度。

他繼續補充道,OpenAI正沿著強化學習路徑深挖(比如Deep Research、Codex項目),不只是教模型“怎么用工具”,更是教它們“思考何時該用工具”。

最后,Ben Hylak總結認為推理模型的Prompt技巧核心邏輯不變,之前他寫的o1提示指南,現在依然適用o3-pro。

首先,“語境”是一切,就像給“餅干怪獸”喂餅干,精準投喂才有效,它是一種引導大語言模型激活“類記憶能力”的方式,但因為足夠精準,所以效果拔群。

另外,系統提示的影響極大。如今模型的可塑性超強,那些能讓模型“理解自身所處環境與目標”的LLM調教框架,能產生遠超預期的價值。

參考鏈接:
[1]https://www.latent.space/p/o3-pro
[2]https://x.com/Miles_Brundage/status/1932889744306024815
[3]https://x.com/ficlive/status/1932588629768982751
[4]https://x.com/bindureddy/status/1932889892562088086

版權所有,未經授權不得以任何形式轉載及使用,違者必究。
国产五月天婷婷| 日本天堂网在线观看| 国内精品久久久久久久久久久| av 日韩 人妻 黑人 综合 无码| 欧美性生交大片| 欧美日韩在线综合| 97视频在线观看免费| 日本在线视频免费| 亚洲欧美综合区自拍另类| 自拍视频一区二区| 欧美性猛交xxxx富婆弯腰| 97在线免费公开视频| 欧美激情在线看| 手机看片福利永久国产日韩| 国产一区二区女| 99精彩视频在线观看免费| 亚洲精品久久久蜜桃动漫| 性欧美xxxx视频在线观看| 国产午夜精品久久久久| 久久精品中文字幕免费mv| 国产无遮挡aaa片爽爽| 国产一区二区三区日韩欧美| 91嫩草|国产丨精品入口| 亚洲成人aaa| 污污视频网站在线免费观看| 亚洲白虎美女被爆操| 女女互磨互喷水高潮les呻吟| 在线播放中文一区| 天天插天天射天天干| 欧美一区二区在线视频| 一区二区三区四区免费| 欧美精品一区二区在线观看| 三年中国中文观看免费播放| jiyouzz国产精品久久| 国产综合 伊人色| 国产精品国产精品国产专区不蜜| 国产专区一区二区| 精品人妻午夜一区二区三区四区| 色噜噜狠狠狠综合曰曰曰| 中文精品在线观看| 一区二区三区日韩在线观看| 国产99视频精品免费视频36| 日韩av无码中文字幕| 亚洲伦理在线精品| 日本www高清视频| 亚洲国产三级在线| 午夜免费看毛片| 在线视频你懂得一区二区三区| 亚洲av午夜精品一区二区三区| 在线观看日韩国产| 国产女人18毛片水真多18| 日韩精品一区二区三区三区免费| 91香蕉视频污在线观看| 久久精品国产精品| 国产又粗又大又黄| 亚洲一区久久久| 国产麻豆精品theporn| 亚洲天堂电影网| 欧美国产成人精品| 57pao国产成永久免费视频| 欧美日韩高清一区二区不卡| 婷婷丁香综合网| www.久久久久久.com| 在线视频 中文字幕| 国产精品一二三视频| 精品一区二区三区免费毛片爱| 伊人色综合影院| 一区二区欧美精品| 粉嫩av懂色av蜜臀av分享| 国产亚洲一区二区在线| 亚洲综合精品国产一区二区三区 | 日本一区二区不卡在线| 91wwwcom在线观看| 麻豆91在线看| 99久久免费观看| 日本高清成人免费播放| 亚洲欧美另类日本| 91精品国产亚洲| 激情都市一区二区| 欧美一级片免费播放| 欧洲精品一区二区三区在线观看| 免费91在线观看| 98视频在线噜噜噜国产| 麻豆国产一区二区| 丰满爆乳一区二区三区| 欧美一二三区在线观看| 免费黄色网址在线| 成人91视频| 国产精品久久777777| 黄色在线免费播放| 婷婷丁香综合网| av免费网站观看| 欧美色综合网站| 国产女片a归国片aa| 欧美激情视频在线| 麻豆91小视频| 可以免费观看av毛片| 性生活一级大片| 欧美日韩久久一区| 免费观看一区二区三区毛片| 亚洲最大福利视频网站| 国产精品久久三| 亚洲欧美日韩偷拍| 性色av一区二区三区免费| 国产一区二区三区在线观看免费| 国模吧无码一区二区三区| 精品欧美一区二区在线观看| 91成品人影院| 一区二区三区四区五区精品| 欧美日韩免费一区二区三区视频| 国产精品免费精品一区| 麻豆成人小视频| 一本久道久久综合中文字幕| 国产九色在线播放九色| 精品伊人久久大线蕉色首页| 福利一区视频在线观看| 久久中文字幕免费| 日韩欧美视频一区二区三区四区| 在线一区二区三区四区五区| 无码人妻丰满熟妇区bbbbxxxx| 久久久精彩视频| 91精品福利视频| 欧美高清69hd| 一区一区视频| 精品处破学生在线二十三| www.亚洲天堂.com| 九色在线视频观看| 中文日韩在线观看| 国产高清成人在线| 国产高清成人久久| 国产精品欧美一区二区| 亚洲激情六月丁香| www.中文字幕在线观看| 亚洲一二区在线| 精品久久人人做人人爰| 日韩成人免费在线| 中文字幕12页| 欧美中文在线观看国产| 国产精品成人在线观看| 国产一级做a爰片在线看免费| 欧美成人在线免费观看| 欧美videossexotv100| 日本大胆欧美人术艺术动态| 国产一精品一aⅴ一免费| 国产91色在线| 亚洲成av人综合在线观看| 中文字幕久久熟女蜜桃| 一本大道熟女人妻中文字幕在线| 久久视频在线播放| 国产精品午夜免费| 日本免费观看视| 成年人视频大全| 久久激情视频久久| 日本一区二区三区久久久久久久久不| 日本激情视频一区二区三区| 欧美一区二区综合| 日韩精品在线影院| caoporn国产一区二区| 欧美三级日本三级| 亚洲天堂第一区| 日韩中文字幕亚洲| 日韩一区在线播放| 在线观看中文字幕码| 天堂中文视频在线| 欧美壮男野外gaytube| 精品久久久久久久久国产字幕| av中文字幕免费| 日本中文字幕在线不卡| 91情侣在线视频| 日韩丝袜美女视频| 成人精品小蝌蚪| 久久久久99精品| 国产h视频在线播放| 国内久久久精品| 精品福利在线看| 美女尤物久久精品| 亚洲一区二区自偷自拍 | 成人一级生活片| 欧美激情欧美狂野欧美精品 | 麻豆国产尤物av尤物在线观看| 特级毛片在线免费观看| 久色乳综合思思在线视频| 亚洲美女区一区| 后进极品白嫩翘臀在线视频| 老鸭窝一区二区| 亚洲精品中文综合第一页| 日韩亚洲综合在线| 亚洲图片欧美综合| 丝袜诱惑亚洲看片| 国产传媒免费在线观看| 99色这里只有精品| 国产成人精品久久亚洲高清不卡| 欧美日韩在线播| 丁香六月久久综合狠狠色| 成人免费区一区二区三区| 欧美日韩亚洲自拍| 国产精品12| 在线亚洲国产精品网| 亚洲另类色综合网站| 天堂影院一区二区| 久草免费在线视频观看| 熟妇人妻va精品中文字幕| 91老司机在线| 亚洲性生活视频| 午夜影院在线观看欧美| 韩国精品久久久| 国产一级18片视频| 中文字幕乱码在线人视频| 欧美一区二区三区电影在线观看| 蜜臀久久99精品久久久无需会员| 欧美性生交大片免网| 国产69精品久久久久毛片 | 视频在线一区二区三区| 欧美专区国产专区| 日韩电影中文 亚洲精品乱码| 亚洲欧洲av一区二区三区久久| 久久激情综合| 日本学生初尝黑人巨免费视频| 五月婷婷之婷婷| 亚洲高清在线播放| 国产999精品久久久影片官网| 欧美xxxx在线观看| 亚洲黄色尤物视频| 国产盗摄女厕一区二区三区| 夜夜嗨aⅴ一区二区三区| 伊人网伊人影院| 日日碰狠狠丁香久燥| 欧美在线一二三区| 国产精品露脸自拍| 日韩资源在线观看| 日韩一区二区三区电影| 一区二区三区中文在线观看| 国产精品一级二级三级| av高清一区二区| 久草视频免费播放| 国产黄色三级网站| 久久久久国产精品麻豆ai换脸 | 国产手机视频在线| 日韩欧美国产成人精品免费| 亚洲男人天堂2021| 蜜臀av性久久久久蜜臀av| 国产精品日韩欧美一区二区三区 | 成人av电影免费在线播放| 超碰在线人人干| 日本韩国欧美中文字幕| 欧美日韩国产黄色| 日本高清一区二区视频| 日韩 欧美 视频| 日本a级片久久久| 成人午夜两性视频| 91精品国产免费久久久久久| 国产亚洲精品va在线观看| 777亚洲妇女| 欧美日韩国产色| 国产精品国产精品国产专区不蜜 | 正在播放亚洲1区| 欧美日本在线播放| 欧美日韩亚洲激情| 亚洲理论在线观看| 国产欧美一区二区三区沐欲| 懂色av一区二区夜夜嗨| 蜜臀av一区二区在线免费观看| 国产老妇伦国产熟女老妇视频| 国产精品不卡av| 午夜精品一区二区三区视频| 日本黄色网址大全| 国产人妻精品午夜福利免费| 一区二区三区视频网| 国产男女无遮挡| 777777av| 亚洲va欧美va人人爽| 成人精品国产一区二区4080| 老司机精品视频一区二区三区| 老司机午夜福利视频| 国产欧美综合视频| 伊人免费在线观看| 天天操天天干天天摸| 一区二区三区视频免费看| 午夜精品免费在线观看| 中文字幕在线看高清电影| 亚洲图片 自拍偷拍| 国产一线二线三线在线观看| 国产精品网站免费| 精品人妻少妇一区二区| 国产色一区二区三区| 日韩精品在线中文字幕| 久久久久久久久久伊人| 4444亚洲人成无码网在线观看| 致1999电视剧免费观看策驰影院| 婷婷久久青草热一区二区 | 日韩精品在线免费| 亚洲国产小视频在线观看| 亚洲成年人在线| 国产午夜精品理论片a级探花| 国产丝袜视频一区| 国产一区二区免费| 日韩一区二区在线视频| 久久国产精品偷| 久久99精品久久久久久琪琪| 午夜精品一区二区三区视频免费看| 久久久久久久久国产| 欧美性做爰毛片| 国产精品美女www爽爽爽视频| 国产欧美韩国高清| 亚洲free性xxxx护士hd| 国产高清一区视频| 日韩精品欧美专区| 国产精品夜夜夜爽张柏芝| 香港三级日本三级a视频| 久激情内射婷内射蜜桃| 国产精品沙发午睡系列| 国模私拍视频在线观看| 亚洲av成人片无码| 影音先锋男人看片资源| 自拍偷拍欧美亚洲| 一级特黄aaa大片在线观看| 日本高清视频免费看| 乱一区二区av| 26uuu成人网一区二区三区| 国产精品第四页| 福利二区91精品bt7086| 日韩视频免费观看高清完整版在线观看 | 国产精品我不卡| 一区二区三区四区视频在线 | www.成人黄色| 91精品人妻一区二区三区蜜桃欧美| 北条麻妃在线观看视频| 无码任你躁久久久久久久| 黄色a在线观看| 国产成人av电影免费在线观看| 国产亚洲成年网址在线观看| 女同性恋一区二区| 婷婷久久青草热一区二区| 国自产拍偷拍精品啪啪一区二区| 中文 日韩 欧美| 亚洲一二三四五六区| 日韩精品久久久久久免费| 日本黄色免费视频| www.日韩精品| 久久国产剧场电影| 国产精品亚洲人在线观看| 黑人巨茎大战欧美白妇 | 亚洲不卡1区| 国产精品毛片无遮挡高清| 丰满少妇在线观看资源站| 久久精品人人爽| 性一交一乱一精一晶| 欧美少妇一级片| 制服丝袜日韩国产| av免费观看在线| 亚洲欧洲精品在线| 91成人免费网站| 日韩欧美中文字幕一区二区| 国产精品爽黄69天堂a| 亚洲伊人成人网| 亚洲黄在线观看| 五月天激情丁香| 日韩在线观看网址| 老熟妇仑乱一区二区av| 7m第一福利500精品视频| 国产又粗又猛又黄视频| 55夜色66夜色国产精品视频 | 2020欧美日韩在线视频| 中文字幕精品视频在线观看| 在线视频日韩精品| 欧美精品成人久久| 亚洲精品国产精品久久清纯直播 | 亚洲精品自产拍| 亚洲一区二区三区无码久久| 日韩精品视频在线免费观看| 日韩va亚洲va欧美va清高| 国产一区二区三区精品久久久| 成年人av电影| 最近2019中文字幕第三页视频| 午夜剧场免费在线观看| 亚洲男人7777| 日本一本在线观看| 韩国精品一区二区三区六区色诱| 国产高清免费观看| 亚洲欧美电影一区二区| 亚洲xxxx18| 久久综合色8888| 午夜免费一级片| 欧美本精品男人aⅴ天堂| 5566中文字幕| 国产精品视频免费在线观看| 日本一不卡视频| 日韩欧美精品久久| 色偷偷成人一区二区三区91| 中文 日韩 欧美| 日韩一区二区不卡| 69视频免费看| 精品福利影视| 亚洲图片欧美一区| 在线观看免费观看在线| 免费在线一区二区| 亚洲欧美一区二区三区四区| 久久久久国产精品麻豆| 麻豆影视在线播放| 欧美亚洲另类色图| 国产主播欧美精品| 国外视频精品毛片| 精品网站999www| 欧美本精品男人aⅴ天堂| 性欧美大战久久久久久久久| 欧美激情中文字幕一区二区| 日韩在线视频观看免费| 毛片在线免费视频| 亚洲午夜久久久久久久久红桃| 一区二区在线观看网站|