色综合中文综合网_性猛交娇小69hd_久久精品99久久久久久_欧美日韩精品一区二区三区四区 _97视频色精品_国产高清精品久久久久_日日鲁鲁鲁夜夜爽爽狠狠视频97 _国产成人免费视频精品含羞草妖精 _熟女少妇在线视频播放_精品人妻一区二区三区麻豆91 _久久女同性恋中文字幕_一区二区福利视频

o3-pro答高難題文字游戲引圍觀,OpenAI前員工諷刺蘋果:這都不叫推理那什么叫推理

各大評測榜最新排名也出爐了

西風 發自 凹非寺

量子位 | 公眾號 QbitAI

OpenAI“最新最強版”推理模型o3-pro,實際推理能力到底有多強?

全球首位全職提示工程師Riley Goodside來給它上難度:

說出歌手Sabrina Carpenter的一首歌的歌名,回答這個問題時,每個單詞最后一個字母連起來看,也能對應這首歌名

o3-pro答高難題文字游戲引圍觀,OpenAI前員工諷刺蘋果:這都不叫推理那什么叫推理

結果,o3-pro在經過4分25秒的推理過后,成功給出正確答案。

經Sabrina Carpenter實測,o3只能做對個大概,通常只能把最后幾個字母湊對。

o3-pro答高難題文字游戲引圍觀,OpenAI前員工諷刺蘋果:這都不叫推理那什么叫推理

該測試引來OpenAI前AGI Readiness團隊負責人Miles Brundage的轉發關注。

雖然人已經不在OpenAI了,但Miles Brundage還是替老東家直接開大陰陽蘋果:如果這都不叫推理那什么叫推理。

PS:蘋果前幾天發了個新研究,用漢諾塔等四個小游戲測試大模型,稱推理模型全都沒在真正思考,只是另一種形式的“模式匹配”,所謂思考只是一種假象。

o3-pro答高難題文字游戲引圍觀,OpenAI前員工諷刺蘋果:這都不叫推理那什么叫推理

除了網友實測外,各大評測榜單已陸續同步更新排名。

總結來看,和官方給的測試結果略有不同。

官方測評中,o3-pro超越o3、o1-pro,成為當前最擅長編碼的OpenAI模型。

o3-pro答高難題文字游戲引圍觀,OpenAI前員工諷刺蘋果:這都不叫推理那什么叫推理

而在大模型權威榜單LiveBench上,o3-pro和o3編碼平均得分幾乎無差,o3-pro僅有0.07分的優勢。

智能體編碼平均得分方面,o3-pro甚至大比分落后于o3(31.67 vs 36.67)。

o3-pro答高難題文字游戲引圍觀,OpenAI前員工諷刺蘋果:這都不叫推理那什么叫推理

亞馬遜云科技&谷歌前高管Bindu Reddy表示:

主要是它在智能體這塊不太行,工具使用也不咋擅長。

昨天的大新聞不是o3-pro ,而是o3降價了!!

o3-pro答高難題文字游戲引圍觀,OpenAI前員工諷刺蘋果:這都不叫推理那什么叫推理

另外,針對大模型長上下文理解的基準測試Fiction.LiveBench也放榜了。

o3-pro在較短上下文場景下表現很出色,較o3有所提升。

然鵝,192k超長上下文處理依然是Gemini 2.5 Pro占優勢,Gemini 2.5 Pro得分90.6,而o3-pro僅得分65.6。

o3-pro答高難題文字游戲引圍觀,OpenAI前員工諷刺蘋果:這都不叫推理那什么叫推理

讓人困惑的是,在這個基準測試中,不管是o3-pro還是o3,在16k上下文中分數都下降了,到了32k,兩個模型得分又回到了100。

o3-pro答高難題文字游戲引圍觀,OpenAI前員工諷刺蘋果:這都不叫推理那什么叫推理

除此之外,蘋果&SpaceX前工程師Ben Hylak之前分享o1使用心得,得到不少網友關注,連奧特曼、Brockman都轉發了。

這次o3-pro他同樣沒放過,而且又被奧特曼翻了牌子。

o3-pro答高難題文字游戲引圍觀,OpenAI前員工諷刺蘋果:這都不叫推理那什么叫推理

蘋果&SpaceX前工程師分享使用心得

蘋果&SpaceX前工程師Ben Hylak的分享,好似恰巧解釋了o3-pro的官方測評和各大評測榜單結果有所出入的問題。

o3-pro答高難題文字游戲引圍觀,OpenAI前員工諷刺蘋果:這都不叫推理那什么叫推理

Ben Hylak曾任SpaceX軟件工程師、蘋果VisionOS人機交互設計師,目前在創業為AI產品提供分析服務。

此前o1 pro推出滿血$200/月版本時,Ben Hyla第一天就交了錢,整整測試了一天。

o3-pro答高難題文字游戲引圍觀,OpenAI前員工諷刺蘋果:這都不叫推理那什么叫推理

結果體驗很糟糕,很多人表示同感,但也有人強烈反對。Ben Hylak在與持不同觀點人激烈討論了一番后,意識到自己的使用方法完全錯了。

我還在把o1當聊天模型來用,但o1已經不是聊天模型了。

后來,Ben Hylak從討厭o1轉變成了每天都在用它解決最重要的問題。這件事兒的反轉,讓Ben Hylak測試o3-pro更加用心。

他透露這次自己一周前就已經提前接觸到了3-pro,o3-pro“以不同方式測試,實際體驗會有所不同”。

從經常測評大模型的經驗來看,Ben Hylak認為“模型能力的發揮高度依賴背景信息”,他表示自己目前使用o3關鍵就是:

不把它當聊天對象,而是當作報告生成器。給它背景信息、設定目標,然后讓它自由發揮。

由此,要看出o3-pro的真正實力,得給它多得多的背景信息。然鵝,Ben Hylak手頭的信息素材都快榨干了。于是,Ben Hylak換了種方法:

他和他的聯合創始人Alexis花時間把他們在Raindrop所有歷史會議記錄、目標全翻出來,甚至錄了語音備忘錄,一股腦塞給o3-pro,讓它做規劃。

結果,被o3-pro驚艷到了:

它輸出的計劃精準踩中我們想要的點——目標數據、時間排期、優先級排序,連“必須砍哪些業務”都寫得明明白白。

o3給出的計劃合理、說得通;但o3-pro給出的計劃足夠具體、有依據,真真切切改變了我們對未來的思考方式。

這在評估中很難體現出來。

除此之外,Ben Hylak認為如今的模型在孤立環境下表現已然十分出色,簡單測試難不倒它,真正的挑戰在于將其融入社會。

這種融入主要體現在工具調用方面,即模型與人類、外部數據以及其它AI協作得如何

經測試,Ben Hylak表示o3-pro在這方面有了實實在在的提升——

“它在識別自身所處環境、準確說明可使用的工具、知曉何時需詢問外部世界信息(而非假裝自己掌握相關信息或權限 )以及為任務挑選合適工具等方面,表現都明顯更優。”

下面是展示示例。Ben Hylak讓o3-pro和o3做一個日歷。

o3-pro顯然能更好地理解其所處環境的邊界,明確表示:

在這個聊天窗口中無法顯示實時交互的HTML預覽(我的環境僅支持純文本和代碼片段)

并且給出了要查看渲染后日歷的詳細步驟操作,還描述了用戶將看到的視覺內容。

o3-pro答高難題文字游戲引圍觀,OpenAI前員工諷刺蘋果:這都不叫推理那什么叫推理

相比之下,o3明明做不到還裝能做,表示可以“創建日歷小組件的實時交互預覽”。

下面這個例子,Ben Hylak讓模型找今年關于Borges的Substack文章。

o3-pro同樣明確表示進行實時Substack查詢所需的網頁搜索工具在當前環境未啟用,所以無法直接獲取最新鏈接。

而o3表示搜索了,但沒有找到2025年發布的Borges的Substack文章。

o3-pro答高難題文字游戲引圍觀,OpenAI前員工諷刺蘋果:這都不叫推理那什么叫推理

Ben Hylak還發現,需要給o3-pro提供更多上下文,要是不提供足夠的上下文,它會出現過度思考的情況。

它在分析方面超強,也很擅長借助工具做事,但自己直接動手做事就沒那么在行。我覺得它會是個超棒的協調者。不過,有些ClickHouse SQL相關問題,o3處理得更好。實際效果因人而異。

o3-pro給Ben Hylak帶來的體驗與Claude Opus、Gemini 2.5 Pro相比,都不同。

Ben Hylak認為Claude Opus雖體量龐大,但沒讓他真切感受到這種“大”的獨特價值;而o3-pro的輸出更優,仿佛兩者完全處于不同的競爭維度。

他繼續補充道,OpenAI正沿著強化學習路徑深挖(比如Deep Research、Codex項目),不只是教模型“怎么用工具”,更是教它們“思考何時該用工具”。

最后,Ben Hylak總結認為推理模型的Prompt技巧核心邏輯不變,之前他寫的o1提示指南,現在依然適用o3-pro。

首先,“語境”是一切,就像給“餅干怪獸”喂餅干,精準投喂才有效,它是一種引導大語言模型激活“類記憶能力”的方式,但因為足夠精準,所以效果拔群。

另外,系統提示的影響極大。如今模型的可塑性超強,那些能讓模型“理解自身所處環境與目標”的LLM調教框架,能產生遠超預期的價值。

參考鏈接:
[1]https://www.latent.space/p/o3-pro
[2]https://x.com/Miles_Brundage/status/1932889744306024815
[3]https://x.com/ficlive/status/1932588629768982751
[4]https://x.com/bindureddy/status/1932889892562088086

版權所有,未經授權不得以任何形式轉載及使用,違者必究。
国产日韩欧美夫妻视频在线观看 | 狠狠色2019综合网| 欧美日韩高清在线播放| 91精品国产综合久久久久久丝袜| 国产色一区二区| 青青草原网站在线观看| 国产黑丝一区二区| 国产丝袜一区二区三区免费视频| 成人淫片在线看| 大肉大捧一进一出好爽动态图| 美日韩精品免费观看视频| 极品美女销魂一区二区三区| 亚洲黄色片免费| 欧美一a一片一级一片| 精品视频在线观看一区二区| 91丨九色porny丨蝌蚪| 国产精品日本一区二区 | 久久一区国产| 亚洲性图第一页| 国产日韩精品一区二区三区在线| 久久久综合免费视频| 人妻一区二区三区| 亚洲午夜久久久久久久久电影网 | 成人动漫网站在线观看| 一本大道久久精品懂色aⅴ| 91中文字幕在线视频| 婷婷久久青草热一区二区 | 老司机午夜精品视频| 久久久久亚洲精品| 久久99国产精品久久| 亚洲成人久久久| 亚洲国产成人不卡| 6080午夜伦理| 51精品秘密在线观看| 人妻无码一区二区三区免费| 亚洲欧美在线x视频| 午夜婷婷在线观看| 日本午夜精品一区二区三区| www.久久色.com| 国产成人午夜精品影院观看视频| 国产亚洲第一页| 一区在线电影| 精品婷婷伊人一区三区三| 99sesese| 欧美日韩大陆一区二区| 网站免费在线观看| www.亚洲免费视频| 国产91在线亚洲| 日本黄色大片视频| 亚洲精品美女在线| 国产在线拍揄自揄拍| 精品国产免费久久久久久尖叫 | 日韩美女视频免费看| 久久伊人中文字幕| 日韩av大片在线观看| 少妇欧美激情一区二区三区| 日本午夜精品电影| 久久偷看各类女兵18女厕嘘嘘| 久久字幕精品一区| 亚洲一区 在线播放| 亚洲图片欧美一区| 日本黄色动态图| 91福利精品第一导航| 国产欧美日韩亚洲| 五月天婷婷在线播放| 久久久伊人欧美| 日本美女一区二区三区视频| 欧美色精品天天在线观看视频| 日韩精品在线视频免费观看| 亚洲激情视频在线播放| 成人激情视频网站| 97国产成人无码精品久久久| 国产jizz18女人高潮| 亚洲高清资源综合久久精品| 欧美mv日韩mv亚洲| 日本免费在线观看视频| 久久影院理伦片| 亚洲视频一区在线| 天天操天天摸天天干| 欧美午夜影院一区| 一区二区三区人妻| 国产欧美精品一区aⅴ影院| 欧美日韩午夜爽爽| 韩国国内大量揄拍精品视频| 亚洲欧美日韩一级| 亚洲成人av资源| 亚洲av无码乱码国产麻豆| 青青草原免费观看| 日韩精品无码一区二区| 欧美成人aaa片一区国产精品| 成人黄色a级片| 天天综合五月天| 久久男人av资源网站| 国产精品18久久久久久久久 | 久久九九全国免费精品观看| 波多野结衣久久久久| 成人激情视频在线| 国产成人精品在线播放| 欧美日韩第一区日日骚| 国产一区二区日韩精品| 国产suv一区二区三区| 天天综合色天天| 精品在线免费观看| 美国一级黄色录像| 亚洲欧美日本精品| 亚洲成a天堂v人片| 国精品人妻无码一区二区三区喝尿 | 国产一级在线免费观看| 欧美日韩一区久久| 欧美精品99久久久| 国产乱肥老妇国产一区二 | 欧美特级特黄aaaaaa在线看| 右手影院亚洲欧美| 一区二区不卡在线视频 午夜欧美不卡'| 欧洲亚洲免费视频| 国产精品久久一区| 日本成人三级电影网站| 艳母动漫在线免费观看| 黄瓜视频免费观看在线观看www| 青青草国产精品一区二区| 欧洲视频一区二区| 日本免费在线观看视频| 亚洲成人av免费在线观看| 日韩福利一区二区三区| 中文字幕日本精品| 午夜久久久久久久久久| 97视频在线免费观看| 国产精品一二三在| 久久精品无码人妻| 性高潮久久久久久| 中文网丁香综合网| 亚洲第一网站免费视频| 欧美一区二区视频观看视频| 亚洲超碰精品一区二区| 69av一区二区三区| 3d动漫精品啪啪| 日韩国产欧美区| 国产精品久久久久久av| 国产欧美精品国产国产专区| 肉色丝袜一区二区| 中文字幕一区二区人妻视频| 1024手机在线观看你懂的| 成人免费毛片网| 国内精品中文字幕| 欧美一区二区成人| 日韩www在线| 欧美二区三区的天堂| 国产精品99久久久久久久女警| 91欧美日韩麻豆精品| 男人的午夜天堂| 成人午夜在线视频| 日本强好片久久久久久aaa| www.成人在线| 欧美日韩国产精品一区二区不卡中文 | 日韩经典第一页| 在线看日本不卡| 成人动漫中文字幕| 亚洲av电影一区| 亚洲天堂自拍偷拍| 亚洲精品午夜久久久久久久| 91精品国产91久久久久麻豆 主演| 免费在线一区二区| 91丝袜超薄交口足| 韩国无码av片在线观看网站| 亚洲一区二区三区香蕉| 琪琪第一精品导航| 亚洲精品视频在线播放| 一本色道久久综合亚洲91| 综合欧美亚洲日本| 亚洲成人av一区| 亚洲综合一区在线| 中文字幕网站在线观看| 中文字幕在线看视频国产欧美在线看完整 | 色综合久久精品亚洲国产| 欧美丰满少妇xxxbbb| 日本 国产 欧美色综合| 精品成人无码久久久久久| 精彩视频一区二区三区| 972aa.com艺术欧美| 在线观看一二三区| 亚洲欧美丝袜中文综合| 国产美女一区二区三区| 91n在线视频| 亚洲精品电影在线一区| 亚洲免费av网| 久久丫精品忘忧草西安产品| 中文字幕乱码在线观看| 亚洲一区中文日韩| 欧美激情va永久在线播放| 欧美国产日韩激情| 黄色正能量网站| 国产精品成人免费一区二区视频| 丝袜美腿小色网| 成人午夜视频在线播放| 中文字幕 自拍偷拍| 秋霞影院一区二区| 国产精品亚洲欧美在线播放| 中文字幕在线日亚洲9| 亚洲色图.com| 欧美老女人第四色| 777xxx欧美| 欧美黑人一区二区三区| 视频一区不卡| 国产精品手机播放| 日韩不卡视频一区二区| 不卡的av中文字幕| 亚洲 欧美 日韩 综合| 欧美性xxxx在线播放| 欧美亚洲日本网站| 精产国品一区二区三区| 噜噜噜久久,亚洲精品国产品| 午夜伊人狠狠久久| 色偷偷av一区二区三区乱| 欧美在线欧美在线| 国产精品又粗又长| 免费视频91蜜桃| 久久精品国产亚洲一区二区三区 | 欧美熟妇精品一区二区蜜桃视频| 日韩av一区二区在线影视| 国产欧美日韩视频一区二区| 一本色道久久综合亚洲91| 欧美亚洲国产精品| 黄大色黄女片18第一次| 久草热视频在线观看| 无码人妻一区二区三区在线视频| 国产精品国产av| 久久亚洲捆绑美女| 性色av一区二区三区红粉影视| 天天综合天天添夜夜添狠狠添| 日韩二区三区四区| 日韩午夜三级在线| 欧洲美女免费图片一区| 国产精品青青在线观看爽香蕉 | 欧美成人激情视频免费观看| 韩国日本不卡在线| 日韩欧美国产免费| 亚洲欧洲视频在线观看| 国产精品国产精品国产专区不蜜 | 国产拍揄自揄精品视频麻豆| 久草在线在线精品观看| 亚洲天堂成人网| 欧美激情xxxx性bbbb| 国产小视频精品| 无码国产精品一区二区色情男同| 国产视频丨精品|在线观看| 国产又粗又猛又色| 国产一区不卡视频| 一本色道久久88综合日韩精品| 久久手机免费视频| 亚洲在线观看视频| 熟女俱乐部一区二区| 视频一区 中文字幕| 精品国产福利视频| 欧美v日韩v国产v| 亚洲色图国产精品| 91牛牛免费视频| 中文字幕精品亚洲| 色婷婷综合久久久中文字幕| 午夜精品在线视频| 亚洲人视频在线| 日本aⅴ精品一区二区三区| 欧美酷刑日本凌虐凌虐| 色老综合老女人久久久| 国产欧美日韩伦理| 精品黑人一区二区三区观看时间| 一区二区三区伦理片| 好男人香蕉影院| 中文字幕另类日韩欧美亚洲嫩草| 亚洲天堂自拍偷拍| 香蕉视频免费在线看| 日韩精品乱码av一区二区| 久久99国产精品久久99果冻传媒| 中文字幕精品综合| 欧美日韩精品免费观看视频| 日韩中文在线中文网在线观看| 欧美中文在线观看| 日韩免费av一区二区三区| 日本韩国欧美在线观看| 国产欧美熟妇另类久久久 | 中文字幕精品一区二区三区精品| 91视频com| 欧美日韩中文另类| 日韩国产欧美区| 国产成人精品一区二区| 一级全黄肉体裸体全过程| 国产黑丝一区二区| 中文字幕一区二区三区人妻四季| 国产高清第一页| 国产精选久久久| 久久久久久久久99精品| 日韩一区二区免费在线电影| 日本一区二区在线免费播放| 麻豆亚洲一区| 污污污www精品国产网站| 国产一区二区在线不卡| 久久精品一区二区三区不卡 | 一级特黄a大片免费| 国产精品国产三级国产aⅴ| 国产乱码精品一区二区三| 日本韩国一区二区| 亚洲伊人第一页| 国产av人人夜夜澡人人爽麻豆 | 久久久久久久久艹| 国产精品第6页| 国产精品免费久久| 亚洲精品中文字幕av| 97国产成人精品视频| 日本熟妇人妻xxxx| 国产在线视频你懂的| 99久久久免费精品国产一区二区| 日韩欧美国产一区二区三区| 成人黄色av免费在线观看| 亚洲天堂网一区| 亚洲欧美高清视频| 激情成人在线视频| 国产精品麻豆va在线播放| 无码日本精品xxxxxxxxx| 国产性xxxx| 国产**成人网毛片九色 | 樱桃视频在线观看一区| 一区二区三区免费观看| 久久久免费精品视频| 无遮挡又爽又刺激的视频| 中文字幕 日韩有码| 欧美性极品xxxx娇小| 欧美一级免费看| 午夜诱惑痒痒网| 手机看片1024日韩| 天天色 色综合| 成人9ⅰ免费影视网站| 中文字幕一二三四区| 99精品黄色片免费大全| 久久精品亚洲一区| 日韩一级性生活片| 成人免费视频国产免费麻豆| 欧美久久一区二区| 亚洲成人午夜在线| 亚洲最新av网站| 日韩欧美色综合网站| 日本a在线天堂| 好吊色在线观看| 欧美在线制服丝袜| 波多野结衣亚洲色图| 久久精品女人毛片国产| www.日韩av| 日本成人激情视频| 国产真人做爰视频免费| www.欧美日韩| 91国产丝袜在线播放| 国产精品免费视频一区二区 | 欧美日韩国产精品综合| 一区二区三区欧美日| 97超碰人人澡| 久久先锋影音av鲁色资源| 97超碰色婷婷| 五月天婷婷亚洲| 久久久久久免费毛片精品| 国产精品成人播放| 国产三级精品在线观看| 久久久久久久久久久久av| 日本成人在线免费观看| 久久久不卡影院| 精品欧美国产一区二区三区不卡| 国产小视频免费| 欧美男人亚洲天堂| 日韩av在线一区| 婷婷五月精品中文字幕| 亚洲精品乱码久久久久久日本蜜臀| 欧美三日本三级少妇三99| 久久精品人人| 国产精品十八以下禁看| 中文国产在线观看| 青青草激情视频| 国产精品少妇自拍| 五月天激情综合| 国产91精品久| 精品人妻无码一区二区色欲产成人 | 国产成人精品亚洲精品| 国产精品乱码一区二区| 国产亚洲欧洲高清| 成年人视频软件| 久久艹在线视频| 国产三级av片| 蜜臀久久99精品久久久久久宅男 | 国内老熟妇对白hdxxxx| 又黄又色的网站| 日本中文字幕一级片| 欧美精品中文字幕一区| 亚洲精品中文在线| 国产又黄又粗又长| 成人高清在线观看| 欧美这里有精品| 91高潮大合集爽到抽搐| www国产亚洲精品| 欧美视频中文一区二区三区在线观看| 69xxxx国产| 成人网欧美在线视频| 欧美精品tushy高清| 一级做a爱片久久毛片| 亚洲人成无码网站久久99热国产| 欧美另类z0zxhd电影| 久久久噜噜噜| 久久福利免费视频| 一级全黄肉体裸体全过程| 精品亚洲永久免费精品 | 久久免费精品国产| 成人h在线播放| 精品国产福利在线| 亚洲AV无码国产成人久久| 精品无人乱码一区二区三区的优势|