反超Nano Banana！OpenAI旗艦圖像生成模型上線

Jay 2025-12-17 10:25:43 來源：量子位

Jay 發(fā)自凹非寺量子位 | 公眾號(hào) QbitAI

OpenAI的紅色預(yù)警，還在發(fā)力。

憋了大半年的圖像生成模型——GPT-Image-1.5，終于發(fā)布。

官方表示，本次更新主要有四個(gè)亮點(diǎn)：

更嚴(yán)謹(jǐn)?shù)闹噶钭裱?/li>
精確編輯；
細(xì)節(jié)保留；
速度比以前快4倍。

感覺……這是要全面對(duì)標(biāo)Nano Banana了啊。

目前的玩法也很類似。比如，將汽車顏色改為橙色。

拯救這個(gè)被烤焦的餅。

根據(jù)奶昔架、芝士漢堡等元素，做一個(gè)復(fù)古風(fēng)格的餐館廣告。

指令遵守和精確編輯方面，的確比之前強(qiáng)了不少。

而且今天就能用上了，GPT-Image-1.5將在ChatGPT中面向所有用戶推出，并在API中作為GPT Image 1.5推出。

OpenAI最強(qiáng)圖像生成模型

被谷歌一輪正面「拷打」之后，OpenAI藏了大半年的GPT-Image-1.5，終于憋不住了。

這個(gè)旗艦級(jí)圖像生成模型，主打精準(zhǔn)編輯、細(xì)節(jié)保留，圖像生成速度最高提升4倍。所有改進(jìn)，都指向同一個(gè)產(chǎn)品理念——實(shí)用性。

編輯圖像時(shí)，GPT-Image-1.5對(duì)指令的遵循更加嚴(yán)謹(jǐn)：光照、構(gòu)圖、人物外觀等關(guān)鍵要素，能夠在輸入、輸出及多輪編輯中保持高度一致。

例如：生成一張2000年代膠片相機(jī)風(fēng)格的照片，畫面中兩名男子和一條狗出現(xiàn)在孩子的生日派對(duì)上，神情略顯無聊。

在不改變原始畫面結(jié)構(gòu)的前提下，還可以「加戲」，邀請一群小朋友入鏡搗蛋，整體風(fēng)格與細(xì)節(jié)依然能保持一致。

在圖像風(fēng)格層面，真實(shí)感也有了明顯提升。比如下面這個(gè)Prompt：

拍攝一張20世紀(jì)70年代倫敦切爾西的場景照片，畫面要逼真，所有景物清晰對(duì)焦，人群密集，還有一輛公交車，車身貼著「ImageGen 1.5」的廣告，廣告上印有OpenAI標(biāo)志和「創(chuàng)造你的想象」的副標(biāo)題。整體風(fēng)格像業(yè)余攝影作品，iPhone快照畫質(zhì)……

左邊是新模型，右邊是舊模型，差距還是挺明顯。

即便是更偏創(chuàng)意的任務(wù)，同樣能夠穩(wěn)定保留關(guān)鍵信息與人物特征。

根據(jù)這兩位男士的圖片，制作一張名為《Codex》的好萊塢黃金時(shí)代電影海報(bào)。演員姓名改為Wojciech Zaremba（左）和Greg Brockman（右），由奧特曼執(zhí)導(dǎo)，菲吉·西莫制片，AGI影業(yè)出品。

創(chuàng)作一張深海生物在不同深度的海報(bào)，采用垂直海洋剖面圖，風(fēng)格為精美細(xì)致的日式動(dòng)漫風(fēng)格。

前段時(shí)間，Nano Banana在答題卡上寫「小作文」的能力火爆全網(wǎng)。GPT也能實(shí)現(xiàn)了。

這次，GPT-Image-1.5在文本渲染上進(jìn)步明顯，能夠處理更密集、更小字號(hào)的文字。甚至可以根據(jù)給定資料，直接把GPT-5.2的技術(shù)報(bào)告做出來了。

除了模型能力的升級(jí)，產(chǎn)品形態(tài)也隨之調(diào)整。

OpenAI在ChatGPT中新增了專門的圖片板塊，內(nèi)置數(shù)十種濾鏡與Prompt，可通過App側(cè)邊欄或官網(wǎng)直接訪問。

來到Benchmark環(huán)節(jié)，自然少不了「秀肌肉」。

評(píng)測機(jī)構(gòu)Artificial Analysis指出，GPT-Image-1.5在文本轉(zhuǎn)圖像和圖像編輯方面中均位列第一，超過Nano Banana Pro。

不過，在更強(qiáng)調(diào)精細(xì)化圖像編輯能力的GenAI Image Editing Showdown中，GPT-Image-1.5仍未能反超谷歌。

但值得注意的是，其指令遵守率高達(dá)90%，斷層式領(lǐng)先。

按照OpenAI的說法，該模型將于今日起面向全球所有ChatGPT用戶與API用戶全面開放。

定價(jià)方面，GPT-Image-1.5的API相較上一代GPT Image 1，輸入與輸出成本整體下降20%。

具體價(jià)格因分辨率而異：

高質(zhì)量圖像約為每千張133美元；
低質(zhì)量圖像約為每千張9美元。

不得不說，這波谷歌立大功。（doge）

世界理解，還得看香蕉？

「精細(xì)編輯+降價(jià)」，OpenAI這次，看來是鐵了心要把圖像功能推向生產(chǎn)力工具。

新模型發(fā)布后，曾任微軟AI副總裁、現(xiàn)就職于OpenAI的Sebastien Bubeck也第一時(shí)間下場，為GPT-Image-1.5站臺(tái)。

但質(zhì)疑也隨之而來。

有網(wǎng)友指出，GPT-Image-1.5在「理解世界」這一層面，似乎仍不如Nano Banana：

問題太多了。左邊球體中的「線」是由三個(gè)不相連的環(huán)組成，每個(gè)方程式都有錯(cuò)……像是在憑感覺做數(shù)學(xué)題？

對(duì)此，Sebastien Bubeck解釋道：

這只是做著玩的，如果是正式海報(bào)，肯定會(huì)在此基礎(chǔ)上迭代。

事實(shí)上，對(duì)GPT-Image-1.5世界理解能力的質(zhì)疑，并非個(gè)例。

AI社區(qū)的知名「內(nèi)部」人士，Jimmy Apples在評(píng)測后直言：

相比上一代提升很大，但不如香蕉聰明。

具體而言，他認(rèn)為：如果只是創(chuàng)意性工作，影響不大；但如果是做PPT，GPT-Image-1.5給出的圖片可能會(huì)有信息錯(cuò)誤。

Nano Banana感覺更像一個(gè)世界模型。

參考鏈接：
[1]https://x.com/ArtificialAnlys/status/2001016199094948185?s=20
[2]https://x.com/SebastienBubeck/status/2001038641469194588?s=20
[3]https://x.com/apples_jimmy/status/2001053915278926228?s=20
[4]https://genai-showdown.specr.net/image-editing
[5]https://openai.com/index/new-chatgpt-images-is-here/

版權(quán)所有，未經(jīng)授權(quán)不得以任何形式轉(zhuǎn)載及使用，違者必究。

Jay

小冰之父李笛智能體創(chuàng)業(yè)，公司取名Nextie！陸奇是股東2025-12-09
Meta公開抄阿里Qwen作業(yè)，還閉源了…2025-12-11
跨境電商的疑難雜癥，被1688這個(gè)AI全包了…2025-12-07
谷歌最強(qiáng)大模型付費(fèi)上線，在DeepSeek開源后被吐槽太貴2025-12-05

反超Nano Banana！OpenAI旗艦圖像生成模型上線

OpenAI最強(qiáng)圖像生成模型

世界理解，還得看香蕉？

熱門文章

樂奇Rokid這一年，一路狂飆不回頭

谷歌智能體發(fā)力：增強(qiáng)版Gemini Deep Research和專屬API都來了

九章云極獨(dú)攬量子位三項(xiàng)大獎(jiǎng)：以“一度算力”重構(gòu)AI基礎(chǔ)設(shè)施云格局

中國機(jī)器人比賽應(yīng)急救援，美國網(wǎng)友Reddit破防：我們還在給機(jī)器狗化妝拍段子

釘釘又發(fā)新版本！把 AI 搬進(jìn)每一次對(duì)話和會(huì)議