反超Nano Banana!OpenAI旗艦圖像生成模型上線
Jay 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI
OpenAI的紅色預(yù)警,還在發(fā)力。
憋了大半年的圖像生成模型——GPT-Image-1.5,終于發(fā)布。
官方表示,本次更新主要有四個(gè)亮點(diǎn):
- 更嚴(yán)謹(jǐn)?shù)闹噶钭裱?/li>
- 精確編輯;
- 細(xì)節(jié)保留;
- 速度比以前快4倍。
感覺……這是要全面對(duì)標(biāo)Nano Banana了啊。
目前的玩法也很類似。比如,將汽車顏色改為橙色。

拯救這個(gè)被烤焦的餅。

根據(jù)奶昔架、芝士漢堡等元素,做一個(gè)復(fù)古風(fēng)格的餐館廣告。

指令遵守和精確編輯方面,的確比之前強(qiáng)了不少。
而且今天就能用上了,GPT-Image-1.5將在ChatGPT中面向所有用戶推出,并在API中作為GPT Image 1.5推出。
OpenAI最強(qiáng)圖像生成模型
被谷歌一輪正面「拷打」之后,OpenAI藏了大半年的GPT-Image-1.5,終于憋不住了。
這個(gè)旗艦級(jí)圖像生成模型,主打精準(zhǔn)編輯、細(xì)節(jié)保留,圖像生成速度最高提升4倍。所有改進(jìn),都指向同一個(gè)產(chǎn)品理念——實(shí)用性。
編輯圖像時(shí),GPT-Image-1.5對(duì)指令的遵循更加嚴(yán)謹(jǐn):光照、構(gòu)圖、人物外觀等關(guān)鍵要素,能夠在輸入、輸出及多輪編輯中保持高度一致。
例如:生成一張2000年代膠片相機(jī)風(fēng)格的照片,畫面中兩名男子和一條狗出現(xiàn)在孩子的生日派對(duì)上,神情略顯無聊。

在不改變原始畫面結(jié)構(gòu)的前提下,還可以「加戲」,邀請一群小朋友入鏡搗蛋,整體風(fēng)格與細(xì)節(jié)依然能保持一致。

在圖像風(fēng)格層面,真實(shí)感也有了明顯提升。比如下面這個(gè)Prompt:
拍攝一張20世紀(jì)70年代倫敦切爾西的場景照片,畫面要逼真,所有景物清晰對(duì)焦,人群密集,還有一輛公交車,車身貼著「ImageGen 1.5」的廣告,廣告上印有OpenAI標(biāo)志和「創(chuàng)造你的想象」的副標(biāo)題。整體風(fēng)格像業(yè)余攝影作品,iPhone快照畫質(zhì)……
左邊是新模型,右邊是舊模型,差距還是挺明顯。

即便是更偏創(chuàng)意的任務(wù),同樣能夠穩(wěn)定保留關(guān)鍵信息與人物特征。
根據(jù)這兩位男士的圖片,制作一張名為《Codex》的好萊塢黃金時(shí)代電影海報(bào)。演員姓名改為Wojciech Zaremba(左)和Greg Brockman(右),由奧特曼執(zhí)導(dǎo),菲吉·西莫制片,AGI影業(yè)出品。

創(chuàng)作一張深海生物在不同深度的海報(bào),采用垂直海洋剖面圖,風(fēng)格為精美細(xì)致的日式動(dòng)漫風(fēng)格。

前段時(shí)間,Nano Banana在答題卡上寫「小作文」的能力火爆全網(wǎng)。GPT也能實(shí)現(xiàn)了。
這次,GPT-Image-1.5在文本渲染上進(jìn)步明顯,能夠處理更密集、更小字號(hào)的文字。甚至可以根據(jù)給定資料,直接把GPT-5.2的技術(shù)報(bào)告做出來了。
除了模型能力的升級(jí),產(chǎn)品形態(tài)也隨之調(diào)整。
OpenAI在ChatGPT中新增了專門的圖片板塊,內(nèi)置數(shù)十種濾鏡與Prompt,可通過App側(cè)邊欄或官網(wǎng)直接訪問。
來到Benchmark環(huán)節(jié),自然少不了「秀肌肉」。
評(píng)測機(jī)構(gòu)Artificial Analysis指出,GPT-Image-1.5在文本轉(zhuǎn)圖像和圖像編輯方面中均位列第一,超過Nano Banana Pro。
不過,在更強(qiáng)調(diào)精細(xì)化圖像編輯能力的GenAI Image Editing Showdown中,GPT-Image-1.5仍未能反超谷歌。
但值得注意的是,其指令遵守率高達(dá)90%,斷層式領(lǐng)先。
按照OpenAI的說法,該模型將于今日起面向全球所有ChatGPT用戶與API用戶全面開放。
定價(jià)方面,GPT-Image-1.5的API相較上一代GPT Image 1,輸入與輸出成本整體下降20%。
具體價(jià)格因分辨率而異:
- 高質(zhì)量圖像約為每千張133美元;
- 低質(zhì)量圖像約為每千張9美元。
不得不說,這波谷歌立大功。(doge)
世界理解,還得看香蕉?
「精細(xì)編輯+降價(jià)」,OpenAI這次,看來是鐵了心要把圖像功能推向生產(chǎn)力工具。
新模型發(fā)布后,曾任微軟AI副總裁、現(xiàn)就職于OpenAI的Sebastien Bubeck也第一時(shí)間下場,為GPT-Image-1.5站臺(tái)。
但質(zhì)疑也隨之而來。
有網(wǎng)友指出,GPT-Image-1.5在「理解世界」這一層面,似乎仍不如Nano Banana:
問題太多了。左邊球體中的「線」是由三個(gè)不相連的環(huán)組成,每個(gè)方程式都有錯(cuò)……像是在憑感覺做數(shù)學(xué)題?
對(duì)此,Sebastien Bubeck解釋道:
這只是做著玩的,如果是正式海報(bào),肯定會(huì)在此基礎(chǔ)上迭代。
事實(shí)上,對(duì)GPT-Image-1.5世界理解能力的質(zhì)疑,并非個(gè)例。
AI社區(qū)的知名「內(nèi)部」人士,Jimmy Apples在評(píng)測后直言:
相比上一代提升很大,但不如香蕉聰明。
具體而言,他認(rèn)為:如果只是創(chuàng)意性工作,影響不大;但如果是做PPT,GPT-Image-1.5給出的圖片可能會(huì)有信息錯(cuò)誤。
Nano Banana感覺更像一個(gè)世界模型。
參考鏈接:
[1]https://x.com/ArtificialAnlys/status/2001016199094948185?s=20
[2]https://x.com/SebastienBubeck/status/2001038641469194588?s=20
[3]https://x.com/apples_jimmy/status/2001053915278926228?s=20
[4]https://genai-showdown.specr.net/image-editing
[5]https://openai.com/index/new-chatgpt-images-is-here/
- 小冰之父李笛智能體創(chuàng)業(yè),公司取名Nextie!陸奇是股東2025-12-09
- Meta公開抄阿里Qwen作業(yè),還閉源了…2025-12-11
- 跨境電商的疑難雜癥,被1688這個(gè)AI全包了…2025-12-07
- 谷歌最強(qiáng)大模型付費(fèi)上線,在DeepSeek開源后被吐槽太貴2025-12-05



計(jì)-67-150x150.png)
