用AI指揮另一個AI,GAN+CLIP的組合成了“CG藝術家”
輸入“虛幻引擎”4個字,GAN就打了雞血
夢晨 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
嫌棄GAN生成的圖像不夠炫酷?
不需要改變數據集,只需要給CLIP下達的命令中把“虛幻引擎”幾個字加上,再讓CLIP去指揮GAN,圖像就立馬變成了高大上的CG藝術風。
文字中加入虛幻引擎這個技巧,最早由Aran Komatsuzaki發在推特上,吸引了大量CV圈的人來圍觀。
后來有人把這套流程發在了Colab上,網友們都玩瘋了。
還可以指定成“彩色鉛筆風格”
或者“吉卜力風格”:
最絕的是,加上“3D photo inpainting”竟然可以生成立體構圖。
CLIP是OpenAI開發的一個負責給圖像重排序的模型,它與GAN合作的方式也很簡單。
先用一張平平無奇的隨機圖案作為種子,像這種:
像這樣讓CLIP算出其與文字描述的相似度打分,然后反饋給GAN,讓GAN以提升分數為目標不斷迭代。
AI藝術家組合就這么出現了。
除了在提示中加入風格要求之外,還可以直接告訴AI一個人名,看看在AI眼中他們長啥樣。
甚至能用來猜猜那些從未露面的大佬們,比如神秘的比特幣之父中本聰。
這就是AI心目中的中本聰,不管你信不信,反正我是信了。
在線試玩
VQGAN+CLIP在Colab上有很多版本,我們經過對比選擇了一個加入額外優化和池化技巧,在速度和質量上都比較出色的一個(鏈接在文章末尾)。
第1步和第2步,按順序執行就好。
第3步,選擇使用的模型,默認的是用ImageNet訓練的。
第4步設置參數,一般情況下只需要在texts里填上要生成的內容,用“|”分隔。
width和height控制生成圖像的分辨率,model可以選擇使用的模型(需要在第3步中下載)。
改變seed的數字可以更換隨機圖像種子。
另外還可以在init_image處指定一張初始圖片,需要把圖片上傳到Colab環境里再填入鏈接。
比如,有人使用這樣一張圖片作為圖像種子,開發了新玩法:生成寶可夢。
第五步執行,300*300分辨率的圖迭代500次只需要幾分鐘。
最后,還可以把生成的過程合成為視頻。
就是這么簡單,快來試試吧。
在線試玩:
https://colab.research.google.com/drive/1ZAus_gn2RhTZWzOWUpPERNC0Q8OhZRTZ
VQGAN:
https://github.com/CompVis/taming-transformers
CLIP:
https://openai.com/blog/clip/
參考鏈接:
[1]https://twitter.com/arankomatsuzaki/status/1399471244760649729
[2]https://twitter.com/92C8301A/status/1408795789766365187
[3]https://twitter.com/ak92501
[4]https://twitter.com/casvaIuir/status/1408394829218914305
- GPT-5.2果然反超谷歌Gemini 3 Pro!北大數院校友核心貢獻2025-12-12
- 釘釘又發新版本!把 AI 搬進每一次對話和會議2025-12-11
- 英偉達自毀CUDA門檻!15行Python寫GPU內核,性能匹敵200行C++2025-12-08
- GPT-5-Thinking新訓練方法公開:讓AI學會懺悔2025-12-04




