StableDiffusion嵌入現實世界,能在墻上直接長出小貓咪,手機可玩
衡宇 發自 凹非寺
量子位 | 公眾號 QbitAI
注意看,你面前是一堵平平無奇的墻。
現在,你可以按照自己的意愿,讓它直接憑空長出點東西來。
比如……一只小貓咪?
沒錯,Stable Diffusion又可以搞新花活了!
這一次的重點在于,Stable Diffusion的觸手擴展到現實世界——和WebAR相結合。
作者是個軟件工程師小哥Stijn Spanhove,經常在推特主頁發些關于WebAR或XR的視頻。
目前,這條憑空長貓的視頻熱度還挺不錯。
新世界的大門打開,有網友對AR+SD的興趣更濃了:
還有人說:
這簡直就是《反恐精英》一個酷斃了的新版本啊!
一起來看看這個有點酷的新東西吧~
SD與AR一起玩
首先,拿起手機,然后隨意選擇一堵墻,透過屏幕界面鎖定它:
選定一塊心儀區域,把它圈起來,全部涂黑。
輸入提示詞:
一只可可愛愛的小貓咪,涂鴉風格,數字藝術
接著點擊輸入框下方的Diffusion按鈕,直接快進到見證奇跡的時刻。
此時,無論從哪個角度看,墻上都有一幅《喵娜麗莎》在微笑地看著你了。
這個視頻,是小哥利用火到沒邊、門檻又低的Stable Diffusion,結合WebAR,搞出的第一個實驗產品。
他在評論區和圍觀網友討論了具體的工作流程。
第一步,凍結幀,把它作為生成圖像的表面紋理,并讓它擁有世界定位和設備跟蹤相機。
第二步,向服務器發送API請求,并附上凍結幀(圖像)和文本提示(Stable Diffusion)。
整個工作中,將Stable Diffusion嵌入現實世界是利用AR完成的。
關于繪制紋理,小哥則使用了Raycast(一款完全可擴展的快捷啟動器)。
整個過程簡單利落,引發了網友新的思考。
目前有很多有趣的NPU(嵌入式神經網絡處理器)硬件,手機的共享內存也超過12GB。
在這個前提下,如果Stable Diffusion和AR一起玩這個工作能在本地運行,并且能夠快到在類似的請求時間內,完成整個512×512圖像生成,并在更快的AI上運行升級,一定非常有趣。
小哥自己也說,這個工作只是初嘗試,一切只是Stable Diffusion和AR結合的開始。
但大多數網友覺得這已經是個很有趣的工作了,甚至想在上面“亂涂亂畫”好幾個小時。
AIGC打破次元壁
Stable Diffusion的風吹進現實世界,絕不是小哥一個人的想法。
具體的操作流程,基本都是在原基礎上用AR加持。
就在這幾天,另一位小哥用Stable Diffusion,搞了個視頻透視式光學透視式眼鏡。
(擱這兒疊buff呢?)
具體來說,就是小哥用Stable Diffusion做了個虛擬的AR眼鏡,然后在手機屏幕上透過眼鏡鏡片,實現AR效果。
生成的虛擬AR眼睛不僅有電量提示,透過它看現實,能呈現西部世界、叢林、異形等多種畫面風格。
此外,還有人結合Meta旗下的AR創作工具Spark AR,利用Stable Diffusion,假裝自己手握了一個方塊小卡片。
就是上面還能播放動畫的那種。
為了達到逼真效果,作者還在卡片表面疊了一個反光圖層,讓卡片呈現的光澤“像玻璃杯一樣”。
不過,這次的Stable Diffusion產出的圖像不是實時生成,而是事先錄制的,因為當下的Spark AR版本還不支持AI和ML。
“Very Nice,通過Stable Diffusion,AI和AR再一次緊密相連了。”
不管怎么說,Stable Diffusion這么火,不僅靠的是跑出來的驚人結果,觸及文本生成圖像以外的領域時,實力也很強勁呀~
參考鏈接:
[1]https://twitter.com/stspanho/status/1581707753747537920
[2]https://twitter.com/ThoseSixFaces/status/1581606079380672512
[3]https://twitter.com/sergeyglkn/status/1580167837770870784
- 讀懂2025中國AI走向!公司×產品×人物×方案,最值得關注的都在這里了2025-12-10
- ToC智能體火得快,但更大的價值在企業丨中關村科金@MEET20262025-12-12
- 誤入人均10個頂級offer的技術天團活動,頂尖AI人才的選擇邏輯我悟了2025-12-04
- DeepSeek-V3.2系列開源,性能直接對標Gemini-3.0-Pro2025-12-01



