包漿網圖分分鐘變高清,偽影去除、細節恢復更勝前輩AI,下載可玩|騰訊ARC實驗室出品
湯曉鷗弟子一作。
下面來欣賞一些高糊圖片“整個世界都清晰了”的魔法時刻:
無論是動漫還是真實圖像,是不是都清晰還原了?
以上就是由騰訊ARC實驗室最新發表的圖像超分辨率模型完成的。
與前人工作相比,它可以更有效地消除低分辯率圖像中的振鈴和overshoot偽影;
面對真實風景圖片,能更逼真地恢復細節,比如樹枝、巖石、磚塊等。
除了上面這些官方的demo,我們也試了一下,效果還比較滿意:
如果你也想試試,可在GitHub上下載該模型的可執行文件,Windows/Linux/MacOS都可以,且不需要CUDA或PyTorch的支持。
下好以后只需在終端執行以下命令即可使用:
./realesrgan-ncnn-vulkan.exe -i input.jpg -o output.png
基于ESRGAN的改進研究
這個模型被命名為Real-ESRGAN,總的來說,就是通過模擬高分辨率圖像變低分辯率過程中的各種退化,然后看到一張糊圖后倒推出來它的高清圖。
而它是對超分“前輩”ESRGAN的進一步研究。
ESRGAN曾贏得ECCV2018 PIRM-SR挑戰賽中的第一名,但它在恢復具有未知和復雜退化(degradation)的低分辨率圖像方面,也就是盲超分辨率(Blind Super-Resolution)上做的還不夠好。
而相比ESRGAN,Real-ESRGAN使用合成數據進行訓練,引入了高階退化建模以更全面逼真地模擬復雜的圖像退化,重點考慮了合成過程中常見的振鈴和overshoot偽影。
還采用了一個具有譜歸一化(Spectral Normalization)的U-Net鑒別器,來提高鑒別器的性能并穩定訓練過程,最終實現了“青出于藍勝于藍”的效果。
下面就進入具體原理講解:
通常情況下,真實圖像y首先與模糊核(blur kernel)k進行卷積,然后執行具有比例因子r的下采樣操作,通過添加噪聲n獲得低分辨率圖像x。一般還得再加個JPEG壓縮,即:
而獲得高清圖像的過程就是求解y的過程(其中D表示退化過程)。
然而只采用這一經典的退化模擬,訓練后的模型只能處理部分圖像,更復雜的退化(尤其是未知噪聲和某些偽影)仍無法解決:
所以研究人員就引出了高階退化過程來模擬出更真實全面的退化,它包含多個重復的經典退化過程,每個又具有不同的退化超參:
下圖為Real-ESRGAN進行退化模擬的示意圖:
采用的是二階退化,具體來說:
- 在模糊(blur)退化方面,為了包含更多不同的核形狀,Real-ESRGAN采用了廣義高斯模糊核和plateau-shaped分布。
- 降噪(noise)方面,除了顏色噪聲和灰度噪聲,還模擬了兩種常見類型:
(1)加性高斯噪聲:其噪聲強度受高斯分布標準差控制;
(2)泊松噪聲:其噪聲強度與圖像信息成正比。
- resize也就是經典退化模擬里的下采樣,在這里為了產生更多模糊圖像,就改成了上采樣+下采樣的組合操作。resize方法中,由于最近鄰插值會導致錯位,最后就只考慮了面積、雙線性和雙三次插值。
- JPEG壓縮,能帶來塊偽影。下圖為OpenCV與DiffJPEG的壓縮效果對比,Real-ESRGAN采用的是DiffJPEG。
而在Real-ESRGAN重點關注的偽影方面:
主要針對非常常見的振鈴偽影(下圖左1左2,看起來像“鬼影”)和overshoot偽影(下圖右2右1,看起來像“鋸齒”)。
采用了sinc濾波器來模擬這兩者 :
以上,退化模擬搞定后,就可以開始訓練了。
Real-ESRGAN的生成器沿用了ESRGAN的RRDBNet,還擴展了原始的×4 ESRGAN架構,以執行resize比例因子為×2和×1的超分辨率放大。
判別器則由VGG型升級為U-Net型,以具備更強的判別能力,處理復雜的輸出以及生成關于局部紋理的精確梯度反饋。
另外,U-Net架構和復雜的退化給訓練帶來了不穩定性,為此,還采用了譜歸一化來穩定模型訓練,這也有助于緩解GAN帶來的過度銳化以及偽影。
去除偽影、恢復紋理細節的效果優于其他方法
最終可以看到,Real-ESRGAN在去除偽影和恢復紋理細節方面都明顯優于以前的方法:
消融實驗也發現采用二階退化模型的效果最好、通過sinc濾波器的可以跟好地去除偽影、SN+UNet的組合取得了最佳的視覺效果、引入更多的模糊核,模型效果還可以進一步提升(分別對應下面四組圖):
當然,他們也發現三個表現不夠好的效果,比如線條扭曲、出現了其他偽影。
總而言之,作者表示:盲圖像超分仍處于初步探索階段,之前的BSRGAN以及本文的Real-ESRGAN可為該領域提供一個非常好的基線。
團隊介紹
Wang Xintao,畢業于浙江大學本科,香港中文大學博士(師從湯曉鷗),現在是騰訊ARC實驗室(深圳應用研究中心)的研究員。研究興趣集中在圖像/視頻的超分辨率恢復。ESRGAN的一作。
謝良彬 ,中國科學院深圳先進技術研究所碩士一年級學生,師從董超教授。
董超,中國科學院深圳先進技術研究院碩導,畢業于北理工本科,香港中文大學博士。曾任商湯科高級研究經理,谷歌學術引用14416次,h指數22。
單瀛,騰訊PCG應用研究中心(ARC)主任。
論文地址:
https://arxiv.org/abs/2107.10833
Colab試玩地址:
https://colab.research.google.com/drive/1k2Zod6kSHEvraybHl50Lys0LerhyTMCo?usp=sharing#scrollTo=7IMD5vhOYp68
GitHub項目地址:
https://github.com/xinntao/Real-ESRGAN
- 北大開源最強aiXcoder-7B代碼大模型!聚焦真實開發場景,專為企業私有部署設計2024-04-09
- 剛剛,圖靈獎揭曉!史上首位數學和計算機最高獎“雙料王”出現了2024-04-10
- 8.3K Stars!《多模態大語言模型綜述》重大升級2024-04-10
- 谷歌最強大模型免費開放了!長音頻理解功能獨一份,100萬上下文敞開用2024-04-10




