Stable Diffusion還能壓縮圖：比JPEG更小更清楚，但千萬別試人臉

發(fā)布日期：2022-10-28 作者：康為點擊：

Alex 發(fā)自凹非寺

量子位 | 公眾號 QbitAI

免費開源的Stable Diffusion又被玩兒出了新名堂：

此次是被用來壓縮

。

Stable Diffusion不單能把同一張原圖縮到更小，況且體現(xiàn)還肉眼因此地優(yōu)于JPEG和WebP。

針對同一張原圖，Stable Diffusion壓縮出去的圖片不單有更多細節(jié)，況且壓縮偽影也變少了。

但用Stable Diffusion來壓縮圖的軟件工程師Matthias Bühlmann（我們就稱他MB哥吧）也指出，這類方法也有顯著的限于性。

由于這不太善于解決人臉和文字等，偶爾乃至會在解碼擴展回去后，幻化出原圖中不存在的特點。

例如像如此（成效能夠讓人嚇一跳）：

△左為原圖，右為Stable Diffusion壓縮再擴展的形成圖

但是，話說回來——Stable Diffusion是怎樣壓縮

的？

要講清晰Stable Diffusion如何壓縮

，不妨從Stable Diffusion的許多首要工作原理講起。

Stable Diffusion是一類特殊的擴散模型，叫作潛在擴散（Latent Diffusion）。

和規(guī)范擴散（Standard Diffusion ）不同，潛在擴散在維度過低的隱空間（Latent Space）上進行擴散流程，而不應(yīng)用實際的像素空間。

也就是說，隱空間的表示結(jié)果是許多辨別率過低的壓縮圖，但是這類圖有很高的準確度。

這里說一下，圖片的辨別率和精度是兩回事兒。辨別率是表示一張圖信息量多少的屬性，而精度是反映結(jié)果與真值靠近水平的量。

就拿這個駱駝的大頭照來舉例：原圖大小768KB，辨別率為512×512，精度為3×8位。

用Stable Diffusion壓縮到4.98KB后，辨別率減小為64×64，而精度反而提高到4×32位了。

因此看起來，Stable Diffusion的壓縮圖和原圖相比，差異不大。

假設(shè)再進一步詳細而言的話，Stable Diffusion這類潛在擴散模型有3個首要構(gòu)成部份：

VAE （Variational Auto Encoder，變分自編碼器），U-Net，和文本編碼器（Text-encoder）。

但是在這項壓縮圖片的測試中，文本編碼器沒什么用。

闡揚首要功效的還是VAE，它由兩部份構(gòu)成：1個編碼器和1個解碼器。

因此，VAE能夠?qū)⒁粡垐D從圖片空間中，編碼再解碼獲得許多潛在空間表示（Latent space representation）。

MB哥發(fā)掘，VAE的解碼性能針對量化潛在表示來說，體現(xiàn)十分安穩(wěn)。

通過縮放、拖拽和從新映照，將潛在表示從浮點量化為8位無符號整數(shù)，就能夠獲得不如何失真的壓縮圖了：

首先將latents量化為8位無符號整數(shù)，這時圖片大小為64×64×4×8Bit=16 kB（原圖大小512×512×3×8Bit=768 kB）。

接著再應(yīng)用調(diào)色板（Palette）和顫動（Dither），進一步使信息放大到5kB，同時還提升了圖片的復原度。

成為一位謹嚴的程序員，MB哥除了通過肉眼觀測，還對圖片品質(zhì)進行了信息解析。

但是，從圖片品質(zhì)評價的兩項首要指標PSNR（峰值信噪比）和SSIM（構(gòu)造類似性）來看，Stable Diffusion的壓縮結(jié)果并沒有比JPG和WebP好到哪兒去。

此外，當把潛在表示從新解碼擴展到原圖辨別率時，固然圖片的首要特點仍舊因此，但VAE也會將高辨別率的特點給予這類像素值。

用大文言講，就是重建的圖片通常和原圖不同樣，里面攙雜了許多新形成的“鬼畜”特點。

讓咱們再來回首一下這張圖：

固然用Stable Diffusion來壓縮圖的確還存在許多問題，但用MB哥的話來說，其成效還是很冷艷的，十分有成長出路。

如今MB哥已然把有關(guān)代碼放到了Google Colab上，感興致的同伙能夠認真看看~

傳送門https://colab.research.google.com/drive/1Ci1VYHuFJK5eOX9TB0Mq4NsqkeDrMaaH?usp=sharing考慮鏈接：[1]https://arstechnica.com/information-technology/2022/09/better-than-jpeg-researcher-discovers-that-stable-diffusion-can-compress-images/[2]https://matthias-buehlmann.medium.com/stable-diffusion-based-image-compresssion-6f1f0a399202[3]https://huggingface.co/blog/stable_diffusion

— 完 —

量子位 QbitAI · 頭條號簽約

關(guān)心咱們，第一時間獲知前端科技動態(tài)

新聞分類