訓練成本降低16倍,極限壓縮42倍!開源文本生成圖片模型

原文來源:AIGC開放社區

圖片來源:由無界AI‌ 生成

Stable Diffusion是目前最強開源文本生成圖片的擴散模型之一,但對於那些沒有A100、H100的中小企業、個人開發者來說有一個很大缺點,需要花費高昂的訓練成本。

為了解決這一痛點,Wuerstchen開源模型採用了一種全新的技術架構,在保證圖片質量的情況下實現了42倍極限壓縮。 以512x512尺寸的訓練圖片為例,Stable Diffusion1.4需要150,000小時的GPU訓練時間,而Wuerstchen僅需要9,000小時,訓練成本降低了16倍

即便是圖片分辨率高達1536,Wuerstchen也只需要24,602小時,訓練成本仍然比Stable Diffusion便宜6倍

所以,該開源產品有利於那些沒有龐大算力的開發者去嘗試擴散模型,同時可以在此基礎之上探索更好的訓練方法。

開源地址:

github:

論文:

Wuerstchen簡單介紹

Wuerstchen擴散模型採用了一種,在圖像的高度壓縮的潛在空間中的工作方法。這也是其訓練成本比Stable Diffusion低的原因之一。

壓縮數據可以將訓練和推理的成本減少幾個數量級。例如,在1024×1024的圖像上訓練肯定要比32×32上訓練貴得多。通常業內採用的壓縮範圍在4—8倍左右。

Wuerstchen通過全新的技術架構將壓縮發揮到極限,實現了42倍空間壓縮,這是史無前例的技術突破! 因為一旦超過16倍壓縮,普通方法根本無法實現圖片的重建

Wuerstchen極限壓縮原理

Wuerstchen的極限壓縮方法分為A、B、C三個階段:A階段)進行初始訓練,並採用向量量化生成對抗網絡(VQGAN) 來創建離散化潛在空間,將數據映射到一個預定義的、較小的集合中的點,這種緊湊的表示形式有助於模型學習和推理速度;

B階段)進一步壓縮,使用一個編碼器將圖像投影到一個更加緊湊的空間,和一個解碼器試圖從編碼的圖像中重建VQGAN的潛在表達。

並使用了基於Paella模型的標記預測器來完成這個任務。該模型是在編碼圖像的表示的條件下進行的,可以使用更少的採樣步驟數量進行訓練,這對於提升算力效率幫助巨大。

C阶段)使用A、B的图像编码器将图像投射到紧凑的潜在空间,训练一个文本条件的潜在扩散模型,并显著减少空间维度。这个离散的潜在空间允许模型生成,更具有多样性和创新性的图像,同时还保留了图片的高质量特征。

Wuerstchen可以生成的圖片尺寸

Wuerstchen接受了1024x1024 和1536x1536分辨率之間的圖像訓練數據,輸出的圖片質量非常穩定。即便是1024x2048這樣的非對等圖片,同樣可以得到很好的效果。

開發者還發現,Wuerstchen對新分辨率圖片的訓練適應能力非常強,在2048x2048分辨率圖片下進行數據微調,同樣能極大降低成本。

Wuerstchen生成圖片展示

根據Wuerstchen展示的案例,該模型對文本的理解能力非常好,生成的質量效果也能媲美Stable Diffusion等目前最強開源擴散模型。

一隻穿著白大褂的鷹的真實照片

兩名星球大戰裡的衝鋒隊員,坐在酒吧里喝啤酒

蜜蜂打扮成宇航員的高度真實照片

一隻戴著黑色禮貌的老鼠

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)