Eğitim maliyeti 16 kat azalır ve nihai sıkıştırma 42 kat olur! Açık kaynak metin oluşturma görüntü modeli

Orijinal kaynak: AIGC Açık Topluluğu

Resim kaynağı: Sınırsız Yapay Zeka tarafından oluşturulmuştur

Stabil Difüzyon şu anda en güçlü açık kaynaklı metin tabanlı görüntü yayma modellerinden biridir, ancak küçük ve orta ölçekli işletmeler ve A100 veya H100'e sahip olmayan bireysel geliştiriciler için yüksek eğitim maliyetleri gerektiren büyük bir dezavantaja sahiptir.

Bu sıkıntılı noktayı çözmek için Wuerstchen açık kaynak modeli, görüntü kalitesini garanti ederken 42 kat daha yüksek sıkıştırma elde etmek için yeni bir teknik mimariyi benimser. ** 512x512 boyutundaki eğitim görselini örnek alırsak, Stable Diffusion1.4 150.000 saatlik GPU eğitim süresi gerektirirken Wuerstchen yalnızca 9.000 saat gerektirir ve eğitim maliyeti 16 kat azalır**.

Görüntü çözünürlüğü 1536 kadar yüksek olsa bile Wuerstchen yalnızca 24.602 saat gerektirir ve eğitim maliyeti yine de Stabil Difüzyondan 6 kat daha ucuzdur.

Dolayısıyla bu açık kaynaklı ürün, çok büyük bilgi işlem gücüne sahip olmayan geliştiricilerin difüzyon modelini denemesine olanak tanır ve aynı zamanda bu temelde daha iyi eğitim yöntemleri keşfedebilirler.

Açık kaynak adresi:

Github:

kağıt:

Wuerstchen'e kısa bir giriş

Wuerstchen yayılma modeli, görüntünün yüksek oranda sıkıştırılmış gizli alanında çalışan bir yöntemi benimser. Eğitim maliyetinin Kararlı Difüzyondan daha düşük olmasının nedenlerinden biri de budur.

Verilerin sıkıştırılması, eğitim ve çıkarım maliyetini büyük ölçüde azaltabilir. Örneğin 1024×1024 görseller üzerinde eğitim almak, 32×32 görseller üzerinde eğitim almaktan kesinlikle çok daha pahalıdır. Genellikle endüstride kullanılan sıkıştırma aralığı yaklaşık 4-8 katıdır.

Ve Wuerstchen, yepyeni bir teknik mimari aracılığıyla sıkıştırmayı en uç noktalara taşıdı ve 42 kat alan sıkıştırması elde etti, bu benzeri görülmemiş bir teknolojik atılımdır! Çünkü sıkıştırma 16 katı aştığında sıradan yöntemler görüntünün yeniden oluşturulmasını hiçbir şekilde sağlayamaz.

Wuerstchen aşırı sıkıştırma ilkesi

Wuerstchen'in aşırı sıkıştırma yöntemi üç aşamaya ayrılmıştır: A, B ve C: Aşama A) ilk eğitimi gerçekleştirir ve ayrıklaştırılmış bir gizli alan oluşturmak ve verileri bir veri kümesine eşlemek için vektör nicemleme üretken çekişmeli ağı (VQGAN) kullanır önceden ayarlanmış Noktaların tanımlanmış, daha küçük bir kümedeki bu kompakt temsili, model öğrenimine ve çıkarım hızına yardımcı olur;

Aşama B), görüntüyü daha kompakt bir alana yansıtmak için bir kodlayıcı ve kodlanmış görüntüden VQGAN'ın gizli temsilini yeniden oluşturmaya çalışmak için bir kod çözücü kullanarak daha da sıkıştırır.

Bu görevi gerçekleştirmek için Paella modeline dayalı bir etiket tahmincisi kullanılır. Bu model, kodlanmış görüntünün temsiline dayanmaktadır ve daha az sayıda örnekleme adımı kullanılarak eğitilebilir; bu, hesaplama güç verimliliğinin artırılmasında büyük bir yardımcıdır.

Aşama C), görüntüleri kompakt bir gizli alana yansıtmak, metin koşullu bir gizli yayılma modelini eğitmek ve uzamsal boyutu önemli ölçüde azaltmak için A ve B'nin görüntü kodlayıcılarını kullanır. Bu ayrık gizli alan, modelin görüntünün yüksek kaliteli özelliklerini korurken daha çeşitli ve yenilikçi görüntüler oluşturmasına olanak tanır.

Wuerstchen'in oluşturabileceği görüntü boyutları

Wuerstchen, 1024x1024 ile 1536x1536 arasındaki çözünürlüklere sahip görüntü eğitim verilerini kabul etti ve çıktı görüntü kalitesi oldukça kararlı. 1024x2048 gibi eşdeğer olmayan görüntüler bile yine de iyi sonuçlar elde edebilir.

Geliştiriciler ayrıca Wuerstchen'in yeni çözünürlüklü görüntülerin eğitimi konusunda çok güçlü bir uyarlanabilirliğe sahip olduğunu buldu. 2048x2048 çözünürlüklü görüntüler altında verilere ince ayar yapılması da maliyetleri büyük ölçüde azaltabilir.

Wuerstchen resim gösterimini oluşturur

Wuerstchen'in sunduğu vakaya göre modelin metni anlama yeteneği çok iyi ve yarattığı kalite etkisi Stable Diffusion gibi en güçlü açık kaynak difüzyon modelleriyle kıyaslanabilir düzeyde.

Beyaz önlük giyen bir kartalın gerçek fotoğrafı

Star Wars'tan iki fırtına askeri bir barda oturup bira içiyor

Astronot gibi giyinmiş arıların son derece gerçekçi fotoğrafları

Siyah nezaket giyen bir fare

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • Comment
  • Repost
  • Share
Comment
0/400
No comments
  • Pin
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate App
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)