Biaya pelatihan berkurang 16 kali lipat, dan kompresi pamungkas menjadi 42 kali lipat! Model gambar pembuatan teks sumber terbuka

Sumber asli: Komunitas Terbuka AIGC

Sumber gambar: Dihasilkan oleh AI Tanpa Batas‌

Difusi Stabil saat ini merupakan salah satu model difusi gambar sumber terbuka yang paling kuat, namun memiliki kelemahan besar bagi perusahaan kecil dan menengah serta pengembang individu yang tidak memiliki A100 atau H100, sehingga memerlukan biaya pelatihan yang tinggi.

Untuk mengatasi masalah ini, model sumber terbuka Wuerstchen mengadopsi arsitektur teknis baru untuk mencapai kompresi tertinggi 42 kali sekaligus memastikan kualitas gambar. Mengambil contoh gambar pelatihan ukuran 512x512, Difusi Stabil 1.4 memerlukan 150.000 jam waktu pelatihan GPU, sedangkan Wuerstchen hanya memerlukan 9.000 jam, dan biaya pelatihan berkurang 16 kali lipat.

Meski resolusi gambarnya mencapai 1536, Wuerstchen hanya membutuhkan 24.602 jam, dan biaya pelatihannya masih 6 kali lebih murah dibandingkan Difusi Stabil.

Oleh karena itu, produk sumber terbuka ini kondusif bagi pengembang yang tidak memiliki daya komputasi besar untuk mencoba model difusi, dan pada saat yang sama, mereka dapat mengeksplorasi metode pelatihan yang lebih baik atas dasar ini.

Alamat sumber terbuka:

Github:

kertas:

Pengenalan singkat Wuerstchen

Model difusi Wuerstchen mengadopsi metode yang bekerja dalam ruang laten gambar yang sangat terkompresi. Inilah salah satu alasan mengapa biaya pelatihannya lebih rendah daripada Difusi Stabil.

Mengompresi data dapat mengurangi biaya pelatihan dan inferensi hingga beberapa kali lipat. Misalnya, pelatihan pada gambar 1024x1024 pasti jauh lebih mahal daripada pelatihan pada gambar 32x32. Biasanya rentang kompresi yang digunakan di industri sekitar 4-8 kali.

Dan Wuerstchen mendorong kompresi hingga ekstrem melalui arsitektur teknis baru, mencapai 42 kali kompresi ruang, yang merupakan terobosan teknologi yang belum pernah terjadi sebelumnya! Karena setelah kompresi melebihi 16 kali, metode biasa tidak dapat mencapai rekonstruksi gambar sama sekali.

Prinsip kompresi ekstrim Wuerstchen

Metode kompresi ekstrem Wuerstchen dibagi menjadi tiga tahap: A, B, dan C: Tahap A) melakukan pelatihan awal, dan menggunakan jaringan permusuhan generatif kuantisasi vektor (VQGAN) untuk membuat ruang laten terdiskritisasi dan memetakan data ke a pre-set Representasi titik-titik yang ringkas dalam himpunan yang lebih kecil dan terdefinisi membantu pembelajaran model dan kecepatan inferensi;

Fase B) melakukan kompresi lebih lanjut, menggunakan encoder untuk memproyeksikan gambar ke ruang yang lebih kompak, dan decoder untuk mencoba merekonstruksi representasi laten VQGAN dari gambar yang dikodekan.

Dan prediktor label berdasarkan model Paella digunakan untuk menyelesaikan tugas ini. Model ini didasarkan pada representasi gambar yang dikodekan dan dapat dilatih menggunakan langkah pengambilan sampel yang lebih sedikit, yang sangat membantu dalam meningkatkan efisiensi daya komputasi.

Fase C) menggunakan encoder gambar A dan B untuk memproyeksikan gambar ke dalam ruang laten yang ringkas, melatih model difusi laten yang dikondisikan teks, dan secara signifikan mengurangi dimensi spasial. Ruang laten terpisah ini memungkinkan model menghasilkan gambar yang lebih beragam dan inovatif sambil tetap mempertahankan fitur gambar berkualitas tinggi.

Ukuran gambar yang dapat dihasilkan Wuerstchen

Wuerstchen menerima data pelatihan gambar dengan resolusi antara 1024x1024 dan 1536x1536, dan kualitas gambar keluarannya sangat stabil. Bahkan gambar yang tidak setara seperti 1024x2048 masih dapat memperoleh hasil yang baik.

Pengembang juga menemukan bahwa Wuerstchen memiliki kemampuan beradaptasi yang sangat kuat terhadap pelatihan gambar beresolusi baru. Menyempurnakan data di bawah gambar beresolusi 2048x2048 juga dapat sangat mengurangi biaya.

Wuerstchen menghasilkan tampilan gambar

Menurut kasus yang disajikan oleh Wuerstchen, kemampuan model untuk memahami teks sangat baik, dan efek kualitas yang dihasilkannya sebanding dengan model difusi sumber terbuka terkuat seperti Difusi Stabil.

Foto asli burung elang yang memakai jas putih

Dua stormtroopers dari Star Wars duduk di bar sambil minum bir

Foto lebah yang berpakaian seperti astronot sangat realistis

Seekor tikus mengenakan kesopanan hitam

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)