Difusi Stabil saat ini merupakan salah satu model difusi gambar sumber terbuka yang paling kuat, namun memiliki kelemahan besar bagi perusahaan kecil dan menengah serta pengembang individu yang tidak memiliki A100 atau H100, sehingga memerlukan biaya pelatihan yang tinggi.
Untuk mengatasi masalah ini, model sumber terbuka Wuerstchen mengadopsi arsitektur teknis baru untuk mencapai kompresi tertinggi 42 kali sekaligus memastikan kualitas gambar. Mengambil contoh gambar pelatihan ukuran 512x512, Difusi Stabil 1.4 memerlukan 150.000 jam waktu pelatihan GPU, sedangkan Wuerstchen hanya memerlukan 9.000 jam, dan biaya pelatihan berkurang 16 kali lipat.
Meski resolusi gambarnya mencapai 1536, Wuerstchen hanya membutuhkan 24.602 jam, dan biaya pelatihannya masih 6 kali lebih murah dibandingkan Difusi Stabil.
Oleh karena itu, produk sumber terbuka ini kondusif bagi pengembang yang tidak memiliki daya komputasi besar untuk mencoba model difusi, dan pada saat yang sama, mereka dapat mengeksplorasi metode pelatihan yang lebih baik atas dasar ini.
Alamat sumber terbuka:
Github:
kertas:
Pengenalan singkat Wuerstchen
Model difusi Wuerstchen mengadopsi metode yang bekerja dalam ruang laten gambar yang sangat terkompresi. Inilah salah satu alasan mengapa biaya pelatihannya lebih rendah daripada Difusi Stabil.
Mengompresi data dapat mengurangi biaya pelatihan dan inferensi hingga beberapa kali lipat. Misalnya, pelatihan pada gambar 1024x1024 pasti jauh lebih mahal daripada pelatihan pada gambar 32x32. Biasanya rentang kompresi yang digunakan di industri sekitar 4-8 kali.
Dan Wuerstchen mendorong kompresi hingga ekstrem melalui arsitektur teknis baru, mencapai 42 kali kompresi ruang, yang merupakan terobosan teknologi yang belum pernah terjadi sebelumnya! Karena setelah kompresi melebihi 16 kali, metode biasa tidak dapat mencapai rekonstruksi gambar sama sekali.
Prinsip kompresi ekstrim Wuerstchen
Metode kompresi ekstrem Wuerstchen dibagi menjadi tiga tahap: A, B, dan C: Tahap A) melakukan pelatihan awal, dan menggunakan jaringan permusuhan generatif kuantisasi vektor (VQGAN) untuk membuat ruang laten terdiskritisasi dan memetakan data ke a pre-set Representasi titik-titik yang ringkas dalam himpunan yang lebih kecil dan terdefinisi membantu pembelajaran model dan kecepatan inferensi;
Fase B) melakukan kompresi lebih lanjut, menggunakan encoder untuk memproyeksikan gambar ke ruang yang lebih kompak, dan decoder untuk mencoba merekonstruksi representasi laten VQGAN dari gambar yang dikodekan.
Dan prediktor label berdasarkan model Paella digunakan untuk menyelesaikan tugas ini. Model ini didasarkan pada representasi gambar yang dikodekan dan dapat dilatih menggunakan langkah pengambilan sampel yang lebih sedikit, yang sangat membantu dalam meningkatkan efisiensi daya komputasi.
Fase C) menggunakan encoder gambar A dan B untuk memproyeksikan gambar ke dalam ruang laten yang ringkas, melatih model difusi laten yang dikondisikan teks, dan secara signifikan mengurangi dimensi spasial. Ruang laten terpisah ini memungkinkan model menghasilkan gambar yang lebih beragam dan inovatif sambil tetap mempertahankan fitur gambar berkualitas tinggi.
Ukuran gambar yang dapat dihasilkan Wuerstchen
Wuerstchen menerima data pelatihan gambar dengan resolusi antara 1024x1024 dan 1536x1536, dan kualitas gambar keluarannya sangat stabil. Bahkan gambar yang tidak setara seperti 1024x2048 masih dapat memperoleh hasil yang baik.
Pengembang juga menemukan bahwa Wuerstchen memiliki kemampuan beradaptasi yang sangat kuat terhadap pelatihan gambar beresolusi baru. Menyempurnakan data di bawah gambar beresolusi 2048x2048 juga dapat sangat mengurangi biaya.
Wuerstchen menghasilkan tampilan gambar
Menurut kasus yang disajikan oleh Wuerstchen, kemampuan model untuk memahami teks sangat baik, dan efek kualitas yang dihasilkannya sebanding dengan model difusi sumber terbuka terkuat seperti Difusi Stabil.
Foto asli burung elang yang memakai jas putih
Dua stormtroopers dari Star Wars duduk di bar sambil minum bir
Foto lebah yang berpakaian seperti astronot sangat realistis
Seekor tikus mengenakan kesopanan hitam
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Biaya pelatihan berkurang 16 kali lipat, dan kompresi pamungkas menjadi 42 kali lipat! Model gambar pembuatan teks sumber terbuka
Sumber asli: Komunitas Terbuka AIGC
Difusi Stabil saat ini merupakan salah satu model difusi gambar sumber terbuka yang paling kuat, namun memiliki kelemahan besar bagi perusahaan kecil dan menengah serta pengembang individu yang tidak memiliki A100 atau H100, sehingga memerlukan biaya pelatihan yang tinggi.
Untuk mengatasi masalah ini, model sumber terbuka Wuerstchen mengadopsi arsitektur teknis baru untuk mencapai kompresi tertinggi 42 kali sekaligus memastikan kualitas gambar. Mengambil contoh gambar pelatihan ukuran 512x512, Difusi Stabil 1.4 memerlukan 150.000 jam waktu pelatihan GPU, sedangkan Wuerstchen hanya memerlukan 9.000 jam, dan biaya pelatihan berkurang 16 kali lipat.
Meski resolusi gambarnya mencapai 1536, Wuerstchen hanya membutuhkan 24.602 jam, dan biaya pelatihannya masih 6 kali lebih murah dibandingkan Difusi Stabil.
Oleh karena itu, produk sumber terbuka ini kondusif bagi pengembang yang tidak memiliki daya komputasi besar untuk mencoba model difusi, dan pada saat yang sama, mereka dapat mengeksplorasi metode pelatihan yang lebih baik atas dasar ini.
Github:
kertas:
Pengenalan singkat Wuerstchen
Model difusi Wuerstchen mengadopsi metode yang bekerja dalam ruang laten gambar yang sangat terkompresi. Inilah salah satu alasan mengapa biaya pelatihannya lebih rendah daripada Difusi Stabil.
Mengompresi data dapat mengurangi biaya pelatihan dan inferensi hingga beberapa kali lipat. Misalnya, pelatihan pada gambar 1024x1024 pasti jauh lebih mahal daripada pelatihan pada gambar 32x32. Biasanya rentang kompresi yang digunakan di industri sekitar 4-8 kali.
Dan Wuerstchen mendorong kompresi hingga ekstrem melalui arsitektur teknis baru, mencapai 42 kali kompresi ruang, yang merupakan terobosan teknologi yang belum pernah terjadi sebelumnya! Karena setelah kompresi melebihi 16 kali, metode biasa tidak dapat mencapai rekonstruksi gambar sama sekali.
Prinsip kompresi ekstrim Wuerstchen
Metode kompresi ekstrem Wuerstchen dibagi menjadi tiga tahap: A, B, dan C: Tahap A) melakukan pelatihan awal, dan menggunakan jaringan permusuhan generatif kuantisasi vektor (VQGAN) untuk membuat ruang laten terdiskritisasi dan memetakan data ke a pre-set Representasi titik-titik yang ringkas dalam himpunan yang lebih kecil dan terdefinisi membantu pembelajaran model dan kecepatan inferensi;
Fase B) melakukan kompresi lebih lanjut, menggunakan encoder untuk memproyeksikan gambar ke ruang yang lebih kompak, dan decoder untuk mencoba merekonstruksi representasi laten VQGAN dari gambar yang dikodekan.
Dan prediktor label berdasarkan model Paella digunakan untuk menyelesaikan tugas ini. Model ini didasarkan pada representasi gambar yang dikodekan dan dapat dilatih menggunakan langkah pengambilan sampel yang lebih sedikit, yang sangat membantu dalam meningkatkan efisiensi daya komputasi.
Wuerstchen menerima data pelatihan gambar dengan resolusi antara 1024x1024 dan 1536x1536, dan kualitas gambar keluarannya sangat stabil. Bahkan gambar yang tidak setara seperti 1024x2048 masih dapat memperoleh hasil yang baik.
Wuerstchen menghasilkan tampilan gambar
Menurut kasus yang disajikan oleh Wuerstchen, kemampuan model untuk memahami teks sangat baik, dan efek kualitas yang dihasilkannya sebanding dengan model difusi sumber terbuka terkuat seperti Difusi Stabil.
Foto asli burung elang yang memakai jas putih