Le coût de la formation est réduit de 16 fois et la compression ultime est de 42 fois ! Modèle d'image de génération de texte open source

Source originale : Communauté ouverte AIGC

Source de l'image : générée par Unbounded AI‌

Stable Diffusion est actuellement l'un des modèles open source de diffusion d'images générées par texte les plus puissants, mais il présente un gros inconvénient pour les petites et moyennes entreprises et les développeurs individuels qui ne disposent pas d'A100 ou de H100, nécessitant des coûts de formation élevés.

Afin de résoudre ce problème, le modèle open source de Wuerstchen adopte une nouvelle architecture technique pour atteindre une compression ultime de 42 fois tout en garantissant la qualité de l'image. ** En prenant comme exemple l'image de formation de taille 512 x 512, Stable Diffusion1.4 nécessite 150 000 heures de temps de formation GPU, tandis que Wuerstchen ne nécessite que 9 000 heures et le coût de formation est réduit de 16 fois**.

Même si la résolution de l'image atteint 1 536, Wuerstchen ne nécessite que 24 602 heures et le coût de formation est toujours 6 fois moins cher que Stable Diffusion.

Par conséquent, ce produit open source est propice aux développeurs qui ne disposent pas d'une énorme puissance de calcul pour essayer le modèle de diffusion, et en même temps, ils peuvent explorer de meilleures méthodes de formation sur cette base.

Adresse open source :

GitHub:

papier:

Brève introduction de Wuerstchen

Le modèle de diffusion de Wuerstchen adopte une méthode qui fonctionne dans l'espace latent hautement compressé de l'image. C’est l’une des raisons pour lesquelles son coût de formation est inférieur à celui de Stable Diffusion.

La compression des données peut réduire le coût de la formation et de l'inférence de plusieurs ordres de grandeur. Par exemple, une formation sur des images 1024×1024 est nettement plus coûteuse qu’une formation sur des images 32×32. Habituellement, la plage de compression utilisée dans l’industrie est d’environ 4 à 8 fois.

Et Wuerstchen a poussé la compression à l'extrême grâce à une toute nouvelle architecture technique, atteignant une compression spatiale 42 fois supérieure, ce qui constitue une avancée technologique sans précédent ! Parce qu'une fois que la compression dépasse 16 fois, les méthodes ordinaires ne peuvent plus du tout réaliser la reconstruction d'image.

Principe de compression extrême Wuerstchen

La méthode de compression extrême de Wuerstchen est divisée en trois étapes : A, B et C : l'étape A) effectue une formation initiale et utilise un réseau contradictoire génératif de quantification vectorielle (VQGAN) pour créer un espace latent discrétisé et mapper les données sur un prédéfini Cette représentation compacte de points dans un ensemble défini et plus petit permet de modéliser la vitesse d'apprentissage et d'inférence ;

Phase B) compresse davantage, en utilisant un encodeur pour projeter l'image dans un espace plus compact et un décodeur pour tenter de reconstruire la représentation latente du VQGAN à partir de l'image encodée.

Et un prédicteur d'étiquette basé sur le modèle Paella est utilisé pour accomplir cette tâche. Ce modèle est basé sur la représentation de l'image codée et peut être entraîné en utilisant un plus petit nombre d'étapes d'échantillonnage, ce qui constitue une aide considérable pour améliorer l'efficacité de la puissance de calcul.

La phase C) utilise les encodeurs d'images de A et B pour projeter des images dans un espace latent compact, former un modèle de diffusion latente conditionné par le texte et réduire considérablement la dimension spatiale. Cet espace latent discret permet au modèle de générer des images plus diversifiées et innovantes tout en conservant les caractéristiques de haute qualité de l'image.

Tailles d'image que Wuerstchen peut générer

Wuerstchen a accepté les données de formation d'images avec des résolutions comprises entre 1 024 x 1 024 et 1 536 x 1 536, et la qualité de l'image de sortie est très stable. Même des images non équivalentes telles que 1024 x 2048 peuvent toujours donner de bons résultats.

Les développeurs ont également constaté que Wuerstchen possède une très forte adaptabilité à la formation d'images à nouvelle résolution. Le réglage fin des données sous des images de résolution 2048 x 2048 peut également réduire considérablement les coûts.

Wuerstchen génère l'affichage d'images

Selon le cas présenté par Wuerstchen, la capacité du modèle à comprendre le texte est très bonne et l'effet de qualité qu'il génère est comparable aux modèles de diffusion open source les plus puissants tels que Stable Diffusion.

Vraie photo d'un aigle portant un manteau blanc

Deux stormtroopers de Star Wars assis dans un bar en train de boire de la bière

Des photos très réalistes d'abeilles habillées en astronautes

Une souris vêtue de noir de courtoisie

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)