Seulement 1% des paramètres sont nécessaires, l'effet surpasse ControlNet, un nouveau maître de contrôle de peinture AI arrive

Source originale : Qubits

Source de l'image : générée par Unbounded AI‌

"Nouveau maître de contrôle des détails de peinture IA" ControlNet-XS est là !

L'important est que les paramètres n'ont besoin que de 1 % du ControlNet d'origine.

Vous pouvez changer de saveur de gâteau à volonté :

** **###### L'image de gauche est avant le changement

Il est facile de changer de garde-robe :

Le même style que l'image ci-dessus, la forme du corps reste inchangée et l'ambiance artistique est pleine :

Vous pouvez également profiter du paysage naturel et changer de saison tout au long de l'année :

Et cette chouette, directement transformée d'être vivant en sculpture :

Lorsque les paramètres sont très petits, un tel effet peut être obtenu. Les internautes l'appellent également Juezi et étaient impatients de lire le journal.

ControlNet-XS a été développé par le laboratoire de vision par ordinateur de l'université de Heidelberg. Actuellement, aucun article ni modèle de pré-formation pertinent n'a été publié.

Mais les chercheurs ont déclaré que le score FID de ControlNet-XS** est nettement meilleur que celui de ControlNet**.

Et le code qui contrôle Stable Diffusion-XL et Stable Diffusion 2.1 sera open source dans un avenir proche.

Maître de contrôle nouvelle génération

Commençons par le contrôle de StableDiffusion-XL par Kangkang.

Après avoir évalué des modèles de contrôle de différentes tailles, les chercheurs ont découvert qu'il n'était même pas nécessaire que le modèle de contrôle ait la même taille que le réseau de base StableDiffusion-XL avec paramètre 2,6B.

Le contrôle ControlNet-XS des paramètres 400M, 104M et 48M est également évident.

La carte de profondeur offre un affichage plus intuitif. Selon la distance et la profondeur du contenu de l'image, la carte de profondeur présente des nuances de couleurs précises :

Il convient de noter que les valeurs de départ définies par les chercheurs ici sont différentes pour chaque ligne et les mêmes pour chaque colonne.

De plus, il existe également une carte de détection de contour Canny, où les limites et les contours des objets peuvent être clairement affichés :

Pour le contrôle de StableDiffusion, les chercheurs ont évalué trois versions de ControlNet-XS avec les paramètres 491M, 55M et 14M.

Les résultats montrent que 1,6 % des paramètres (865 M) peuvent également contrôler de manière fiable le processus de génération.

Alors, comment cela se fait-il ?

Formation à partir de zéro

Le ControlNet original est une copie de l'encodeur U-Net dans le modèle de base StableDiffusion, il reçoit donc la même entrée que le modèle de base, avec des signaux de guidage supplémentaires, tels que des cartes de bord.

Ensuite, la sortie intermédiaire du ControlNet entraîné est ajoutée à l’entrée de la couche décodeur du modèle de base. Tout au long du processus de formation de ControlNet, les poids du modèle de base restent figés.

Les chercheurs de ControlNet-XS estiment que cette approche pose des problèmes et que ControlNet n'a pas besoin d'être aussi grand.

La première est l’image de sortie finale de diffusion stable, qui est générée de manière itérative en une série d’étapes. Chaque étape sera exécutée dans les parties encodeur (Encoder) et décodeur (Decoder) de la structure du réseau U-Net.

L'entrée du modèle de base et du modèle de contrôle à chaque itération est l'image générée à l'étape précédente. Le modèle de contrôle reçoit également une image de contrôle.

Le problème est que les deux modèles fonctionnent indépendamment pendant la phase d'encodeur, tandis que le retour du modèle de contrôle n'est entré que pendant la phase de décodage du modèle de base.

Au total, le résultat est un mécanisme de correction/contrôle retardé.

En d'autres termes, ControlNet doit effectuer deux tâches : d'une part, la correction/contrôle, et d'autre part, il doit prédire à l'avance quelles "erreurs" l'encodeur du modèle de base fera.

En impliquant que la génération et le contrôle d'images nécessitent une capacité de modèle similaire, il est naturel d'initialiser les poids de ControlNet avec les poids du modèle de base, puis de les affiner.

Quant à ControlNet-XS, les chercheurs ont déclaré que la conception est différente du modèle de base : il entraîne les poids ControlNet-XS à partir de zéro, ce qui résout le problème du retour retardé.

Comme le montre la figure ci-dessus, la méthode consiste à ajouter une connexion entre l'encodeur du modèle de base et l'encodeur de contrôle (A) afin que le processus de correction puisse s'adapter plus rapidement au processus de génération du modèle de base. Mais cela n’élimine pas complètement la latence, puisque l’encodeur du modèle de base n’est toujours pas amorcé.

Par conséquent, les chercheurs ont ajouté des connexions supplémentaires de ControlNet-XS à l’encodeur du modèle de base, affectant directement l’ensemble du processus de génération (B).

De plus, ils ont évalué si l’utilisation d’une architecture de décodage en miroir serait utile dans un environnement ControlNet (C).

Enfin, les chercheurs ont mené une évaluation des performances du score FID sur l'ensemble de validation COCO2017 pour trois variantes différentes du guidage Canny Edge (A, B, C) et du ControlNet original.

Toutes les variantes entraînent des améliorations significatives tout en n'utilisant qu'une fraction des paramètres ControlNet d'origine.

Les chercheurs ont proposé la variante B, en utilisant respectivement la carte de bord Canny et le guidage de la carte de profondeur, et ont formé trois modèles de tailles différentes pour StableDiffusion2.1 et StableDiffusion-XL.

La prochaine étape consiste donc à attendre la publication des articles, codes et modèles pré-entraînés pertinents~

adresse du projet :

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)