¡El costo de entrenamiento se reduce 16 veces y la compresión máxima es 42 veces! Modelo de imagen de generación de texto de código abierto

Fuente original: Comunidad Abierta AIGC

Fuente de la imagen: Generada por Unbounded AI‌

Stable Diffusion es actualmente uno de los modelos de difusión de imágenes generadas por texto de código abierto más potentes, pero tiene una gran desventaja para las pequeñas y medianas empresas y los desarrolladores individuales que no tienen A100 o H100, lo que requiere altos costos de capacitación.

Para resolver este problema, el modelo de código abierto de Wuerstchen adopta una nueva arquitectura técnica para lograr una compresión máxima 42 veces mayor y al mismo tiempo garantizar la calidad de la imagen. ** Tomando como ejemplo la imagen de entrenamiento de tamaño 512x512, Stable Diffusion1.4 requiere 150,000 horas de tiempo de entrenamiento de GPU, mientras que Wuerstchen solo requiere 9,000 horas y el costo de entrenamiento se reduce 16 veces**.

Incluso si la resolución de la imagen es tan alta como 1536, Wuerstchen solo requiere 24,602 horas y el costo de capacitación sigue siendo 6 veces más barato que el de Difusión estable.

Por lo tanto, este producto de código abierto es propicio para que los desarrolladores que no tienen una gran potencia informática prueben el modelo de difusión y, al mismo tiempo, pueden explorar mejores métodos de capacitación sobre esta base.

Dirección de código abierto:

Github:

papel:

Breve introducción a Wuerstchen

El modelo de difusión de Wuerstchen adopta un método que funciona en el espacio latente altamente comprimido de la imagen. Esta es una de las razones por las que su costo de capacitación es menor que el de Difusión estable.

La compresión de datos puede reducir el costo de la capacitación y la inferencia en órdenes de magnitud. Por ejemplo, entrenar con imágenes de 1024 × 1024 es definitivamente mucho más caro que entrenar con imágenes de 32 × 32. Por lo general, el rango de compresión utilizado en la industria es de aproximadamente 4 a 8 veces.

Y Wuerstchen llevó la compresión al extremo a través de una arquitectura técnica completamente nueva, logrando una compresión espacial 42 veces, ¡lo cual es un avance tecnológico sin precedentes! Porque una vez que la compresión excede 16 veces, los métodos ordinarios no pueden lograr la reconstrucción de la imagen en absoluto.

Principio de compresión extrema de Wuerstchen

El método de compresión extrema de Wuerstchen se divide en tres etapas: A, B y C: la etapa A) realiza un entrenamiento inicial y utiliza una red adversarial generativa de cuantificación vectorial (VQGAN) para crear un espacio latente discretizado y asignar los datos a un preestablecido Esta representación compacta de puntos en un conjunto más pequeño y definido ayuda a modelar la velocidad de aprendizaje e inferencia;

Fase B) comprime aún más, utilizando un codificador para proyectar la imagen en un espacio más compacto y un decodificador para intentar reconstruir la representación latente del VQGAN a partir de la imagen codificada.

Y para realizar esta tarea se utiliza un predictor de etiquetas basado en el modelo de Paella. Este modelo se basa en la representación de la imagen codificada y se puede entrenar utilizando una cantidad menor de pasos de muestreo, lo que es de gran ayuda para mejorar la eficiencia de la potencia informática.

Fase C) utiliza los codificadores de imágenes de A y B para proyectar imágenes en un espacio latente compacto, entrenar un modelo de difusión latente condicionado por texto y reducir significativamente la dimensión espacial. Este espacio latente discreto permite que el modelo genere imágenes más diversas e innovadoras conservando las características de alta calidad de la imagen.

Tamaños de imagen que Wuerstchen puede generar

Wuerstchen aceptó datos de entrenamiento de imágenes con resoluciones entre 1024x1024 y 1536x1536, y la calidad de la imagen de salida es muy estable. Incluso las imágenes no equivalentes, como las de 1024x2048, pueden lograr buenos resultados.

Los desarrolladores también descubrieron que Wuerstchen tiene una gran adaptabilidad al entrenamiento de imágenes con nueva resolución y el ajuste fino de datos en imágenes con resolución de 2048x2048 también puede reducir en gran medida los costos.

Wuerstchen genera visualización de imágenes

Según el caso presentado por Wuerstchen, la capacidad del modelo para comprender texto es muy buena y el efecto de calidad que genera es comparable a los modelos de difusión de código abierto más potentes, como Stable Diffusion.

Foto real de un águila con bata blanca.

Dos soldados de asalto de Star Wars sentados en un bar bebiendo cerveza

Fotografías muy realistas de abejas vestidas de astronautas.

Un ratón vestido de negro de cortesía.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado
Opera con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)