Stable Diffusion в настоящее время является одной из самых мощных моделей распространения текстовых изображений с открытым исходным кодом, но она имеет большой недостаток для малых и средних предприятий и индивидуальных разработчиков, у которых нет A100 или H100, поскольку требует высоких затрат на обучение.
Чтобы решить эту проблему, модель с открытым исходным кодом Wuerstchen использует новую техническую архитектуру, обеспечивающую максимальное сжатие в 42 раза при сохранении качества изображения. ** На примере обучающего изображения размером 512x512 Stable Diffusion1.4 требует 150 000 часов времени обучения графического процессора, тогда как Wuerstchen требует всего 9 000 часов, а стоимость обучения снижается в 16 раз**.
Даже если разрешение изображения достигает 1536, для Wuerstchen требуется всего 24 602 часа, а стоимость обучения все равно в 6 раз дешевле, чем для Stable Diffusion.
Таким образом, этот продукт с открытым исходным кодом позволяет разработчикам, не имеющим огромных вычислительных мощностей, опробовать модель диффузии, и в то же время они могут изучить на этой основе более эффективные методы обучения.
Адрес открытого исходного кода:
Гитхаб:
бумага:
Краткое введение в Вюрхен
Модель диффузии Вюршена использует метод, который работает в сильно сжатом скрытом пространстве изображения. Это одна из причин, почему стоимость обучения ниже, чем у Stable Diffusion.
Сжатие данных может на порядки снизить стоимость обучения и вывода. Например, обучение на изображениях 1024×1024 определенно намного дороже, чем обучение на изображениях 32×32. Обычно диапазон сжатия, используемый в промышленности, составляет около 4-8 раз.
А Wuerstchen довел сжатие до предела благодаря совершенно новой технической архитектуре, добившись сжатия пространства в 42 раза, что является беспрецедентным технологическим прорывом! Поскольку, если степень сжатия превышает 16 раз, обычные методы вообще не позволяют восстановить изображение.
Принцип экстремального сжатия Вюрхена
Метод экстремального сжатия Вюршена разделен на три этапа: A, B и C: Этап A) выполняет начальное обучение и использует генеративно-состязательную сеть векторного квантования (VQGAN) для создания дискретизированного скрытого пространства и отображения данных в предустановка. Это компактное представление точек в определенном меньшем наборе помогает моделировать скорость обучения и вывода;
Фаза B) дополнительно сжимает, используя кодер для проецирования изображения в более компактное пространство и декодер, чтобы попытаться восстановить скрытое представление VQGAN из закодированного изображения.
Для выполнения этой задачи используется предиктор меток на основе модели Паэльи. Эта модель основана на представлении закодированного изображения и может быть обучена с использованием меньшего количества шагов выборки, что очень помогает в повышении эффективности вычислительной мощности.
Фаза C) использует кодеры изображений A и B для проецирования изображений в компактное скрытое пространство, обучения модели скрытой диффузии с текстовым условием и значительного уменьшения пространственного измерения. Это дискретное скрытое пространство позволяет модели генерировать более разнообразные и инновационные изображения, сохраняя при этом высококачественные характеристики изображения.
Размеры изображений, которые может генерировать Wuerstchen
Вюрстхен принял данные обучения изображений с разрешением от 1024x1024 до 1536x1536, и качество выходного изображения было очень стабильным. Даже неэквивалентные изображения, такие как 1024x2048, позволяют добиться хороших результатов.
Разработчики также обнаружили, что Wuerstchen обладает очень высокой способностью адаптироваться к обучению изображений с новым разрешением.Точная настройка данных под изображения с разрешением 2048x2048 также может значительно снизить затраты.
Wuerstchen генерирует изображение
Согласно примеру, представленному Вюрстеном, способность модели понимать текст очень хорошая, а эффект качества, который она создает, сравним с самыми сильными моделями диффузии с открытым исходным кодом, такими как Stable Diffusion.
Настоящее фото орла в белом халате.
Два штурмовика из «Звездных войн» сидят в баре и пьют пиво
Высокореалистичные фотографии пчел в костюмах космонавтов.
Мышь в черном, вежливость
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Стоимость обучения снижается в 16 раз, а предельное сжатие – в 42 раза! Модель изображения для генерации текста с открытым исходным кодом
Первоисточник: Открытое сообщество AIGC.
Stable Diffusion в настоящее время является одной из самых мощных моделей распространения текстовых изображений с открытым исходным кодом, но она имеет большой недостаток для малых и средних предприятий и индивидуальных разработчиков, у которых нет A100 или H100, поскольку требует высоких затрат на обучение.
Чтобы решить эту проблему, модель с открытым исходным кодом Wuerstchen использует новую техническую архитектуру, обеспечивающую максимальное сжатие в 42 раза при сохранении качества изображения. ** На примере обучающего изображения размером 512x512 Stable Diffusion1.4 требует 150 000 часов времени обучения графического процессора, тогда как Wuerstchen требует всего 9 000 часов, а стоимость обучения снижается в 16 раз**.
Даже если разрешение изображения достигает 1536, для Wuerstchen требуется всего 24 602 часа, а стоимость обучения все равно в 6 раз дешевле, чем для Stable Diffusion.
Таким образом, этот продукт с открытым исходным кодом позволяет разработчикам, не имеющим огромных вычислительных мощностей, опробовать модель диффузии, и в то же время они могут изучить на этой основе более эффективные методы обучения.
Гитхаб:
бумага:
Краткое введение в Вюрхен
Модель диффузии Вюршена использует метод, который работает в сильно сжатом скрытом пространстве изображения. Это одна из причин, почему стоимость обучения ниже, чем у Stable Diffusion.
Сжатие данных может на порядки снизить стоимость обучения и вывода. Например, обучение на изображениях 1024×1024 определенно намного дороже, чем обучение на изображениях 32×32. Обычно диапазон сжатия, используемый в промышленности, составляет около 4-8 раз.
А Wuerstchen довел сжатие до предела благодаря совершенно новой технической архитектуре, добившись сжатия пространства в 42 раза, что является беспрецедентным технологическим прорывом! Поскольку, если степень сжатия превышает 16 раз, обычные методы вообще не позволяют восстановить изображение.
Принцип экстремального сжатия Вюрхена
Метод экстремального сжатия Вюршена разделен на три этапа: A, B и C: Этап A) выполняет начальное обучение и использует генеративно-состязательную сеть векторного квантования (VQGAN) для создания дискретизированного скрытого пространства и отображения данных в предустановка. Это компактное представление точек в определенном меньшем наборе помогает моделировать скорость обучения и вывода;
Фаза B) дополнительно сжимает, используя кодер для проецирования изображения в более компактное пространство и декодер, чтобы попытаться восстановить скрытое представление VQGAN из закодированного изображения.
Для выполнения этой задачи используется предиктор меток на основе модели Паэльи. Эта модель основана на представлении закодированного изображения и может быть обучена с использованием меньшего количества шагов выборки, что очень помогает в повышении эффективности вычислительной мощности.
Вюрстхен принял данные обучения изображений с разрешением от 1024x1024 до 1536x1536, и качество выходного изображения было очень стабильным. Даже неэквивалентные изображения, такие как 1024x2048, позволяют добиться хороших результатов.
Wuerstchen генерирует изображение
Согласно примеру, представленному Вюрстеном, способность модели понимать текст очень хорошая, а эффект качества, который она создает, сравним с самыми сильными моделями диффузии с открытым исходным кодом, такими как Stable Diffusion.
Настоящее фото орла в белом халате.