Требуется только 1% параметров, эффект превосходит ControlNet, скоро появится новый мастер управления рисованием с использованием ИИ.

Первоисточник: Кубиты

Источник изображения: Создано Unbounded AI‌

«Новый мастер управления деталями окраски с помощью искусственного интеллекта» ControlNet-XS уже здесь!

Важно то, что для параметров требуется только 1% исходной сети ControlNet.

Вы можете переключать вкусы тортов по своему желанию:

** **###### Изображение слева до изменения.

Сменить гардероб легко:

Тот же стиль, что и на картинке выше, форма тела остается неизменной, а художественная атмосфера полна:

Вы также можете наслаждаться природными пейзажами и переключаться между сезонами в течение года:

А эта сова, превратившаяся прямо из живого существа в скульптуру:

Когда параметры очень малы, такого эффекта можно достичь.Пользователи сети также назвали его Джуэцзы и не могли дождаться, чтобы прочитать статью.

ControlNet-XS был разработан Лабораторией компьютерного зрения Гейдельбергского университета, на данный момент соответствующие статьи и модели для предварительного обучения не опубликованы.

Но исследователи заявили, что показатель FID ControlNet-XS** значительно лучше, чем у ControlNet**.

А код, управляющий Stable Diffusion-XL и Stable Diffusion 2.1, в ближайшем будущем станет открытым исходным кодом.

Мастер управления нового поколения

Начнем с контроля Канканга над StableDiffusion-XL.

Оценив модели управления разных размеров, исследователи обнаружили, что модель управления даже не обязательно должна быть того же размера, что и базовая сеть StableDiffusion-XL с параметром 2.6B.

Также очевидно управление ControlNet-XS параметрами 400M, 104M и 48M.

Карта глубины обеспечивает более интуитивное отображение.В зависимости от расстояния и глубины содержимого изображения карта глубины представляет точные цветовые оттенки:

Следует отметить, что начальные значения, установленные здесь исследователями, различны для каждой строки и одинаковы для каждого столбца.

Кроме того, есть еще карта обнаружения краев Canny, на которой четко отображаются границы и контуры объектов:

Для управления StableDiffusion исследователи оценили три версии ControlNet-XS с параметрами 491M, 55M и 14M.

Результаты показывают, что 1,6% параметров (865M) также могут надежно контролировать процесс генерации.

Итак, как это делается?

Обучение с нуля

Исходная ControlNet является копией кодировщика U-Net в базовой модели StableDiffusion, поэтому она получает те же входные данные, что и базовая модель, с дополнительными навигационными сигналами, такими как карты границ.

Затем промежуточный вывод обученной сети ControlNet добавляется ко входу уровня декодера базовой модели. На протяжении всего процесса обучения ControlNet веса базовой модели остаются замороженными.

Исследователи ControlNet-XS считают, что при таком подходе есть проблемы и что ControlNet не обязательно должна быть такой большой.

Первое — это окончательное выходное изображение Stable Diffusion, которое генерируется итеративно в несколько этапов. Каждый шаг будет выполняться в частях кодера (Encoder) и декодера (Decoder) сетевой структуры U-Net.

Входными данными для базовой модели и модели управления на каждой итерации является изображение, созданное на предыдущем шаге. Модель управления также получает управляющее изображение.

Проблема в том, что обе модели работают независимо на этапе кодирования, а обратная связь от модели управления вводится только на этапе декодера базовой модели.

В целом, результатом является механизм отсроченной коррекции/контроля.

Другими словами, ControlNet должна выполнять две задачи: с одной стороны, коррекцию/контроль, а с другой стороны, она должна заранее предсказать, какие «ошибки» допустит кодировщик базовой модели.

Подразумевая, что генерация изображений и управление требуют одинаковой производительности модели, вполне естественно инициализировать веса ControlNet с весами базовой модели, а затем выполнить их точную настройку.

Что касается ControlNet-XS, исследователи рассказали, что конструкция отличается от базовой модели: он обучает веса ControlNet-XS с нуля, что решает проблему отложенной обратной связи.

Как показано на рисунке выше, метод заключается в добавлении соединения от кодера базовой модели к кодировщику управления (A), чтобы процесс коррекции мог быстрее адаптироваться к процессу генерации базовой модели. Но это не устраняет задержку полностью, поскольку кодировщик базовой модели все еще не загружен.

Поэтому исследователи добавили дополнительные соединения от ControlNet-XS к кодировщику базовой модели, напрямую влияя на весь процесс генерации (B).

Кроме того, они оценили, будет ли полезно использование архитектуры зеркального декодирования в настройках ControlNet (C).

Наконец, исследователи провели оценку производительности FID на проверочном наборе COCO2017 для трех различных вариантов наведения Canny Edge (A, B, C) и оригинальной ControlNet.

Все варианты приводят к значительным улучшениям при использовании лишь части исходных параметров ControlNet.

Исследователи придумали вариант B, используя карту границ Канни и карту глубины соответственно, и обучили три модели разных размеров для StableDiffusion2.1 и StableDiffusion-XL.

Итак, следующий шаг — дождаться выхода соответствующих статей, кодов и предварительно обученных моделей~

адрес проекта:

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить