Вартість навчання зменшується в 16 разів, а граничне стиснення в 42 рази! Модель зображення генерації тексту з відкритим кодом

2023-09-18 09:27:22

Джерело: AIGC Open Community

Джерело зображення: створено Unbounded AI‌

Stable Diffusion наразі є однією з найпотужніших моделей розповсюдження зображень із відкритим вихідним кодом, згенерованих текстом, але вона має великий недолік для тих малих і середніх підприємств і окремих розробників, які не мають A100 або H100, що вимагає великих витрат на навчання.

Щоб вирішити цю проблему, модель Wuerstchen з відкритим кодом використовує нову технічну архітектуру для досягнення 42-кратного максимального стиснення, забезпечуючи при цьому якість зображення. ** Взявши для прикладу навчальне зображення розміром 512x512, Stable Diffusion1.4 потребує 150 000 годин навчання GPU, тоді як Wuerstchen вимагає лише 9 000 годин, а вартість навчання зменшується в 16 разів**.

Навіть якщо роздільна здатність зображення становить 1536, Wuerstchen потребує лише 24 602 години, а вартість навчання все одно в 6 разів дешевша, ніж стабільна дифузія.

Таким чином, цей продукт з відкритим вихідним кодом є сприятливим для розробників, які не мають великої обчислювальної потужності, щоб спробувати модель дифузії, і в той же час вони можуть досліджувати кращі методи навчання на цій основі.

Адреса відкритого джерела:

Github:

папір:

Короткий вступ до Wuerstchen

Дифузійна модель Вюрстхена використовує метод, який працює в сильно стисненому прихованому просторі зображення. Це одна з причин, чому його вартість навчання нижча, ніж стабільна дифузія.

Стиснення даних може зменшити вартість навчання та висновків на порядки. Наприклад, навчання на зображеннях 1024 × 1024 безумовно набагато дорожче, ніж навчання на зображеннях 32 × 32. Зазвичай діапазон стиснення, який використовується в промисловості, становить приблизно 4-8 разів.

І Wuerstchen підштовхнув стиснення до екстремального рівня завдяки абсолютно новій технічній архітектурі, досягнувши 42-кратного стиснення простору, що є безпрецедентним технологічним проривом! Оскільки коли стиснення перевищує 16 разів, звичайні методи не можуть взагалі досягти реконструкції зображення.

Принцип екстремального стиснення Wuerstchen

Метод екстремального стиснення Wuerstchen розділений на три етапи: A, B і C: етап A) виконує початкове навчання та використовує генеративну змагальну мережу векторного квантування (VQGAN) для створення дискретизованого прихованого простору та відображення даних у pre-set Це компактне представлення точок у визначеному меншому наборі допомагає моделювати навчання та швидкість висновку;

Фаза B) додатково стискає, використовуючи кодер для проектування зображення в більш компактний простір і декодер для спроби реконструювати приховане представлення VQGAN із закодованого зображення.

І для виконання цього завдання використовується предиктор міток на основі моделі паельї. Ця модель заснована на представленні закодованого зображення, і її можна навчити, використовуючи меншу кількість кроків вибірки, що є величезною допомогою для підвищення ефективності обчислювальної потужності.

Фаза C) використовує кодери зображень A і B для проектування зображень у компактний прихований простір, навчання моделі прихованої дифузії, обумовленої текстом, і значного зменшення просторового розміру. Цей дискретний прихований простір дозволяє моделі створювати більш різноманітні та інноваційні зображення, зберігаючи при цьому високоякісні характеристики зображення.

Розміри зображень, які може створити Wuerstchen

Wuerstchen приймав навчальні дані зображення з роздільною здатністю від 1024x1024 до 1536x1536, і якість вихідного зображення дуже стабільна. Навіть нееквівалентні зображення, такі як 1024x2048, можуть досягти хороших результатів.

Розробники також виявили, що Wuerstchen має дуже сильну адаптивність до навчання зображень з новою роздільною здатністю.Тонке налаштування даних під зображення з роздільною здатністю 2048x2048 також може значно знизити витрати.

Wuerstchen генерує зображення на дисплеї

Відповідно до прикладу, представленого Wuerstchen, здатність моделі розуміти текст є дуже хорошою, а якісний ефект, який вона генерує, можна порівняти з найсильнішими моделями дифузії з відкритим кодом, такими як Stable Diffusion.

Справжнє фото орла в білому халаті

Двоє штурмовиків із Зоряних воєн сидять у барі й п’ють пиво

Дуже реалістичні фотографії бджіл у костюмах космонавтів

Мишка, одягнена в чорну ввічливість

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

1 лайків

Нагородити
1
Прокоментувати
Репост
Поділіться

Прокоментувати

0/400

Немає коментарів

巴比特_

Популярні темиДізнатися більше
#XRP ETF Goes Live
3.7K Популярність
#Fed Rate Cut Ahead
21.5K Популярність
#Funny Moments In Crypto
31.3K Популярність
#My Pick In RWA
35.5K Популярність
#Gate Alpha Peak Trade Phase 5
139 Популярність

Закріпити

карта сайту