يعد Stable Diffusion حاليًا أحد أقوى نماذج نشر الصور المولدة بالنص مفتوحة المصدر، ولكن له عيبًا كبيرًا بالنسبة للمؤسسات الصغيرة والمتوسطة الحجم والمطورين الأفراد الذين ليس لديهم A100 أو H100، مما يتطلب تكاليف تدريب عالية.
ومن أجل حل هذه المشكلة، يعتمد نموذج Wuerstchen مفتوح المصدر على بنية تقنية جديدة لتحقيق ضغط نهائي يصل إلى 42 مرة مع ضمان جودة الصورة. ** بأخذ صورة التدريب بحجم 512 × 512 كمثال، يتطلب Stable Diffusion1.4 150,000 ساعة من وقت تدريب وحدة معالجة الرسومات، بينما يتطلب Wuerstchen 9,000 ساعة فقط، ويتم تقليل تكلفة التدريب بمقدار 16 مرة**.
حتى لو كانت دقة الصورة تصل إلى 1536، فإن Wuerstchen لا يتطلب سوى 24602 ساعة، ولا تزال تكلفة التدريب أرخص 6 مرات من Stable Diffusion.
لذلك، فإن هذا المنتج مفتوح المصدر يساعد المطورين الذين ليس لديهم قوة حاسوبية ضخمة على تجربة نموذج الانتشار، وفي الوقت نفسه، يمكنهم استكشاف طرق تدريب أفضل على هذا الأساس.
عنوان مفتوح المصدر:
جيثب:
ورق:
مقدمة موجزة عن Wuerstchen
يعتمد نموذج نشر Wuerstchen طريقة تعمل في المساحة الكامنة المضغوطة للغاية للصورة. وهذا هو أحد الأسباب التي تجعل تكلفة التدريب أقل من الانتشار المستقر.
يمكن أن يؤدي ضغط البيانات إلى تقليل تكلفة التدريب والاستدلال من حيث الحجم. على سبيل المثال، يعد التدريب على صورة مقاس 1024×1024 بالتأكيد أكثر تكلفة بكثير من التدريب على صورة مقاس 32×32. عادةً ما يكون نطاق الضغط المستخدم في الصناعة حوالي 4-8 مرات.
ودفعت Wuerstchen الضغط إلى أقصى الحدود من خلال بنية تقنية جديدة تمامًا، محققة ضغطًا فضائيًا يصل إلى 42 مرة، وهو إنجاز تكنولوجي غير مسبوق! لأنه بمجرد أن يتجاوز الضغط 16 مرة، لا يمكن للطرق العادية تحقيق إعادة بناء الصورة على الإطلاق.
مبدأ الضغط الشديد Wuerstchen
تنقسم طريقة الضغط القصوى لـWuerstchen إلى ثلاث مراحل: A وB وC: المرحلة A) تنفذ تدريبًا أوليًا، وتستخدم شبكة الخصومة التوليدية لتكميم المتجهات (VQGAN) لإنشاء مساحة كامنة منفصلة وتعيين البيانات إلى الإعداد المسبق: يساعد هذا التمثيل المدمج للنقاط في مجموعة محددة وأصغر على تعلم النماذج وسرعة الاستدلال؛
المرحلة ب) تقوم بمزيد من الضغط، باستخدام برنامج التشفير لعرض الصورة في مساحة أكثر إحكاما، وجهاز فك التشفير لمحاولة إعادة بناء التمثيل الكامن لـ VQGAN من الصورة المشفرة.
ويتم استخدام متنبئ التسمية على أساس نموذج Paella لإنجاز هذه المهمة. يعتمد هذا النموذج على تمثيل الصورة المشفرة ويمكن تدريبه باستخدام عدد أقل من خطوات أخذ العينات، مما يساعد بشكل كبير في تحسين كفاءة طاقة الحوسبة.
المرحلة ج) تستخدم برامج ترميز الصور الخاصة بـ A وB لعرض الصور في مساحة كامنة مدمجة، وتدريب نموذج نشر كامن مشروط بالنص، وتقليل البعد المكاني بشكل كبير. تسمح هذه المساحة الكامنة المنفصلة للنموذج بإنشاء صور أكثر تنوعًا وابتكارًا مع الحفاظ على ميزات الصورة عالية الجودة.
أحجام الصور التي يمكن لـ Wuerstchen إنشاؤها
قبلت Wuerstchen بيانات تدريب الصور بدقة تتراوح بين 1024x1024 و1536x1536، وجودة الصورة الناتجة مستقرة جدًا. حتى الصور غير المكافئة مثل 1024x2048 لا يزال بإمكانها تحقيق نتائج جيدة.
وجد المطورون أيضًا أن Wuerstchen يتمتع بقدرة قوية جدًا على التكيف مع تدريب الصور ذات الدقة الجديدة، كما أن ضبط البيانات بدقة أقل من 2048 × 2048 يمكن أن يقلل التكاليف بشكل كبير.
ينشئ Wuerstchen عرضًا للصور
وفقًا للحالة التي قدمها Wuerstchen، فإن قدرة النموذج على فهم النص جيدة جدًا، وتأثير الجودة الذي يولده يمكن مقارنته بأقوى نماذج النشر مفتوحة المصدر مثل Stable Diffusion.
صورة حقيقية لنسر يرتدي معطفاً أبيض
اثنان من جنود العاصفة من حرب النجوم يجلسان في حانة يشربان البيرة
صور واقعية للغاية للنحل يرتدي زي رواد الفضاء
فأر يرتدي مجاملة سوداء
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
تم تقليل تكلفة التدريب بمقدار 16 مرة، والضغط النهائي 42 مرة! نموذج صورة توليد النص مفتوح المصدر
المصدر الأصلي: مجتمع AIGC المفتوح
يعد Stable Diffusion حاليًا أحد أقوى نماذج نشر الصور المولدة بالنص مفتوحة المصدر، ولكن له عيبًا كبيرًا بالنسبة للمؤسسات الصغيرة والمتوسطة الحجم والمطورين الأفراد الذين ليس لديهم A100 أو H100، مما يتطلب تكاليف تدريب عالية.
ومن أجل حل هذه المشكلة، يعتمد نموذج Wuerstchen مفتوح المصدر على بنية تقنية جديدة لتحقيق ضغط نهائي يصل إلى 42 مرة مع ضمان جودة الصورة. ** بأخذ صورة التدريب بحجم 512 × 512 كمثال، يتطلب Stable Diffusion1.4 150,000 ساعة من وقت تدريب وحدة معالجة الرسومات، بينما يتطلب Wuerstchen 9,000 ساعة فقط، ويتم تقليل تكلفة التدريب بمقدار 16 مرة**.
حتى لو كانت دقة الصورة تصل إلى 1536، فإن Wuerstchen لا يتطلب سوى 24602 ساعة، ولا تزال تكلفة التدريب أرخص 6 مرات من Stable Diffusion.
لذلك، فإن هذا المنتج مفتوح المصدر يساعد المطورين الذين ليس لديهم قوة حاسوبية ضخمة على تجربة نموذج الانتشار، وفي الوقت نفسه، يمكنهم استكشاف طرق تدريب أفضل على هذا الأساس.
جيثب:
ورق:
مقدمة موجزة عن Wuerstchen
يعتمد نموذج نشر Wuerstchen طريقة تعمل في المساحة الكامنة المضغوطة للغاية للصورة. وهذا هو أحد الأسباب التي تجعل تكلفة التدريب أقل من الانتشار المستقر.
يمكن أن يؤدي ضغط البيانات إلى تقليل تكلفة التدريب والاستدلال من حيث الحجم. على سبيل المثال، يعد التدريب على صورة مقاس 1024×1024 بالتأكيد أكثر تكلفة بكثير من التدريب على صورة مقاس 32×32. عادةً ما يكون نطاق الضغط المستخدم في الصناعة حوالي 4-8 مرات.
ودفعت Wuerstchen الضغط إلى أقصى الحدود من خلال بنية تقنية جديدة تمامًا، محققة ضغطًا فضائيًا يصل إلى 42 مرة، وهو إنجاز تكنولوجي غير مسبوق! لأنه بمجرد أن يتجاوز الضغط 16 مرة، لا يمكن للطرق العادية تحقيق إعادة بناء الصورة على الإطلاق.
مبدأ الضغط الشديد Wuerstchen
تنقسم طريقة الضغط القصوى لـWuerstchen إلى ثلاث مراحل: A وB وC: المرحلة A) تنفذ تدريبًا أوليًا، وتستخدم شبكة الخصومة التوليدية لتكميم المتجهات (VQGAN) لإنشاء مساحة كامنة منفصلة وتعيين البيانات إلى الإعداد المسبق: يساعد هذا التمثيل المدمج للنقاط في مجموعة محددة وأصغر على تعلم النماذج وسرعة الاستدلال؛
المرحلة ب) تقوم بمزيد من الضغط، باستخدام برنامج التشفير لعرض الصورة في مساحة أكثر إحكاما، وجهاز فك التشفير لمحاولة إعادة بناء التمثيل الكامن لـ VQGAN من الصورة المشفرة.
ويتم استخدام متنبئ التسمية على أساس نموذج Paella لإنجاز هذه المهمة. يعتمد هذا النموذج على تمثيل الصورة المشفرة ويمكن تدريبه باستخدام عدد أقل من خطوات أخذ العينات، مما يساعد بشكل كبير في تحسين كفاءة طاقة الحوسبة.
قبلت Wuerstchen بيانات تدريب الصور بدقة تتراوح بين 1024x1024 و1536x1536، وجودة الصورة الناتجة مستقرة جدًا. حتى الصور غير المكافئة مثل 1024x2048 لا يزال بإمكانها تحقيق نتائج جيدة.
ينشئ Wuerstchen عرضًا للصور
وفقًا للحالة التي قدمها Wuerstchen، فإن قدرة النموذج على فهم النص جيدة جدًا، وتأثير الجودة الذي يولده يمكن مقارنته بأقوى نماذج النشر مفتوحة المصدر مثل Stable Diffusion.
صورة حقيقية لنسر يرتدي معطفاً أبيض