出典: AIGC オープン コミュニティ
画像ソース: Unbounded AI によって生成
Stable Diffusion は、現在最も強力なオープンソースのテキスト生成画像拡散モデルの 1 つですが、A100 や H100 を持たない中小企業や個人の開発者にとっては、高額なトレーニング コストが必要となるという大きな欠点があります。
この問題点を解決するために、Wuerstchen オープンソース モデルは、画質を確保しながら 42 倍の究極圧縮を達成する新しい技術アーキテクチャを採用しています。 ** 512x512 サイズのトレーニング画像を例にとると、Stable Diffusion1.4 では 150,000 時間の GPU トレーニング時間が必要ですが、Wuerstchen では 9,000 時間しか必要とせず、トレーニング コストは 16 分の 1 に削減されます**。
画像解像度が 1536 と高くても、Wuerstchen に必要な時間は 24,602 時間だけであり、トレーニング コストは依然として安定拡散より 6 倍安価です。
したがって、このオープンソース製品は、大きなコンピューティング能力を持たない開発者が普及モデルを試すのに役立ち、同時に、これに基づいてより良いトレーニング方法を模索することができます。
オープンソースのアドレス:
ギットハブ:
紙:
Wuerschen 拡散モデルは、画像の高度に圧縮された潜在空間で機能する方法を採用しています。これが、安定拡散よりもトレーニングコストが低い理由の 1 つです。
データを圧縮すると、トレーニングと推論のコストを桁違いに削減できます。たとえば、1024×1024 画像でのトレーニングは、32×32 画像でのトレーニングよりも明らかにコストが高くなります。通常、業界で使用される圧縮範囲は約 4 ~ 8 倍です。
そして Wuerschen は、まったく新しい技術アーキテクチャを通じて圧縮を極限まで推し進め、42 倍の空間圧縮を達成しました。これは前例のない技術的進歩です。 圧縮率が 16 倍を超えると、通常の方法では画像の再構成がまったく不可能になるためです。
Wuerstchen の極端な圧縮方法は 3 つのステージに分かれています: A、B、C: ステージ A) は初期トレーニングを実行し、ベクトル量子化敵対的生成ネットワーク (VQGAN) を使用して離散化された潜在空間を作成し、データをマップします。プリセット 定義された小さなセット内の点のこのコンパクトな表現は、モデルの学習と推論の速度に役立ちます。
フェーズ B) ではさらに圧縮し、エンコーダを使用して画像をよりコンパクトな空間に投影し、デコーダを使用してエンコードされた画像から VQGAN の潜在表現を再構築しようとします。
そして、このタスクを達成するために、パエリア モデルに基づくラベル予測子が使用されます。このモデルは、エンコードされた画像の表現に基づいており、より少ない数のサンプリング ステップを使用してトレーニングできるため、コンピューティングの電力効率を向上させるのに非常に役立ちます。
**フェーズ C) では、A と B の画像エンコーダーを使用して画像をコンパクトな潜在空間に投影し、テキスト条件付き潜在拡散モデルをトレーニングして、空間次元を大幅に削減します。この離散的な潜在空間により、モデルは画像の高品質な特徴を維持しながら、より多様で革新的な画像を生成できます。
Wuerstchen が生成できる画像サイズ
Wuerstchen は、解像度 1024x1024 ~ 1536x1536 の画像トレーニング データを受け入れ、出力画像の品質は非常に安定しています。 1024x2048 などの非同等の画像でも良好な結果が得られます。
開発者はまた、Wuerstchen が新しい解像度の画像のトレーニングに対して非常に高い適応性を持っていることも発見し、2048x2048 解像度の画像の下でデータを微調整することによりコストを大幅に削減することもできます。
Wuerstchen 氏が提示した事例によると、このモデルのテキスト理解能力は非常に優れており、生成される品質効果は Stable Diffusion などの最も強力なオープンソース拡散モデルに匹敵します。
白衣を着たワシの実物写真
バーに座ってビールを飲みながらスター・ウォーズに登場する 2 人のストームトルーパー
宇宙飛行士に扮したミツバチの非常にリアルな写真
黒い儀礼を着たネズミ
3.6K 人気度
21.5K 人気度
31.2K 人気度
35.5K 人気度
139 人気度
トレーニングコストは16倍に削減され、究極の圧縮は42倍になります。オープンソースのテキスト生成画像モデル
出典: AIGC オープン コミュニティ
Stable Diffusion は、現在最も強力なオープンソースのテキスト生成画像拡散モデルの 1 つですが、A100 や H100 を持たない中小企業や個人の開発者にとっては、高額なトレーニング コストが必要となるという大きな欠点があります。
この問題点を解決するために、Wuerstchen オープンソース モデルは、画質を確保しながら 42 倍の究極圧縮を達成する新しい技術アーキテクチャを採用しています。 ** 512x512 サイズのトレーニング画像を例にとると、Stable Diffusion1.4 では 150,000 時間の GPU トレーニング時間が必要ですが、Wuerstchen では 9,000 時間しか必要とせず、トレーニング コストは 16 分の 1 に削減されます**。
画像解像度が 1536 と高くても、Wuerstchen に必要な時間は 24,602 時間だけであり、トレーニング コストは依然として安定拡散より 6 倍安価です。
したがって、このオープンソース製品は、大きなコンピューティング能力を持たない開発者が普及モデルを試すのに役立ち、同時に、これに基づいてより良いトレーニング方法を模索することができます。
ギットハブ:
紙:
ヴュルストヒェンの簡単な紹介
Wuerschen 拡散モデルは、画像の高度に圧縮された潜在空間で機能する方法を採用しています。これが、安定拡散よりもトレーニングコストが低い理由の 1 つです。
データを圧縮すると、トレーニングと推論のコストを桁違いに削減できます。たとえば、1024×1024 画像でのトレーニングは、32×32 画像でのトレーニングよりも明らかにコストが高くなります。通常、業界で使用される圧縮範囲は約 4 ~ 8 倍です。
そして Wuerschen は、まったく新しい技術アーキテクチャを通じて圧縮を極限まで推し進め、42 倍の空間圧縮を達成しました。これは前例のない技術的進歩です。 圧縮率が 16 倍を超えると、通常の方法では画像の再構成がまったく不可能になるためです。
ヴェルストチェン極度圧縮原理
Wuerstchen の極端な圧縮方法は 3 つのステージに分かれています: A、B、C: ステージ A) は初期トレーニングを実行し、ベクトル量子化敵対的生成ネットワーク (VQGAN) を使用して離散化された潜在空間を作成し、データをマップします。プリセット 定義された小さなセット内の点のこのコンパクトな表現は、モデルの学習と推論の速度に役立ちます。
フェーズ B) ではさらに圧縮し、エンコーダを使用して画像をよりコンパクトな空間に投影し、デコーダを使用してエンコードされた画像から VQGAN の潜在表現を再構築しようとします。
そして、このタスクを達成するために、パエリア モデルに基づくラベル予測子が使用されます。このモデルは、エンコードされた画像の表現に基づいており、より少ない数のサンプリング ステップを使用してトレーニングできるため、コンピューティングの電力効率を向上させるのに非常に役立ちます。
Wuerstchen は、解像度 1024x1024 ~ 1536x1536 の画像トレーニング データを受け入れ、出力画像の品質は非常に安定しています。 1024x2048 などの非同等の画像でも良好な結果が得られます。
Wuerstchen は画像表示を生成します
Wuerstchen 氏が提示した事例によると、このモデルのテキスト理解能力は非常に優れており、生成される品質効果は Stable Diffusion などの最も強力なオープンソース拡散モデルに匹敵します。
白衣を着たワシの実物写真