元のソース: 量子ビット
画像ソース: Unbounded AI によって生成
「新AI塗装細部制御マスター」 ControlNet-XS 登場!
重要なことは、パラメータには元の ControlNet の 1% のみが必要であるということです。
ケーキのフレーバーを自由に切り替えることができます。
** **###### △左の写真は変更前です
ワードローブを変えるのは簡単です:
上の写真と同じスタイル、ボディ形状は変わらず、芸術的な雰囲気が溢れています。
一年を通して自然の風景を楽しみ、季節の移り変わりを楽しむこともできます。
そしてこのフクロウは、生き物から直接彫刻に変身しました。
パラメータが非常に小さい場合、このような効果が得られるため、ネチズンはこれを「Juezi」とも呼び、論文を読むのが待ちきれませんでした。
ControlNet-XS はハイデルベルク大学のコンピュータ ビジョン研究室によって開発されましたが、現時点では関連する論文や事前学習モデルは公開されていません。
しかし研究者らは、ControlNet-XS** FID スコアは ControlNet** よりも大幅に優れていると述べました。
また、Stable Diffusion-XL と Stable Diffusion 2.1 を制御するコードは、近い将来オープンソースになる予定です。
Kangkang の StableDiffusion-XL の制御から始めましょう。
さまざまなサイズの制御モデルを評価した結果、研究者らは、制御モデルが 2.6B パラメーター StableDiffusion-XL ベース ネットワークと同じサイズである必要さえないことを発見しました。
ControlNet-XS による 400M、104M、および 48M パラメータの制御も明らかです。
深度マップは、より直感的な表示を提供します。画像コンテンツの距離と深度に応じて、深度マップは正確な色合いを示します。
ここで研究者が設定したシード値は行ごとに異なり、列ごとに同じであることに注意してください。
さらに、オブジェクトの境界と輪郭を明確に表示できる Canny エッジ検出マップもあります。
StableDiffusion の制御について、研究者らは 491M、55M、14M パラメータを備えた 3 つのバージョンの ControlNet-XS を評価しました。
結果は、1.6% のパラメータ (865M) も生成プロセスを確実に制御できることを示しています。
では、これはどのように行われるのでしょうか?
オリジナルの ControlNet は、StableDiffusion 基本モデルの U-Net エンコーダーのコピーであるため、エッジ マップなどの追加のガイダンス信号を含む、基本モデルと同じ入力を受け取ります。
次に、トレーニングされた ControlNet の中間出力が、基本モデルのデコーダ層の入力に追加されます。 ControlNet のトレーニング プロセス全体を通じて、基本モデルの重みは固定されたままになります。
ControlNet-XS の研究者は、このアプローチには問題があり、ControlNet をそれほど大きくする必要はないと考えています。
1 つ目は安定拡散の最終出力イメージで、一連のステップで繰り返し生成されます。各ステップは、U-Net ネットワーク構造のエンコーダー (Encoder) 部分とデコーダー (Decoder) 部分で実行されます。
各反復におけるベース モデルと制御モデルへの入力は、前のステップで生成されたイメージです。制御モデルは制御イメージも受け取ります。
問題は、両方のモデルがエンコーダ段階で独立して実行されるのに対し、制御モデルからのフィードバックはベース モデルのデコーダ段階でのみ入力されることです。
全体として、その結果、修正/制御メカニズムが遅れます。
言い換えれば、ControlNet は 2 つのタスクを実行する必要があります。1 つは補正/制御であり、もう 1 つは基本モデルのエンコーダがどのような「エラー」を起こすかを事前に予測する必要があります。
画像の生成と制御には同様のモデル容量が必要であることを暗示することにより、ControlNet の重みを基本モデルの重みで初期化し、その後微調整するのが自然です。
ControlNet-XSについては、研究者らは設計が基本モデルとは異なっており、ControlNet-XSの重みをゼロからトレーニングすることでフィードバックの遅れの問題を解決していると述べた。
上図に示すように、この方法では、ベース モデルのエンコーダーからコントロール エンコーダー (A) への接続を追加して、補正プロセスをベース モデルの生成プロセスに迅速に適応できるようにします。ただし、ベース モデルのエンコーダーはまだブートストラップされていないため、これで遅延が完全に解消されるわけではありません。
したがって、研究者らは、ControlNet-XS からベース モデル エンコーダへの接続を追加し、生成プロセス全体に直接影響を与えました (B)。
さらに、ミラー化デコード アーキテクチャの使用が ControlNet 設定 (C) で役立つかどうかを評価しました。
最後に、研究者らは、Canny エッジ ガイダンスの 3 つの異なるバリアント (A、B、C) とオリジナルの ControlNet の COCO2017 検証セットに対して FID スコア パフォーマンス評価を実施しました。
すべてのバリアントは、元の ControlNet パラメータの一部のみを使用しながら、大幅な改善をもたらします。
研究者らは、Canny エッジ マップと深度マップ ガイダンスをそれぞれ使用するバリアント B を考案し、StableDiffusion2.1 と StableDiffusion-XL に対して異なるサイズの 3 つのモデルをトレーニングしました。
したがって、次のステップは、関連する論文、コード、事前トレーニングされたモデルのリリースを待つことです~
プロジェクトアドレス:
14.4K 人気度
34.8K 人気度
40.7K 人気度
36.4K 人気度
1.9K 人気度
必要なパラメータはわずか 1%、その効果は ControlNet を超え、新しい AI ペイント コントロール マスターが登場
元のソース: 量子ビット
「新AI塗装細部制御マスター」 ControlNet-XS 登場!
重要なことは、パラメータには元の ControlNet の 1% のみが必要であるということです。
ケーキのフレーバーを自由に切り替えることができます。
**
**###### △左の写真は変更前です
ワードローブを変えるのは簡単です:
しかし研究者らは、ControlNet-XS** FID スコアは ControlNet** よりも大幅に優れていると述べました。
また、Stable Diffusion-XL と Stable Diffusion 2.1 を制御するコードは、近い将来オープンソースになる予定です。
新世代コントロールマスター
さまざまなサイズの制御モデルを評価した結果、研究者らは、制御モデルが 2.6B パラメーター StableDiffusion-XL ベース ネットワークと同じサイズである必要さえないことを発見しました。
ControlNet-XS による 400M、104M、および 48M パラメータの制御も明らかです。
深度マップは、より直感的な表示を提供します。画像コンテンツの距離と深度に応じて、深度マップは正確な色合いを示します。
さらに、オブジェクトの境界と輪郭を明確に表示できる Canny エッジ検出マップもあります。
結果は、1.6% のパラメータ (865M) も生成プロセスを確実に制御できることを示しています。
ゼロからのトレーニング
オリジナルの ControlNet は、StableDiffusion 基本モデルの U-Net エンコーダーのコピーであるため、エッジ マップなどの追加のガイダンス信号を含む、基本モデルと同じ入力を受け取ります。
次に、トレーニングされた ControlNet の中間出力が、基本モデルのデコーダ層の入力に追加されます。 ControlNet のトレーニング プロセス全体を通じて、基本モデルの重みは固定されたままになります。
ControlNet-XS の研究者は、このアプローチには問題があり、ControlNet をそれほど大きくする必要はないと考えています。
1 つ目は安定拡散の最終出力イメージで、一連のステップで繰り返し生成されます。各ステップは、U-Net ネットワーク構造のエンコーダー (Encoder) 部分とデコーダー (Decoder) 部分で実行されます。
各反復におけるベース モデルと制御モデルへの入力は、前のステップで生成されたイメージです。制御モデルは制御イメージも受け取ります。
問題は、両方のモデルがエンコーダ段階で独立して実行されるのに対し、制御モデルからのフィードバックはベース モデルのデコーダ段階でのみ入力されることです。
全体として、その結果、修正/制御メカニズムが遅れます。
言い換えれば、ControlNet は 2 つのタスクを実行する必要があります。1 つは補正/制御であり、もう 1 つは基本モデルのエンコーダがどのような「エラー」を起こすかを事前に予測する必要があります。
画像の生成と制御には同様のモデル容量が必要であることを暗示することにより、ControlNet の重みを基本モデルの重みで初期化し、その後微調整するのが自然です。
上図に示すように、この方法では、ベース モデルのエンコーダーからコントロール エンコーダー (A) への接続を追加して、補正プロセスをベース モデルの生成プロセスに迅速に適応できるようにします。ただし、ベース モデルのエンコーダーはまだブートストラップされていないため、これで遅延が完全に解消されるわけではありません。
したがって、研究者らは、ControlNet-XS からベース モデル エンコーダへの接続を追加し、生成プロセス全体に直接影響を与えました (B)。
さらに、ミラー化デコード アーキテクチャの使用が ControlNet 設定 (C) で役立つかどうかを評価しました。
最後に、研究者らは、Canny エッジ ガイダンスの 3 つの異なるバリアント (A、B、C) とオリジナルの ControlNet の COCO2017 検証セットに対して FID スコア パフォーマンス評価を実施しました。
すべてのバリアントは、元の ControlNet パラメータの一部のみを使用しながら、大幅な改善をもたらします。