A Difusão Estável é atualmente um dos mais poderosos modelos de difusão de imagens geradas por texto de código aberto, mas tem uma grande desvantagem para pequenas e médias empresas e desenvolvedores individuais que não possuem A100 ou H100, exigindo altos custos de treinamento.
Para resolver esse problema, o modelo de código aberto Wuerstchen adota uma nova arquitetura técnica para atingir uma compactação máxima de 42 vezes, garantindo ao mesmo tempo a qualidade da imagem. ** Tomando como exemplo a imagem de treinamento de tamanho 512x512, Stable Diffusion1.4 requer 150.000 horas de treinamento de GPU, enquanto Wuerstchen requer apenas 9.000 horas, e o custo de treinamento é reduzido em 16 vezes**.
Mesmo que a resolução da imagem seja tão alta quanto 1536, Wuerstchen requer apenas 24.602 horas e o custo de treinamento ainda é 6 vezes mais barato que a Difusão Estável.
Portanto, este produto de código aberto é propício para desenvolvedores que não possuem grande poder computacional para experimentar o modelo de difusão e, ao mesmo tempo, podem explorar melhores métodos de treinamento com base nisso.
Endereço de código aberto:
GitHub:
papel:
Breve introdução de Wuerstchen
O modelo de difusão de Wuerstchen adota um método que funciona no espaço latente altamente comprimido da imagem. Esta é uma das razões pelas quais seu custo de treinamento é inferior ao da Difusão Estável.
A compactação de dados pode reduzir o custo de treinamento e inferência em ordens de grandeza. Por exemplo, treinar em imagens 1024×1024 é definitivamente muito mais caro do que treinar em imagens 32×32. Normalmente, a faixa de compressão usada na indústria é de cerca de 4 a 8 vezes.
E Wuerstchen levou a compressão ao extremo por meio de uma arquitetura técnica totalmente nova, alcançando uma compressão de espaço 42 vezes maior, o que é um avanço tecnológico sem precedentes! Porque uma vez que a compressão excede 16 vezes, os métodos comuns não conseguem realizar a reconstrução da imagem.
Princípio de compressão extrema de Wuerstchen
O método de compressão extrema de Wuerstchen é dividido em três estágios: A, B e C: Estágio A) realiza o treinamento inicial e usa rede adversária generativa de quantização vetorial (VQGAN) para criar um espaço latente discretizado e mapear os dados para um predefinido Esta representação compacta de pontos em um conjunto menor e definido ajuda a modelar o aprendizado e a velocidade de inferência;
Fase B) comprime ainda mais, usando um codificador para projetar a imagem em um espaço mais compacto e um decodificador para tentar reconstruir a representação latente do VQGAN a partir da imagem codificada.
E um preditor de rótulo baseado no modelo Paella é usado para realizar essa tarefa. Este modelo é baseado na representação da imagem codificada e pode ser treinado usando um número menor de etapas de amostragem, o que é uma grande ajuda para melhorar a eficiência do poder computacional.
Fase C) usa os codificadores de imagem de A e B para projetar imagens em um espaço latente compacto, treinar um modelo de difusão latente condicionado por texto e reduzir significativamente a dimensão espacial. Este espaço latente discreto permite que o modelo gere imagens mais diversas e inovadoras, mantendo as características de alta qualidade da imagem.
Tamanhos de imagem que Wuerstchen pode gerar
Wuerstchen aceitou dados de treinamento de imagem com resoluções entre 1024x1024 e 1536x1536, e a qualidade da imagem de saída é muito estável. Mesmo imagens não equivalentes, como 1024x2048, ainda podem obter bons resultados.
Os desenvolvedores também descobriram que Wuerstchen tem uma adaptabilidade muito forte ao treinamento de imagens de nova resolução.O ajuste fino de dados em imagens com resolução de 2048x2048 também pode reduzir bastante os custos.
Wuerstchen gera exibição de imagens
De acordo com o caso apresentado por Wuerstchen, a capacidade do modelo de compreender texto é muito boa e o efeito de qualidade que ele gera é comparável aos modelos de difusão de código aberto mais fortes, como o Stable Diffusion.
Foto real de uma águia vestindo um jaleco branco
Dois stormtroopers de Star Wars sentados em um bar bebendo cerveja
Fotos altamente realistas de abelhas vestidas de astronautas
Um rato vestindo preto de cortesia
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
O custo de treinamento é reduzido em 16 vezes e a compressão final é de 42 vezes! Modelo de imagem de geração de texto de código aberto
Fonte original: Comunidade Aberta AIGC
A Difusão Estável é atualmente um dos mais poderosos modelos de difusão de imagens geradas por texto de código aberto, mas tem uma grande desvantagem para pequenas e médias empresas e desenvolvedores individuais que não possuem A100 ou H100, exigindo altos custos de treinamento.
Para resolver esse problema, o modelo de código aberto Wuerstchen adota uma nova arquitetura técnica para atingir uma compactação máxima de 42 vezes, garantindo ao mesmo tempo a qualidade da imagem. ** Tomando como exemplo a imagem de treinamento de tamanho 512x512, Stable Diffusion1.4 requer 150.000 horas de treinamento de GPU, enquanto Wuerstchen requer apenas 9.000 horas, e o custo de treinamento é reduzido em 16 vezes**.
Mesmo que a resolução da imagem seja tão alta quanto 1536, Wuerstchen requer apenas 24.602 horas e o custo de treinamento ainda é 6 vezes mais barato que a Difusão Estável.
Portanto, este produto de código aberto é propício para desenvolvedores que não possuem grande poder computacional para experimentar o modelo de difusão e, ao mesmo tempo, podem explorar melhores métodos de treinamento com base nisso.
GitHub:
papel:
Breve introdução de Wuerstchen
O modelo de difusão de Wuerstchen adota um método que funciona no espaço latente altamente comprimido da imagem. Esta é uma das razões pelas quais seu custo de treinamento é inferior ao da Difusão Estável.
A compactação de dados pode reduzir o custo de treinamento e inferência em ordens de grandeza. Por exemplo, treinar em imagens 1024×1024 é definitivamente muito mais caro do que treinar em imagens 32×32. Normalmente, a faixa de compressão usada na indústria é de cerca de 4 a 8 vezes.
E Wuerstchen levou a compressão ao extremo por meio de uma arquitetura técnica totalmente nova, alcançando uma compressão de espaço 42 vezes maior, o que é um avanço tecnológico sem precedentes! Porque uma vez que a compressão excede 16 vezes, os métodos comuns não conseguem realizar a reconstrução da imagem.
Princípio de compressão extrema de Wuerstchen
O método de compressão extrema de Wuerstchen é dividido em três estágios: A, B e C: Estágio A) realiza o treinamento inicial e usa rede adversária generativa de quantização vetorial (VQGAN) para criar um espaço latente discretizado e mapear os dados para um predefinido Esta representação compacta de pontos em um conjunto menor e definido ajuda a modelar o aprendizado e a velocidade de inferência;
Fase B) comprime ainda mais, usando um codificador para projetar a imagem em um espaço mais compacto e um decodificador para tentar reconstruir a representação latente do VQGAN a partir da imagem codificada.
E um preditor de rótulo baseado no modelo Paella é usado para realizar essa tarefa. Este modelo é baseado na representação da imagem codificada e pode ser treinado usando um número menor de etapas de amostragem, o que é uma grande ajuda para melhorar a eficiência do poder computacional.
Wuerstchen aceitou dados de treinamento de imagem com resoluções entre 1024x1024 e 1536x1536, e a qualidade da imagem de saída é muito estável. Mesmo imagens não equivalentes, como 1024x2048, ainda podem obter bons resultados.
Wuerstchen gera exibição de imagens
De acordo com o caso apresentado por Wuerstchen, a capacidade do modelo de compreender texto é muito boa e o efeito de qualidade que ele gera é comparável aos modelos de difusão de código aberto mais fortes, como o Stable Diffusion.
Foto real de uma águia vestindo um jaleco branco