O que é difusão estável e como maximizar seu poder

Liam Miller
26 de julho de 2023 / Atualizado por Liam Miller para Ferramentas de IA

O avanço da Inteligência Artificial está agora tomando conta de alguns programas que vão ajudar a gerar imagens. Você pode ver a ferramenta Stable Diffusion. Mas o que é difusão estável? Esta é uma ferramenta de geração de imagens. Seu objetivo principal é gerar imagens usando prompts, e as pessoas acham atraente e divertido gerar vários personagens e elementos juntos. Saiba mais sobre o que é Difusão Estável e descubra como ela funciona.

Parte 1: O que é difusão estável

É um modelo de aprendizado profundo, de texto para imagem, criando imagens inserindo prompts para descrever o assunto principal. Por exemplo, você pode colocar 'gato' e a ferramenta gerará a imagem de um gato. No entanto, pode enfatizar ou adicionar mais detalhes quando você insere prompts complexos. A rede neural generativa torna-se mais do que uma ferramenta de IA, pois também é condicionada a outras tarefas, como pintura externa, pintura interna e tradução de imagem para imagem por meio de prompts de texto.

A Stable Diffusion foi desenvolvida e financiada pela Stability AI, mas o grupo CompVis da Universidade Ludwig Maximilian de Munique possui a licença técnica para o modelo de difusão latente. Além disso, o desenvolvimento foi liderado pelos pesquisadores Patrick Esser e Robin Rombach, obtendo mais dados de treinamento de organizações sem fins lucrativos na Alemanha como apoiadores dos projetos. Mais tarde, em outubro de 2022, a empresa arrecadou US$ $101 milhões após apresentá-lo inicialmente em agosto de 2022.

Difusão estável

Parte 2. O que é difusão estável de VAE

Você pode ter encontrado isso ao usar o gerador de fotos AI, e o VAE é útil para a ferramenta. VAE significa Variable Auto Encoder, usado para ajustar o decodificador para pintar melhores detalhes. É uma adição à ferramenta AI, pois pode ajudar a obter imagens mais nítidas e cores vibrantes e melhorar a geração de mãos e rostos.

Obviamente, o VAE é mais do que apenas difusão estável, porque todos os modelos possuem VAEs integrados para resolver os detalhes. A comparação será o resultado entre cada modelo e como eles ficarão quando você compactar as fotos. Além disso, existem arquivos VAE separados que você pode baixar no seu dispositivo. Para experimentar um decodificador, você pode usar o seguinte:

Arquivos Vae

Parte 3. O que é Dreambooth em difusão estável e como instalar

O DreamBooth é um modelo de geração de aprendizado profundo que ajusta as imagens geradas, especialmente o assunto específico. Inicialmente, é baseado no modelo de texto para imagem do Imagen, mas, infelizmente, o Imagen não possui os pesos pré-treinados como Stable Diffusion ou outras ferramentas de IA. DreamBooth foi desenvolvido por pesquisadores do Google e alguns colegas da Universidade de Boston em 2022.

O trabalho do modelo é modificar e ajustar as fotos geradas, mas também é capaz de renderizar assuntos familiares em qualquer cenário e situação. Como a maioria dos modelos de difusão pré-treinados ainda precisa ser aprimorada nesta categoria, o DreamBooth aumentará o treinamento para modelos de difusão. Com apenas cinco imagens, a modificação da imagem pode ser feita com plataformas como Stable Diffusion. Aqui está uma breve instrução sobre como usar o DreamBooth na difusão estável:

Passo 1.Primeiro, você deve ter imagens de treinamento de um assunto para usar no DreamBooth. Certifique-se de que o assunto tenha fotos capturadas. Prossiga para redimensionar as imagens para 512x512 pixels.

Passo 2.Abra o DreamBooth e entre Solicitação de instância e Solicitação de classe. Processe as alterações clicando no botão Toque botão da parte esquerda da interface.

Solicitação de instância do Dreambooth

Etapa 3.Quando terminar, teste-o e você receberá algumas amostras geradas pelo modelo. Você pode baixar o arquivo de ponto de verificação do modelo do seu Google Drive e instalá-lo na GUI.

Teste Dreambooth

Parte 4. O que é escala CFG em difusão estável

Você pode encontrar este valor definido no modelo do gerador de fotos. E como é essencial, você deve aprender o que vale a pena otimizar as imagens. A escala de orientação livre do classificador permite que os usuários ajustem a proximidade do resultado da imagem de entrada ou dos prompts usados. Por exemplo, quando você ajusta a Escala CFG para um valor mais excelente, a saída será mais semelhante à imagem de entrada, mas espera-se que fique distorcida. Por outro lado, uma escala CGF mais baixa fará com que a saída se afaste do prompt primário, gerando melhor qualidade.

Mas quando você precisa usar a escala CFG em difusão estável? A resposta é simples: o gerador de fotos AI não pode criar algo que não esteja dentro de seu conhecimento, então a escala CFG ajudará você a unir vários assuntos aumentando seu valor. A única desvantagem é o gasto com a qualidade da imagem, que é proporcional aos prompts. Se estiver interessado nesta ferramenta, você deve praticar a calibração da balança para encontrar o ponto ideal.

Escala CFG

Parte 5. O que é difusão estável de força de redução de ruído

Este método inicia um processo que adiciona ruído às imagens de entrada. é apenas um Upscaler de difusão estável. É um valor excelente para difusão estável, pois pode passar de imagem para imagem (img2img) ou InPaint. A quantidade de ruído é controlada por Denoise Strength, de um mínimo de 0 a um máximo de 1. Colocar o valor em 0 reduzirá o ruído a nenhum, criando uma imagem semelhante à imagem de entrada. Caso contrário, o valor de 1 substituirá a entrada por ruído.

Você pode usar a força de redução de ruído como um método prático para determinar a proximidade da saída com a influência das imagens de entrada. Um ótimo exemplo é uma força de redução de ruído mais baixa que faz com que as imagens geradas pareçam mais próximas da entrada, uma configuração ideal para pequenas modificações. Por outro lado, maior resistência à redução de ruído provavelmente aumentará a variação enquanto reduz a similaridade das imagens de entrada e saída. Portanto, valores mais altos são úteis para modificações significativas.

Resistência Denoising

Parte 6. O que é difusão estável Clip Skip e como usar

CLIP é conhecido como uma camada de incorporação que é usada para analisar textos. Sua estrutura é composta por camadas, que por indivíduo, é mais específica que a anterior. Por exemplo, a Camada 1 pode ser “Pessoa” e a Camada 2 será “feminina” ou “masculina”. Então, a próxima camada será “pai, pai, homem, menino, etc.”

Seu objetivo é obter o modelo de texto preciso, que interrompe a longa lista de camadas, eventualmente misturando mais dados e fornecendo mais do que você precisa. O melhor exemplo disso é o modelo 1.5 com 12 fileiras de profundidade. Cada camada tem incorporação de texto e pode ser misturada com outros detalhes, como tamanho, cor, etc. CLIP pula a dimensão do espaço do texto e obtém a saída exata. Veja como usá-lo:

Passo 1.No Ponto de verificação de difusão estável, vá para as configurações e selecione “Difusão estável”.

Passo 2.Role para baixo e vá para “Clip Skip”. Defina-o com o valor desejado e, em seguida, role para cima para clicar no botão "Aplicar configurações".

Ignorar Clipe

Parte 7. O que é velocidade de geração de difusão estável e como acelerar

Quando você olha para a velocidade de um gerador de IA, espera que demore algum tempo para mostrar resultados. No entanto, a difusão estável tem uma velocidade de geração de 10 segundos. Isso é apenas para uso geral da ferramenta online, mas o tempo ainda pode ser reduzido em até quatro segundos ao assinar o plano principal ou padrão. Essa é uma maneira de acelerar a velocidade do modelo, mas a precisão do resultado se afasta da entrada Prompts de difusão estável. Além disso, a ferramenta é gratuita com apenas algumas limitações de recursos dos planos pagos. Então, como você acelera a velocidade de geração sem pagar?

O único requisito para a aceleração é uma placa Nvidia, que pode ser das séries 4000, 3000, 2000 e até 1000. Você pode usar Lovelace, Ampere, Pascal Turing, etc. Como alternativa, use uma precisão menor como float16 e execute menos etapas de inferência.

Dicas de bônus: alterar o tamanho dos resultados de difusão estável

Depois de aprender sobre o modelo de IA, há mais uma coisa que você precisa saber: o tamanho do arquivo é um fator importante para as imagens e elas podem consumir seu espaço de armazenamento devido aos tamanhos de arquivo maiores. Mas com Compressor de imagem gratuito AnyRec on-line, compactar as fotos será conveniente. A ferramenta online possui a mais recente tecnologia AI para ajudar a otimizar os uploads enquanto reduz o tamanho do arquivo. Como gera arquivos menores, o usuário pode importar mais imagens da pasta local, e o compressor irá carregá-las instantaneamente.

Parte 8. Perguntas frequentes sobre difusão estável

Conclusão

esta postagem explica o que é difusão estável e como funciona com Clip Skip, VAE, DreamBooth, CFG Scale e Denoising Strength. Por outro lado, você pode usar o AnyRec Free Image Compressor Online para reduzir o tamanho dos arquivos das imagens geradas. É totalmente gratuito e ilimitado para usar!

Artigos relacionados: