O que é difusão estável e como maximizar seu poder
O avanço da Inteligência Artificial está agora tomando conta de alguns programas que vão ajudar a gerar imagens. Você pode ver a ferramenta Stable Diffusion. Mas o que é difusão estável? Esta é uma ferramenta de geração de imagens. Seu objetivo principal é gerar imagens usando prompts, e as pessoas acham atraente e divertido gerar vários personagens e elementos juntos. Saiba mais sobre o que é Difusão Estável e descubra como ela funciona.
Lista de guias
Parte 1: O que é difusão estável Parte 2: O que é difusão estável de VAE Parte 3: O que é Dreambooth em difusão estável e como instalar Parte 4: O que é escala CFG em difusão estável Parte 5: O que é difusão estável de força de redução de ruído Parte 6: O que é difusão estável Clip Skip e como usar Parte 7: O que é velocidade de geração de difusão estável e como acelerar Parte 8: Perguntas frequentes sobre difusão estávelParte 1: O que é difusão estável
É um modelo de aprendizado profundo, de texto para imagem, criando imagens inserindo prompts para descrever o assunto principal. Por exemplo, você pode colocar 'gato' e a ferramenta gerará a imagem de um gato. No entanto, pode enfatizar ou adicionar mais detalhes quando você insere prompts complexos. A rede neural generativa torna-se mais do que uma ferramenta de IA, pois também é condicionada a outras tarefas, como pintura externa, pintura interna e tradução de imagem para imagem por meio de prompts de texto.
A Stable Diffusion foi desenvolvida e financiada pela Stability AI, mas o grupo CompVis da Universidade Ludwig Maximilian de Munique possui a licença técnica para o modelo de difusão latente. Além disso, o desenvolvimento foi liderado pelos pesquisadores Patrick Esser e Robin Rombach, obtendo mais dados de treinamento de organizações sem fins lucrativos na Alemanha como apoiadores dos projetos. Mais tarde, em outubro de 2022, a empresa arrecadou US$ $101 milhões após apresentá-lo inicialmente em agosto de 2022.
Parte 2. O que é difusão estável de VAE
Você pode ter encontrado isso ao usar o gerador de fotos AI, e o VAE é útil para a ferramenta. VAE significa Variable Auto Encoder, usado para ajustar o decodificador para pintar melhores detalhes. É uma adição à ferramenta AI, pois pode ajudar a obter imagens mais nítidas e cores vibrantes e melhorar a geração de mãos e rostos.
Obviamente, o VAE é mais do que apenas difusão estável, porque todos os modelos possuem VAEs integrados para resolver os detalhes. A comparação será o resultado entre cada modelo e como eles ficarão quando você compactar as fotos. Além disso, existem arquivos VAE separados que você pode baixar no seu dispositivo. Para experimentar um decodificador, você pode usar o seguinte:
- Orangemix/qualquer coisa VAE para anime.
- Kl-f8-anime2 para anime.
- Vae-ft-mse-840000-ema-pruned para realismo ou pinturas.
Parte 3. O que é Dreambooth em difusão estável e como instalar
O DreamBooth é um modelo de geração de aprendizado profundo que ajusta as imagens geradas, especialmente o assunto específico. Inicialmente, é baseado no modelo de texto para imagem do Imagen, mas, infelizmente, o Imagen não possui os pesos pré-treinados como Stable Diffusion ou outras ferramentas de IA. DreamBooth foi desenvolvido por pesquisadores do Google e alguns colegas da Universidade de Boston em 2022.
O trabalho do modelo é modificar e ajustar as fotos geradas, mas também é capaz de renderizar assuntos familiares em qualquer cenário e situação. Como a maioria dos modelos de difusão pré-treinados ainda precisa ser aprimorada nesta categoria, o DreamBooth aumentará o treinamento para modelos de difusão. Com apenas cinco imagens, a modificação da imagem pode ser feita com plataformas como Stable Diffusion. Aqui está uma breve instrução sobre como usar o DreamBooth na difusão estável:
Passo 1.Primeiro, você deve ter imagens de treinamento de um assunto para usar no DreamBooth. Certifique-se de que o assunto tenha fotos capturadas. Prossiga para redimensionar as imagens para 512x512 pixels.
Passo 2.Abra o DreamBooth e entre Solicitação de instância e Solicitação de classe. Processe as alterações clicando no botão Toque botão da parte esquerda da interface.
Etapa 3.Quando terminar, teste-o e você receberá algumas amostras geradas pelo modelo. Você pode baixar o arquivo de ponto de verificação do modelo do seu Google Drive e instalá-lo na GUI.
Parte 4. O que é escala CFG em difusão estável
Você pode encontrar este valor definido no modelo do gerador de fotos. E como é essencial, você deve aprender o que vale a pena otimizar as imagens. A escala de orientação livre do classificador permite que os usuários ajustem a proximidade do resultado da imagem de entrada ou dos prompts usados. Por exemplo, quando você ajusta a Escala CFG para um valor mais excelente, a saída será mais semelhante à imagem de entrada, mas espera-se que fique distorcida. Por outro lado, uma escala CGF mais baixa fará com que a saída se afaste do prompt primário, gerando melhor qualidade.
Mas quando você precisa usar a escala CFG em difusão estável? A resposta é simples: o gerador de fotos AI não pode criar algo que não esteja dentro de seu conhecimento, então a escala CFG ajudará você a unir vários assuntos aumentando seu valor. A única desvantagem é o gasto com a qualidade da imagem, que é proporcional aos prompts. Se estiver interessado nesta ferramenta, você deve praticar a calibração da balança para encontrar o ponto ideal.
Parte 5. O que é difusão estável de força de redução de ruído
Este método inicia um processo que adiciona ruído às imagens de entrada. é apenas um Upscaler de difusão estável. É um valor excelente para difusão estável, pois pode passar de imagem para imagem (img2img) ou InPaint. A quantidade de ruído é controlada por Denoise Strength, de um mínimo de 0 a um máximo de 1. Colocar o valor em 0 reduzirá o ruído a nenhum, criando uma imagem semelhante à imagem de entrada. Caso contrário, o valor de 1 substituirá a entrada por ruído.
Você pode usar a força de redução de ruído como um método prático para determinar a proximidade da saída com a influência das imagens de entrada. Um ótimo exemplo é uma força de redução de ruído mais baixa que faz com que as imagens geradas pareçam mais próximas da entrada, uma configuração ideal para pequenas modificações. Por outro lado, maior resistência à redução de ruído provavelmente aumentará a variação enquanto reduz a similaridade das imagens de entrada e saída. Portanto, valores mais altos são úteis para modificações significativas.
Parte 6. O que é difusão estável Clip Skip e como usar
CLIP é conhecido como uma camada de incorporação que é usada para analisar textos. Sua estrutura é composta por camadas, que por indivíduo, é mais específica que a anterior. Por exemplo, a Camada 1 pode ser “Pessoa” e a Camada 2 será “feminina” ou “masculina”. Então, a próxima camada será “pai, pai, homem, menino, etc.”
Seu objetivo é obter o modelo de texto preciso, que interrompe a longa lista de camadas, eventualmente misturando mais dados e fornecendo mais do que você precisa. O melhor exemplo disso é o modelo 1.5 com 12 fileiras de profundidade. Cada camada tem incorporação de texto e pode ser misturada com outros detalhes, como tamanho, cor, etc. CLIP pula a dimensão do espaço do texto e obtém a saída exata. Veja como usá-lo:
Passo 1.No Ponto de verificação de difusão estável, vá para as configurações e selecione “Difusão estável”.
Passo 2.Role para baixo e vá para “Clip Skip”. Defina-o com o valor desejado e, em seguida, role para cima para clicar no botão "Aplicar configurações".
Parte 7. O que é velocidade de geração de difusão estável e como acelerar
Quando você olha para a velocidade de um gerador de IA, espera que demore algum tempo para mostrar resultados. No entanto, a difusão estável tem uma velocidade de geração de 10 segundos. Isso é apenas para uso geral da ferramenta online, mas o tempo ainda pode ser reduzido em até quatro segundos ao assinar o plano principal ou padrão. Essa é uma maneira de acelerar a velocidade do modelo, mas a precisão do resultado se afasta da entrada Prompts de difusão estável. Além disso, a ferramenta é gratuita com apenas algumas limitações de recursos dos planos pagos. Então, como você acelera a velocidade de geração sem pagar?
O único requisito para a aceleração é uma placa Nvidia, que pode ser das séries 4000, 3000, 2000 e até 1000. Você pode usar Lovelace, Ampere, Pascal Turing, etc. Como alternativa, use uma precisão menor como float16 e execute menos etapas de inferência.
Dicas de bônus: alterar o tamanho dos resultados de difusão estável
Depois de aprender sobre o modelo de IA, há mais uma coisa que você precisa saber: o tamanho do arquivo é um fator importante para as imagens e elas podem consumir seu espaço de armazenamento devido aos tamanhos de arquivo maiores. Mas com Compressor de imagem gratuito AnyRec on-line, compactar as fotos será conveniente. A ferramenta online possui a mais recente tecnologia AI para ajudar a otimizar os uploads enquanto reduz o tamanho do arquivo. Como gera arquivos menores, o usuário pode importar mais imagens da pasta local, e o compressor irá carregá-las instantaneamente.
- Comprima imagens geradas por difusão estável com qualidade.
- Não tenha marca d'água aplicada às imagens compactadas.
- Suporta formatos como JPEG, GIF, TIFF, BMP, PNG e muito mais.
- Corrija automaticamente os novos pixels distorcidos, embaçados e preenchidos na imagem.
Parte 8. Perguntas frequentes sobre difusão estável
-
1. Posso usar a difusão estável offline?
Sim. a ferramenta pode ser usada sem uma conexão com a internet. Isso ocorre porque ele pode armazenar os dados sintéticos localmente, treinando os modelos de IA para serem usados sem uma rede de internet.
-
2. Quais são as desvantagens do gerador de fotos AI?
Além dos benefícios, a ferramenta pode ser computacionalmente intensiva, enquanto consome tempo ao lidar com fotos e vídeos com dados mais extensos. Outra é que a qualidade depende dos dados de entrada e dos parâmetros de rede usados. Isso significa que não há garantia de que você obterá uma imagem de alta qualidade.
-
3. Preciso de equipamentos de última geração ao usar a difusão estável?
Não. O gerador de fotos pode ser usado sem a versão mais recente do computador. Mesmo se você tiver a versão posterior, será suficiente usar o gerador de IA.
-
4. Onde obter prompts de texto?
O Stable Diffusion possui um engenheiro de prompt de texto integrado que ajuda você a pesquisar prompts. Basta digitar um texto e clicar no botão Pesquisar. Os resultados aparecerão em segundos com imagens como amostras.
-
5. Qual GPU preciso para executar a ferramenta online?
Como suporta a maioria das GPUs, você pode executar o gerador de imagem AI com Nvidia e AMD em 6 GB
Conclusão
esta postagem explica o que é difusão estável e como funciona com Clip Skip, VAE, DreamBooth, CFG Scale e Denoising Strength. Por outro lado, você pode usar o AnyRec Free Image Compressor Online para reduzir o tamanho dos arquivos das imagens geradas. É totalmente gratuito e ilimitado para usar!