Como usar a difusão estável para criar imagens geradas por IA

2023/04/07

Os chatbots de inteligência artificial, como o ChatGPT, tornaram-se incrivelmente poderosos recentemente – estão em todos os noticiários! Mas não se esqueça dos geradores de imagem AI (como Stable Diffusion, DALL-E e Midjourney). Eles podem criar praticamente qualquer imagem quando fornecidos com apenas algumas palavras. Siga este tutorial para aprender como fazer isso gratuitamente, sem restrições, executando o Stable Diffusion em seu computador.

O que é difusão estável?

Stable Diffusion é um modelo de aprendizado de máquina de conversão de texto em imagem gratuito e de código aberto. Basicamente, é um programa que permite que você descreva uma imagem usando texto e crie a imagem para você. Ele recebeu bilhões de imagens e descrições de texto que os acompanham e foi ensinado a analisá-los e reconstruí-los.

O Stable Diffusion não é o programa que você usa diretamente – pense nele mais como a ferramenta de software subjacente que outros programas usam. Este tutorial mostra como instalar um programa Stable Diffusion em seu computador. Observe que existem muitos programas e sites que usam o Stable Diffusion, mas muitos cobram dinheiro e não oferecem tanto controle.

Requisitos de sistema

As diretrizes gerais para o que você deve buscar são as seguintes:

macOS: Apple Silicon (um chip da série M)

Windows ou Linux: GPU NVIDIA ou AMD
RAM: 16 GB para melhores resultados
GPU VRAM: pelo menos 4 GB
Armazenamento: pelo menos 15 GB

Instale a IU da Web AUTOMATIC1111

Estamos usando o programa AUTOMATIC1111 Web UI , disponível em todos os principais sistemas operacionais de desktop, para acessar o Stable Diffusion. Certifique-se de anotar onde o diretório “stable-diffiusion-webui” é baixado.

AUTOMATIC1111 IU da Web no macOS

No Terminal, instale o Homebrew digitando o comando:

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

Macos de difusão estável Instalar Homebrew

Copie os dois comandos para adicionar o Homebrew ao seu PATH e insira-os.

Macos de difusão estável adicionam homebrew ao caminho

Saia e reabra o Terminal, depois digite:

brew install cmake protobuf rust python@3.10 git wget

Dependências de instalação de Macos Brew de difusão estável

Digitar:

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui

Difusão estável Macos Git Clone interface do usuário da Web

AUTOMATIC1111 IU da Web no Windows

Baixe a última versão estável do Python 3.10 .

Stable Diffusion Windows Python Website Stable Release 3 10 1

Execute o instalador do Python, marque “Adicionar python.exe ao PATH” e clique em “Instalar agora”.

Difusão estável Windows Instalar Python 3 Adicionar ao caminho

Acesse o repositório AUTOMATIC1111 Web UI no GitHub, clique em “Code” e, em seguida, clique em “Download ZIP” e extraia-o.

Difusão estável Windows Github Download do código

AUTOMATIC1111 IU da Web no Linux

Abra o Terminal.

Terminal Aberto Linux de Difusão Estável

Digite um dos seguintes comandos, dependendo do seu tipo de Linux:

Baseado em Debian, incluindo Ubuntu:

sudo apt-get updatesudo apt install wget git python3 python3-ven

Baseado em Red Hat:

sudo dnf install wget git python3

Baseado em arco:

sudo pacman -S wget git python3

Instale em “/home/$(whoami)/stable-diffusion-webui/” executando este comando:

bash <(wget -qO- https://raw.githubusercontent.com/AUTOMATIC1111/stable-diffusion-webui/master/webui.sh)

Difusão estável Linux Instalar interface do usuário da Web

Instalar um modelo

Você ainda precisará adicionar pelo menos um modelo antes de começar a usar a IU da Web.

Acesse o CIVITAL .
Clique na seta suspensa no botão de download e selecione “Model SafeTensor”.

Difusão estável Civit Ai Download deliberado Modelo Safetensor 1

Mova o. safetensors arquivo baixado na etapa 2 em sua pasta “stable-diffiusion-webui/models/Stable-diffusion”.

Difusão estável Mover para a pasta de modelos Webui 1

Executar e configurar a IU da Web

Neste ponto, você está pronto para executar e começar a usar o programa Stable Diffusion em seu navegador da web.

Em seu terminal, abra seu diretório “stable-diffusion-webui” e digite o comando ./webui.sh --xformerspara Linux/macOS ou ./webui-user.batpara Windows. Quando terminar, selecione e copie a URL ao lado de “Executando na URL local”, que deve se parecer com http://127.0.0.1:7860.

URL local do Webui Xformers de difusão estável

Cole o link na barra de endereços do seu navegador e clique em Enter. O site da interface do usuário da Web será exibido.

Navegador de site Webui de difusão estável

Vamos alterar algumas configurações para obter melhores resultados. Vá para “Configurações -> Difusão estável”.

Configurações de difusão estável Difusão estável

Role para baixo e marque “Ativar quantização em K samplers para resultados mais nítidos e limpos”.

Stable Diffusion Settings Quantization K Samplers Sharper Cleaner

Role para cima e clique em “Aplicar configurações” e depois em “Recarregar interface do usuário”.

Configurações de difusão estável Aplicar configurações Recarregar interface do usuário

FYI: Se você precisar encontrar uma fonte de imagem, use o Google.

Use txt2txt para gerar imagens conceituais

Agora vem a parte divertida: criar algumas imagens iniciais e procurar aquela que mais se pareça com o visual que você deseja.

Vá para a guia “txt2img”.
Na primeira caixa de texto do prompt, digite as palavras que descrevem sua imagem separadas por vírgulas. Ajuda incluir palavras que descrevam o estilo da imagem, como “realista”, “detalhado” ou “retrato em close”.

Na caixa de texto de solicitação negativa abaixo, digite as palavras-chave com as quais você não deseja que sua imagem se pareça. Por exemplo, se estiver tentando criar imagens realistas, adicione palavras como “videogame”, “arte” e “ilustração”.

Prompt negativo de difusão estável Txt2img

Role para baixo e defina “Tamanho do lote” para “4”. Isso fará com que o Stable Diffusion produza quatro imagens diferentes de seu prompt.

Torne a “Escala CFG” um valor mais alto se quiser que a difusão estável siga suas palavras-chave de prompt mais estritamente ou um valor mais baixo se quiser que seja mais criativo. Um valor baixo (como o padrão de 7) geralmente produz imagens de boa qualidade e criativas.

Deixe as outras configurações em seus padrões por enquanto. Clique no grande botão “Gerar” na parte superior para que a difusão estável comece a funcionar.

Abaixo do botão “Gerar”, clique nas miniaturas das imagens para visualizá-las e determinar se você gosta de alguma delas.

Se não gostar de nenhuma das imagens, repita os passos 1 a 5 com pequenas variações.

Se você gosta de uma imagem geral, mas deseja modificá-la ou corrigir problemas (um rosto distorcido, problemas anatômicos etc.), clique em “Enviar para img2img” ou “Enviar para inpaint”. Isso copiará sua imagem e direcionará para as respectivas guias, onde você poderá melhorar a imagem.

Se uma imagem for excepcionalmente interessante ou boa, clique no botão “Salvar” seguido do botão “Download”.

Download de salvamento de difusão estável

Encontrando os prompts usados para imagens anteriores

Depois de gerar algumas imagens, é útil obter os prompts e as configurações usadas para criar uma imagem após o fato.

Clique na guia “Informações do PNG”.

Informações Png de Difusão Estável Drop Image Upload

Carregue uma imagem na caixa. Todos os prompts e outros detalhes da sua imagem aparecerão à direita.

Resultados de informações de png de difusão estável

Use img2img para gerar imagens semelhantes

Você pode usar o recurso img2img para gerar novas imagens imitando a aparência geral de qualquer imagem base.

Na guia “img2img”, verifique se você está usando uma imagem gerada anteriormente com os mesmos prompts.

Defina o valor “Redução de ruído” para maior ou menor para regenerar mais ou menos de sua imagem (0,50 regenera 50% e 1 regenera 100%).

Força Desenrolamento de Difusão Estável 04

Clique em “Gerar” e revise as diferenças. Se você não estiver satisfeito, repita as etapas 1 a 3 após ajustar as configurações.

Como alternativa, clique em “Enviar para img2img” para continuar fazendo modificações com base na nova imagem.

Reescreva os prompts para adicionar elementos completamente novos à imagem e ajuste outras configurações conforme desejado.

Clique em “Gerar” e analise o resultado.

Use pintura interna para alterar parte de uma imagem

O recurso Inpaint é uma ferramenta poderosa que permite fazer correções pontuais precisas em uma imagem base usando o mouse para “pintar” partes de uma imagem que você deseja regenerar. As partes que você não pintou não são alteradas.

Na guia “img2img -> guia Inpaint”, verifique se você está usando uma imagem gerada anteriormente.

Altere seus prompts se desejar novos elementos visuais.

Use o mouse para pintar sobre a parte da imagem que deseja alterar.

Desenhar Inpaint por Difusão Estável com o Mouse

Altere o “Método de amostragem” para DDIM, que é recomendado para pintura interna.

Método de Amostragem de Tinta de Difusão Estável Ddim

Defina a “Força de redução de ruído”, escolhendo um valor mais alto se estiver fazendo alterações extremas.

Força de redução de ruído da tinta interna de difusão estável 08

Clique em “Gerar” e analise o resultado.

Resultado de pintura interna de difusão estável

O Stable Diffusion provavelmente não vai consertar tudo na primeira tentativa, então você pode clicar em “Send to inpaint” e repetir os passos acima quantas vezes quiser.

Aumente a escala da sua imagem

Você criou imagens relativamente pequenas em 512 x 512 pixels até este ponto, mas se aumentar a resolução da imagem, também aumentará o nível de detalhe visual.

Instale a extensão de upscale SD definitiva

Clique em “Extensões -> Disponível -> Carregar de”.

Extensões de difusão estável disponíveis Carregar de

Role para baixo para encontrar “Ultimate SD Upscale manipulations” e clique em “Install”.

Extensões de difusão estável disponíveis Ultimate Sd Upscale

Role para cima e clique na guia “Instalado”. Marque “ultimate-upscale-for-automatic1111” e clique em “Aplicar e reiniciar a interface do usuário”.

Extensões de difusão estável instaladas Check Ultimate Sd Upscale Aplicar e reiniciar interface do usuário

Redimensione sua imagem

Na guia “img2img”, verifique se você está usando uma imagem gerada anteriormente com os mesmos prompts. Na frente de sua entrada de prompt, adicione frases como “4k”, “UHD”, “foto de alta resolução”, “RAW”, “closeup”, “poros da pele” e “olhos detalhados” para aprimorar ainda mais. Na frente de sua entrada de prompt negativo, adicione frases como “selfie”, “embaçada”, “baixa resolução” e “câmera do telefone” para se afastar delas.

Difusão estável Redimensionar novos prompts

Defina sua “força de redução de ruído” para um valor baixo (cerca de 0,25) e dobre os valores de “Largura” e “Altura”.

Difusão estável Redimensionar Largura Altura Denoising Força

No menu suspenso “Script”, selecione “Ultimate SD upscale” e, em “Upscaler”, marque a opção “R-ESRGAN 4x+”.

Stable Diffusion Script Ultimate Sd Upscaler R Esrgan

Clique em “Gerar” e analise o resultado. Você deve notar pequenas mudanças e detalhes mais nítidos.

Resultado de redimensionamento de difusão estável

Você pode aumentar ainda mais a resolução clicando em “Enviar para img2img” e repetindo as etapas enquanto aumenta os valores de “Largura” e “Altura” ainda mais e ajustando a “Força de redução de ruído”.

perguntas frequentes

Qual é a diferença entre Stable Diffusion, DALL-E e Midjourney?

Todos os três são programas de IA que podem criar quase qualquer imagem a partir de um prompt de texto. A maior diferença é que apenas o Stable Diffusion é totalmente gratuito e de código aberto. Você pode executá-lo em seu computador sem pagar nada, e qualquer pessoa pode aprender e melhorar o código Stable Diffusion. O fato de você precisar instalá-lo sozinho torna mais difícil de usar.

DALL-E e Midjourney são ambos de código fechado. O DALL-E pode ser acessado principalmente por meio de seu site e oferece um número limitado de gerações de imagens por mês antes de solicitar o pagamento. Midjourney pode ser acessado principalmente por meio de comandos em seu servidor Discord e possui diferentes níveis de assinatura.

O que é um modelo em difusão estável?

Um modelo é um arquivo que representa um algoritmo de IA treinado em imagens e palavras-chave específicas. Modelos diferentes são melhores para criar diferentes tipos de imagens – você pode ter um modelo bom para criar pessoas realistas, outro bom para criar personagens de desenhos animados 2D e ainda outro que é melhor para criar pinturas de paisagens.

O modelo Deliberate que instalamos neste guia é um modelo popular que é bom para a maioria das imagens, mas você pode conferir todos os tipos de modelos em sites como Civitai ou Hugging Face . Contanto que você baixe um. safetensors, você pode importá-lo para a IU da Web AUTOMATIC1111 usando as mesmas instruções deste guia.

Qual é a diferença entre SafeTensor e PickleTensor?

Resumindo, sempre use o SafeTensor para proteger seu computador contra ameaças de segurança.

Embora SafeTensor e PickleTensor sejam formatos de arquivo usados para armazenar modelos para Stable Diffusion, PickleTensor é o formato mais antigo e menos seguro. Um modelo PickleTensor pode executar código arbitrário (incluindo malware) em seu sistema.

Devo usar a configuração de tamanho de lote ou contagem de lote?

Você pode usar ambos. Um lote é um grupo de imagens geradas em paralelo. A configuração do tamanho do lote controla quantas imagens existem em um único lote. A configuração de contagem de lote controla quantos lotes são executados em uma única geração; cada lote é executado sequencialmente.

Se você tiver uma contagem de lote de 2 e um tamanho de lote de 4, gerará dois lotes e um total de oito imagens.

Se você preferir desenhar sozinho, confira nossa lista de aplicativos de desenho para Windows.

Crédito da imagem: Pixabay . Todas as capturas de tela por Brandon Li.

Facebook
Tweetar