Como usar a difusão estável para criar imagens geradas por IA
Os chatbots de inteligência artificial, como o ChatGPT, tornaram-se incrivelmente poderosos recentemente – estão em todos os noticiários! Mas não se esqueça dos geradores de imagem AI (como Stable Diffusion, DALL-E e Midjourney). Eles podem criar praticamente qualquer imagem quando fornecidos com apenas algumas palavras. Siga este tutorial para aprender como fazer isso gratuitamente, sem restrições, executando o Stable Diffusion em seu computador.
O que é difusão estável?
Stable Diffusion é um modelo de aprendizado de máquina de conversão de texto em imagem gratuito e de código aberto. Basicamente, é um programa que permite que você descreva uma imagem usando texto e crie a imagem para você. Ele recebeu bilhões de imagens e descrições de texto que os acompanham e foi ensinado a analisá-los e reconstruí-los.
O Stable Diffusion não é o programa que você usa diretamente – pense nele mais como a ferramenta de software subjacente que outros programas usam. Este tutorial mostra como instalar um programa Stable Diffusion em seu computador. Observe que existem muitos programas e sites que usam o Stable Diffusion, mas muitos cobram dinheiro e não oferecem tanto controle.
Requisitos de sistema
As diretrizes gerais para o que você deve buscar são as seguintes:
- macOS: Apple Silicon (um chip da série M)
- Windows ou Linux: GPU NVIDIA ou AMD
- RAM: 16 GB para melhores resultados
- GPU VRAM: pelo menos 4 GB
- Armazenamento: pelo menos 15 GB
Instale a IU da Web AUTOMATIC1111
Estamos usando o programa AUTOMATIC1111 Web UI , disponível em todos os principais sistemas operacionais de desktop, para acessar o Stable Diffusion. Certifique-se de anotar onde o diretório “stable-diffiusion-webui” é baixado.
AUTOMATIC1111 IU da Web no macOS
- No Terminal, instale o Homebrew digitando o comando:
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
- Copie os dois comandos para adicionar o Homebrew ao seu PATH e insira-os.
- Saia e reabra o Terminal, depois digite:
brew install cmake protobuf rust python@3.10 git wget
- Digitar:
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui
AUTOMATIC1111 IU da Web no Windows
- Baixe a última versão estável do Python 3.10 .
- Execute o instalador do Python, marque “Adicionar python.exe ao PATH” e clique em “Instalar agora”.
- Acesse o repositório AUTOMATIC1111 Web UI no GitHub, clique em “Code” e, em seguida, clique em “Download ZIP” e extraia-o.
AUTOMATIC1111 IU da Web no Linux
- Abra o Terminal.
- Digite um dos seguintes comandos, dependendo do seu tipo de Linux:
Baseado em Debian, incluindo Ubuntu:
sudo apt-get updatesudo apt install wget git python3 python3-ven
Baseado em Red Hat:
sudo dnf install wget git python3
Baseado em arco:
sudo pacman -S wget git python3
- Instale em “/home/$(whoami)/stable-diffusion-webui/” executando este comando:
bash <(wget -qO- https://raw.githubusercontent.com/AUTOMATIC1111/stable-diffusion-webui/master/webui.sh)
Instalar um modelo
Você ainda precisará adicionar pelo menos um modelo antes de começar a usar a IU da Web.
- Acesse o CIVITAL .
- Clique na seta suspensa no botão de download e selecione “Model SafeTensor”.
- Mova o. safetensors arquivo baixado na etapa 2 em sua pasta “stable-diffiusion-webui/models/Stable-diffusion”.
Executar e configurar a IU da Web
Neste ponto, você está pronto para executar e começar a usar o programa Stable Diffusion em seu navegador da web.
- Em seu terminal, abra seu diretório “stable-diffusion-webui” e digite o comando
./webui.sh --xformers
para Linux/macOS ou./webui-user.bat
para Windows. Quando terminar, selecione e copie a URL ao lado de “Executando na URL local”, que deve se parecer com http://127.0.0.1:7860.
- Cole o link na barra de endereços do seu navegador e clique em Enter. O site da interface do usuário da Web será exibido.
- Vamos alterar algumas configurações para obter melhores resultados. Vá para “Configurações -> Difusão estável”.
- Role para baixo e marque “Ativar quantização em K samplers para resultados mais nítidos e limpos”.
- Role para cima e clique em “Aplicar configurações” e depois em “Recarregar interface do usuário”.
FYI: Se você precisar encontrar uma fonte de imagem, use o Google.
Use txt2txt para gerar imagens conceituais
Agora vem a parte divertida: criar algumas imagens iniciais e procurar aquela que mais se pareça com o visual que você deseja.
- Vá para a guia “txt2img”.
- Na primeira caixa de texto do prompt, digite as palavras que descrevem sua imagem separadas por vírgulas. Ajuda incluir palavras que descrevam o estilo da imagem, como “realista”, “detalhado” ou “retrato em close”.
- Na caixa de texto de solicitação negativa abaixo, digite as palavras-chave com as quais você não deseja que sua imagem se pareça. Por exemplo, se estiver tentando criar imagens realistas, adicione palavras como “videogame”, “arte” e “ilustração”.
- Role para baixo e defina “Tamanho do lote” para “4”. Isso fará com que o Stable Diffusion produza quatro imagens diferentes de seu prompt.
- Torne a “Escala CFG” um valor mais alto se quiser que a difusão estável siga suas palavras-chave de prompt mais estritamente ou um valor mais baixo se quiser que seja mais criativo. Um valor baixo (como o padrão de 7) geralmente produz imagens de boa qualidade e criativas.
- Deixe as outras configurações em seus padrões por enquanto. Clique no grande botão “Gerar” na parte superior para que a difusão estável comece a funcionar.
- Abaixo do botão “Gerar”, clique nas miniaturas das imagens para visualizá-las e determinar se você gosta de alguma delas.
Se não gostar de nenhuma das imagens, repita os passos 1 a 5 com pequenas variações.
Se você gosta de uma imagem geral, mas deseja modificá-la ou corrigir problemas (um rosto distorcido, problemas anatômicos etc.), clique em “Enviar para img2img” ou “Enviar para inpaint”. Isso copiará sua imagem e direcionará para as respectivas guias, onde você poderá melhorar a imagem.
Se uma imagem for excepcionalmente interessante ou boa, clique no botão “Salvar” seguido do botão “Download”.
Encontrando os prompts usados para imagens anteriores
Depois de gerar algumas imagens, é útil obter os prompts e as configurações usadas para criar uma imagem após o fato.
- Clique na guia “Informações do PNG”.
- Carregue uma imagem na caixa. Todos os prompts e outros detalhes da sua imagem aparecerão à direita.
Use img2img para gerar imagens semelhantes
Você pode usar o recurso img2img para gerar novas imagens imitando a aparência geral de qualquer imagem base.
- Na guia “img2img”, verifique se você está usando uma imagem gerada anteriormente com os mesmos prompts.
- Defina o valor “Redução de ruído” para maior ou menor para regenerar mais ou menos de sua imagem (0,50 regenera 50% e 1 regenera 100%).
- Clique em “Gerar” e revise as diferenças. Se você não estiver satisfeito, repita as etapas 1 a 3 após ajustar as configurações.
- Como alternativa, clique em “Enviar para img2img” para continuar fazendo modificações com base na nova imagem.
- Reescreva os prompts para adicionar elementos completamente novos à imagem e ajuste outras configurações conforme desejado.
- Clique em “Gerar” e analise o resultado.
Use pintura interna para alterar parte de uma imagem
O recurso Inpaint é uma ferramenta poderosa que permite fazer correções pontuais precisas em uma imagem base usando o mouse para “pintar” partes de uma imagem que você deseja regenerar. As partes que você não pintou não são alteradas.
- Na guia “img2img -> guia Inpaint”, verifique se você está usando uma imagem gerada anteriormente.
- Altere seus prompts se desejar novos elementos visuais.
- Use o mouse para pintar sobre a parte da imagem que deseja alterar.
- Altere o “Método de amostragem” para DDIM, que é recomendado para pintura interna.
- Defina a “Força de redução de ruído”, escolhendo um valor mais alto se estiver fazendo alterações extremas.
- Clique em “Gerar” e analise o resultado.
O Stable Diffusion provavelmente não vai consertar tudo na primeira tentativa, então você pode clicar em “Send to inpaint” e repetir os passos acima quantas vezes quiser.
Aumente a escala da sua imagem
Você criou imagens relativamente pequenas em 512 x 512 pixels até este ponto, mas se aumentar a resolução da imagem, também aumentará o nível de detalhe visual.
Instale a extensão de upscale SD definitiva
- Clique em “Extensões -> Disponível -> Carregar de”.
- Role para baixo para encontrar “Ultimate SD Upscale manipulations” e clique em “Install”.
- Role para cima e clique na guia “Instalado”. Marque “ultimate-upscale-for-automatic1111” e clique em “Aplicar e reiniciar a interface do usuário”.
Redimensione sua imagem
- Na guia “img2img”, verifique se você está usando uma imagem gerada anteriormente com os mesmos prompts. Na frente de sua entrada de prompt, adicione frases como “4k”, “UHD”, “foto de alta resolução”, “RAW”, “closeup”, “poros da pele” e “olhos detalhados” para aprimorar ainda mais. Na frente de sua entrada de prompt negativo, adicione frases como “selfie”, “embaçada”, “baixa resolução” e “câmera do telefone” para se afastar delas.
- Defina sua “força de redução de ruído” para um valor baixo (cerca de 0,25) e dobre os valores de “Largura” e “Altura”.
- No menu suspenso “Script”, selecione “Ultimate SD upscale” e, em “Upscaler”, marque a opção “R-ESRGAN 4x+”.
- Clique em “Gerar” e analise o resultado. Você deve notar pequenas mudanças e detalhes mais nítidos.
Você pode aumentar ainda mais a resolução clicando em “Enviar para img2img” e repetindo as etapas enquanto aumenta os valores de “Largura” e “Altura” ainda mais e ajustando a “Força de redução de ruído”.
perguntas frequentes
Qual é a diferença entre Stable Diffusion, DALL-E e Midjourney?
Todos os três são programas de IA que podem criar quase qualquer imagem a partir de um prompt de texto. A maior diferença é que apenas o Stable Diffusion é totalmente gratuito e de código aberto. Você pode executá-lo em seu computador sem pagar nada, e qualquer pessoa pode aprender e melhorar o código Stable Diffusion. O fato de você precisar instalá-lo sozinho torna mais difícil de usar.
DALL-E e Midjourney são ambos de código fechado. O DALL-E pode ser acessado principalmente por meio de seu site e oferece um número limitado de gerações de imagens por mês antes de solicitar o pagamento. Midjourney pode ser acessado principalmente por meio de comandos em seu servidor Discord e possui diferentes níveis de assinatura.
O que é um modelo em difusão estável?
Um modelo é um arquivo que representa um algoritmo de IA treinado em imagens e palavras-chave específicas. Modelos diferentes são melhores para criar diferentes tipos de imagens – você pode ter um modelo bom para criar pessoas realistas, outro bom para criar personagens de desenhos animados 2D e ainda outro que é melhor para criar pinturas de paisagens.
O modelo Deliberate que instalamos neste guia é um modelo popular que é bom para a maioria das imagens, mas você pode conferir todos os tipos de modelos em sites como Civitai ou Hugging Face . Contanto que você baixe um. safetensors, você pode importá-lo para a IU da Web AUTOMATIC1111 usando as mesmas instruções deste guia.
Qual é a diferença entre SafeTensor e PickleTensor?
Resumindo, sempre use o SafeTensor para proteger seu computador contra ameaças de segurança.
Embora SafeTensor e PickleTensor sejam formatos de arquivo usados para armazenar modelos para Stable Diffusion, PickleTensor é o formato mais antigo e menos seguro. Um modelo PickleTensor pode executar código arbitrário (incluindo malware) em seu sistema.
Devo usar a configuração de tamanho de lote ou contagem de lote?
Você pode usar ambos. Um lote é um grupo de imagens geradas em paralelo. A configuração do tamanho do lote controla quantas imagens existem em um único lote. A configuração de contagem de lote controla quantos lotes são executados em uma única geração; cada lote é executado sequencialmente.
Se você tiver uma contagem de lote de 2 e um tamanho de lote de 4, gerará dois lotes e um total de oito imagens.
Se você preferir desenhar sozinho, confira nossa lista de aplicativos de desenho para Windows.
Crédito da imagem: Pixabay . Todas as capturas de tela por Brandon Li.
- Tweetar
Deixe um comentário