Principais métodos gratuitos para criar imagens de IA usando difusão estável

Principais métodos gratuitos para criar imagens de IA usando difusão estável
Um artista digital envolvido em um ambiente futurista, utilizando um sofisticado arranjo de computador com diversas telas.

Você já desejou gerar imagens de IA sem depender de ferramentas online? Muitos geradores de imagens online gratuitos restringem o número de saídas e frequentemente solicitam assinaturas após apenas algumas tentativas. Apresentando o Stable Diffusion: um gerador de imagens de IA gratuito e de código aberto que permite que você crie imagens em casa sem limitações.

O que é difusão estável?

Stable Diffusion é uma estrutura gratuita e de código aberto que transforma texto em imagens visuais com base em suas descrições. Embora não seja um aplicativo independente, ele serve como uma tecnologia-chave utilizada por vários aplicativos. Quando se trata de IA generativa para criação de imagens, o Stable Diffusion continua sendo um dos principais concorrentes. Este guia destaca três abordagens para utilizar o Stable Diffusion, variando de amigável para iniciantes a mais complexo, com recursos exclusivos em cada método.

Requisitos do sistema

Aqui estão as especificações recomendadas para uma experiência bem-sucedida:

  • macOS: Apple Silicon (chip série M)
  • Windows ou Linux: GPU NVIDIA ou AMD
  • RAM: 16 GB para desempenho ideal
  • GPU VRAM: pelo menos 4 GB (8 GB de preferência)
  • Armazenamento: 60-70 GB de espaço disponível

1. Usando o WebUI Automatic1111

A primeira abordagem envolve usar a interface de usuário da Web AUTOMATIC1111 para acessar o Stable Diffusion, compatível com todos os principais sistemas operacionais.

Comece baixando a versão estável mais recente do Python . Após o download, execute o instalador e certifique-se de selecionar Add python.exe to PATH antes de clicar em Install Now .

Uma captura de tela mostrando o instalador do Windows Python 3.13.0.

Em seguida, vá para o repositório AUTOMATIC1111 Web UI no GitHub, clique em Code e selecione Download ZIP . Assim que o download for concluído, descompacte o arquivo e lembre-se do local onde o WebUI foi instalado.

Instalar um modelo

Antes de começar a usar a Web UI, você precisa instalar pelo menos um modelo. Esses modelos são pontos de verificação pré-treinados que determinam o estilo artístico para geração de imagens. Para selecionar um modelo, visite CIVITAI e escolha aquele que lhe agrada.

Uma captura de tela do site CIVIT.AI exibindo exemplos do que o modelo de imagem Pony Realism AI baseado em Stable Diffusion pode gerar.

Após encontrar seu modelo preferido, clique no botão de download. Após concluir, transfira o arquivo de checkpoint ‘.safetensors’ para a pasta correta. Navegue até o diretório de download para seu Automatic1111 WebUI, então vá para webui -> models -> Stable-diffusion . Cole o arquivo de modelo baixado neste diretório, e você estará pronto para começar.

Executar e configurar WebUI

Agora, você pode executar e usar o Stable Diffusion diretamente no seu navegador.

No macOS, acesse sua pasta “stable-diffusion-webui” via Terminal e execute o comando ./webui.sh --xformers. Para usuários do Windows, execute ./webui-user.bat. Após a conclusão, copie a URL fornecida ao lado de “Executando na URL local”, que normalmente aparece como http://127.0.0.1:7860 .

Captura de tela do Terminal do macOS, mostrando o gerador de imagens de IA Stable Diffusion Automatic1111 em execução localmente.

Insira a URL na barra de endereços do seu navegador e pressione Enter. A Web UI será carregada localmente no seu navegador de internet padrão. Embora a interface inicial possa parecer assustadora, você não precisará ajustar muitas configurações inicialmente.

Comece ajustando os parâmetros Largura e Altura e definindo o tamanho do lote como 4, o que gerará quatro imagens distintas para cada prompt.

Uma captura de tela do Automatic1111 utilizando Stable Diffusion para geração de imagens de IA.

Em seguida, insira qualquer prompt criativo na aba txt2img . Seja específico sobre os detalhes que você quer na imagem, separando vários descritores com vírgulas. Além disso, descreva o estilo artístico usando termos como “realista”, “detalhado” ou “retrato em close-up”.

Captura de tela de entradas de prompt sendo feitas no Automatic1111.

Na caixa de prompts negativos, inclua quaisquer elementos que você deseja excluir da sua imagem. Considere modificar a configuração “CFG Scale”; um valor mais alto faz com que o gerador adira mais de perto aos seus prompts fornecidos, enquanto um valor mais baixo permite saídas mais criativas.

Deixe as configurações restantes inalteradas e clique em Gerar na parte superior para iniciar o processo de geração de imagem. Depois, você pode clicar nas imagens em miniatura para visualizá-las e decidir se elas atendem às suas expectativas. Se não atenderem, sinta-se à vontade para ajustar a Escala CFG e seus prompts. Durante esse estágio, sua GPU será muito utilizada.

Captura de tela mostrando diversas imagens geradas pelo modelo de IA de difusão estável.

Se você encontrar uma imagem que goste, mas deseja refinar ou corrigir problemas (como recursos distorcidos), clique em Enviar para img2img ou Enviar para inpaint . Esta opção transferirá sua imagem e prompts para suas respectivas guias para aprimoramento posterior.

2. Explorando o Fooocus: o gerador de imagens de IA mais fácil

O Fooocus se destaca como uma das ferramentas de geração de imagens de IA mais simples e eficazes disponíveis. Sua interface intuitiva o torna acessível para iniciantes que querem experimentar a criação de imagens de IA antes de mergulhar em métodos mais intrincados.

Uma captura de tela do CIVIT.AI, destacando exemplos de imagens geradas por IA com Difusão Estável, como um templo na montanha e uma jovem mulher com cabelos loiros.

Baixe o arquivo compactado do Fooocus e extraia-o quando o download terminar. Em seguida, vá até o CIVITAI para escolher um checkpoint de sua preferência. Após baixar o checkpoint, navegue até sua pasta Fooocus. Clique em Fooocus -> models -> checkpoints e coloque o arquivo de checkpoint que você baixou lá.

Uma captura de tela do diretório de pontos de verificação no software gerador de imagens Fooocus AI.

Você também pode baixar LoRAs do Civitai, que são arquivos menores que aprimoram grandes modelos de linguagem com novos conceitos ou estilos. Diferentemente de checkpoints, que podem ter vários gigabytes, LoRAs adicionam elementos distintos às imagens finais enquanto utilizam um checkpoint existente.

Um exemplo de um arquivo LoRA para download do CIVIT.AI.

Se você optar por usar um LoRA para aprimorar o estilo visual das suas imagens de IA, retorne à pasta de modelos no seu diretório Fooocus e cole o arquivo LoRA na pasta loras .

Correndo Fooocus

É hora de começar a gerar imagens no Fooocus. Navegue até a pasta onde você extraiu o software e clique duas vezes em run.bat . O prompt de comando aparecerá e carregará automaticamente a interface do Fooocus no seu navegador da web.

Uma captura de tela exibindo o fluxo de trabalho da interface do usuário do Fooocus para geração de imagens de difusão estável com configurações avançadas.

Na tela de abertura, certifique-se de marcar a opção Advanced na parte inferior, que revelará configurações adicionais. Aqui, você pode selecionar a proporção de aspecto desejada, o número de imagens que o Fooocus gerará por prompt e escolher o formato do arquivo de imagem.

Inicialmente, defina a opção de desempenho como Speed ​​, pois isso aumentará significativamente a velocidade de geração de imagem. Na parte inferior, insira prompts negativos para elementos indesejados.

Passe o mouse sobre cada estilo para visualizá-lo. Em seguida, navegue até a aba Models, onde você pode selecionar o modelo base que você colocou na sua pasta Fooocus. Diretamente abaixo disso, escolha um LoRA se você tiver algum instalado.

Uma imagem mostrando dois visuais gerados por IA no Fooocus, apresentando uma mulher futurista em um cenário cyberpunk.

Tudo o que resta é clicar no botão Generate e assistir o Fooocus criar suas imagens desejadas. Embora possa não ser o gerador de imagens mais poderoso disponível, o Fooocus certamente prova ser o método mais direto, permitindo ajustes fáceis de estilos, checkpoints e LoRAs para criar suas imagens ideais.

Utilizando AI Face Swap no Fooocus

O Fooocus ainda apresenta uma função FaceSwap, que permite que você substitua rostos em uma imagem por outros. Primeiro, marque a opção Input Image na parte inferior, depois selecione Image Prompt . Aqui, carregue a imagem com a qual você deseja trocar o rosto. Role para baixo, clique em Advanced novamente e, nas opções, escolha FaceSwap .

Uma captura de tela do gerador de imagens de IA Fooocus, mostrando a imagem de uma mulher ciborgue futurista passando por FaceSwap.

Ao lado da seção Prompt de Imagem , clique na aba Inpaint ou Outpaint e carregue a imagem para a troca de rosto. Contorne o rosto e o cabelo, depois vá para a aba Avançado no canto superior direito. Ative o Modo de Depuração do Desenvolvedor , clique em Controle e marque a caixa para Misturar Prompt de Imagem e Inpaint .

Uma imagem demonstrando o recurso de pintura interna no Fooocus, destacando o rosto a ser trocado.

Uma vez feito, limpe a caixa de prompt e clique em Generate . Isso executará a troca de rosto com sua imagem selecionada, produzindo resultados variados.

O resultado de uma troca de rosto executada pelo gerador de imagens de IA Fooocus.

Depois de gerar suas imagens, você pode querer melhorá-las usando algumas ferramentas de aprimoramento de imagem de IA de ponta para melhorar sua resolução.

3. Gerando imagens de IA com ComfyUI

ComfyUI é outro método favorito para alavancar o Stable Diffusion para criação de imagens de IA. Embora o fluxo de trabalho possa ser mais envolvente, ele também é mais complexo. Para começar, baixe e extraia o ComfyUI do GitHub.

Você provavelmente está familiarizado com checkpoints e LoRAs neste ponto. Como mencionado antes, baixe um arquivo de checkpoint (e um arquivo LoRA se desejar) e coloque-o nas pastas corretas dentro do diretório models do ComfyUI. No seu diretório ComfyUI, abra a pasta Update e execute update_comfyui.bat para preparar a configuração.

Uma captura de tela do Windows do diretório ComfyUI, exibindo o arquivo de lote de atualização e sua janela de prompt de comando.

Agora, é hora de executar o gerador de imagens ComfyUI AI. Navegue de volta para o seu diretório ComfyUI, onde você deve ver dois arquivos em lote. Se você tiver uma GPU Nvidia, clique duas vezes em run_nvidia_gpu.bat ; caso contrário, execute run_cpu.bat .

Assim que o ComfyUI for iniciado no seu navegador, você verá seu fluxo de trabalho padrão, que inclui vários nós interconectados. Embora possa parecer complexo inicialmente, esses nós representam várias etapas no processo de geração de imagem de IA.

Uma captura de tela do fluxo de trabalho padrão do ComfyUI, refletindo o processo de geração de imagens de IA.

Os múltiplos nós permitem que você crie um fluxo de trabalho personalizado, integrando diferentes nós, modelos, LoRAs e refinadores, concedendo aos usuários amplo controle sobre a saída final. No entanto, essa complexidade pode tornar o ComfyUI difícil de navegar e dominar.

Executando ComfyUI

Para começar, selecione um ponto de verificação no nó Load Checkpoint . Prossiga para o nó CLIP Text Encode (Prompt) , onde você inserirá seu prompt de texto para a imagem. Abaixo disso, há um nó de prompt negativo correspondente para descritores indesejados. No nó Empty Latent Image , você pode ajustar a largura, a altura e o número de imagens que deseja gerar.

Uma captura de tela do fluxo de trabalho do ComfyUI, ilustrando o seletor de ponto de verificação, campos de prompt positivos e negativos e configurações de imagem latente vazias.

Depois de definir seus prompts, ajuste as dimensões da imagem, o tamanho do lote e as principais etapas para processamento. Cerca de 20 a 30 etapas geralmente produzem uma imagem de boa qualidade. Por fim, clique no botão Queue Prompt e deixe o ComfyUI fazer o trabalho.

Uma captura de tela do fluxo de trabalho de geração de imagens do ComfyUI, capturando a criação de imagens com um elefante colorido.

Usando LoRAs no ComfyUI

Para incluir certos LoRAs no ComfyUI, basta clicar com o botão direito perto do nó do ponto de verificação e escolher Add Node -> loaders -> Load LoRA . Selecione qualquer LoRA da sua pasta no diretório.

Uma captura de tela do fluxo de trabalho do ComfyUI, mostrando como adicionar um nó LoRA para aprimorar imagens geradas por IA.

No entanto, tenha em mente que cada vez que um novo nó LoRA for adicionado, você precisará reorganizar as conexões. Arraste a linha do nó Checkpoint rotulado Model para o ponto de entrada do modelo do nó LoRA no lado esquerdo em vez do KSampler. Em seguida, conecte o ponto de saída do nó LoRA de volta à entrada do modelo do KSampler.

Uma captura de tela do fluxo de trabalho do ComfyUI, mostrando como conectar um nó LoRA do Checkpoint ao KSampler.

Certifique-se de que ambas as linhas Clip do nó Checkpoint sejam direcionadas para cada nó Prompt. Da mesma forma, conecte os pontos de entrada do lado esquerdo do Clip do LoRA aos prompts positivos e negativos.

Uma captura de tela do fluxo de trabalho de geração de imagens do ComfyUI, mostrando conexões para integrar um LoRA entre os nós Checkpoint e Prompt.

Ao entender o fluxo de trabalho padrão e adicionar progressivamente nós personalizados, você se tornará proficiente na utilização do ComfyUI para suas necessidades de geração de imagens de IA.

Perguntas frequentes

Como a difusão estável, DALL-E e Midjourney se diferenciam?

Todos os três sistemas de IA podem produzir imagens a partir de prompts de texto, mas apenas o Stable Diffusion é totalmente gratuito e de código aberto. Você pode instalá-lo e executá-lo em seu computador sem nenhum custo, enquanto o DALL-E e o Midjourney são softwares proprietários.

O que exatamente é um modelo em Difusão Estável?

Um modelo serve como um arquivo que incorpora um algoritmo de IA treinado usando imagens e palavras-chave específicas. Vários modelos se destacam na geração de tipos distintos de visuais. Por exemplo, alguns podem ser otimizados para representações humanas realistas, enquanto outros são mais adequados para ilustrações 2D ou estilos artísticos diversos.

Crédito da imagem: Imagem de destaque por Stable Diffusion. Todas as capturas de tela fornecidas por Brandon Li e Samarveer Singh.

Fonte&Imagens

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *