I migliori metodi gratuiti per creare immagini AI utilizzando la diffusione stabile

2024/11/07

Un artista digitale impegnato in un ambiente futuristico, utilizzando un sofisticato computer dotato di numerosi schermi.

Hai mai desiderato generare immagini AI senza affidarti a strumenti online? Molti generatori di immagini online gratuiti limitano il numero di output e spesso richiedono abbonamenti dopo solo pochi tentativi. Ecco Stable Diffusion: un generatore di immagini AI gratuito e open source che ti consente di creare immagini a casa senza limitazioni.

Che cosa è la diffusione stabile?

Stable Diffusion è un framework open source gratuito che trasforma il testo in immagini visive in base alle tue descrizioni. Sebbene non sia un’applicazione autonoma, funge da tecnologia chiave utilizzata da varie applicazioni. Quando si tratta di IA generativa per la creazione di immagini, Stable Diffusion rimane uno dei principali contendenti. Questa guida evidenzia tre approcci all’utilizzo di Stable Diffusion, che vanno da quelli adatti ai principianti a quelli più complessi, con funzionalità uniche all’interno di ciascun metodo.

Requisiti di sistema

Ecco le specifiche consigliate per un’esperienza di successo:

macOS: Apple Silicon (chip serie M)
Windows o Linux: GPU NVIDIA o AMD
RAM: 16 GB per prestazioni ottimali
GPU VRAM: almeno 4 GB (preferibilmente 8 GB)
Archiviazione: 60-70 GB di spazio disponibile

1. Utilizzo di Automatic1111 WebUI

Il primo approccio prevede l’utilizzo dell’interfaccia utente Web AUTOMATIC1111 per accedere a Stable Diffusion, compatibile con tutti i principali sistemi operativi.

Inizia scaricando l’ ultima versione stabile di Python . Dopo il download, esegui l’installer e assicurati di selezionare Add python.exe to PATH prima di cliccare su Install Now .

Uno screenshot che mostra il programma di installazione di Windows Python 3.13.0.

Quindi, vai al repository AUTOMATIC1111 Web UI su GitHub, clicca su Codice e seleziona Scarica ZIP . Una volta completato il download, decomprimi il file e ricorda la posizione in cui è stata installata la WebUI.

Installa un modello

Prima di iniziare a usare la Web UI, devi installare almeno un modello. Questi modelli sono checkpoint pre-addestrati che determinano lo stile artistico per la generazione delle immagini. Per selezionare un modello, visita CIVITAI e scegli quello che ti piace.

Uno screenshot dal sito web CIVIT.AI che mostra esempi di ciò che il modello di immagine AI Pony Realism basato su Stable Diffusion può generare.

Dopo aver trovato il modello che preferisci, clicca sul pulsante di download. Una volta completato, trasferisci il file di checkpoint ‘.safetensors’ nella cartella corretta. Vai alla directory di download per la tua WebUI Automatic1111, quindi vai a webui -> models -> Stable-diffusion . Incolla il file del modello scaricato in questa directory e sei pronto per partire.

Eseguire e configurare WebUI

Ora puoi eseguire e utilizzare Stable Diffusion direttamente nel tuo browser web.

Su macOS, accedi alla cartella “stable-diffusion-webui” tramite Terminale ed esegui il comando ./webui.sh --xformers. Per gli utenti Windows, esegui ./webui-user.bat. Al termine, copia l’URL fornito accanto a “In esecuzione su URL locale”, che in genere appare come http://127.0.0.1:7860 .

Screenshot del Terminale macOS, che mostra il generatore di immagini AI Stable Diffusion Automatic1111 in esecuzione in locale.

Inserisci l’URL nella barra degli indirizzi del tuo browser e premi Enter. L’interfaccia utente Web verrà caricata localmente nel tuo browser Internet predefinito. Sebbene l’interfaccia iniziale possa sembrare opprimente, inizialmente non dovrai modificare molte impostazioni.

Per prima cosa, regola i parametri Larghezza e Altezza e imposta la dimensione del batch su 4: in questo modo verranno generate quattro immagini distinte per ogni prompt.

Uno screenshot di Automatic1111 che utilizza Stable Diffusion per la generazione di immagini AI.

Successivamente, inserisci qualsiasi prompt creativo nella scheda txt2img . Sii specifico sui dettagli che vuoi nell’immagine, separando i vari descrittori con virgole. Inoltre, descrivi lo stile artistico usando termini come “realistico”, “dettagliato” o “ritratto ravvicinato”.

Screenshot degli input rapidi effettuati in Automatic1111.

Nella casella per i prompt negativi, includi tutti gli elementi che desideri escludere dalla tua immagine. Valuta la possibilità di modificare l’impostazione “CFG Scale”; un valore più alto fa sì che il generatore aderisca più strettamente ai prompt forniti, mentre un valore più basso consente output più creativi.

Lascia invariate le impostazioni rimanenti e fai clic su Generate in alto per iniziare il processo di generazione delle immagini. In seguito, puoi fare clic sulle immagini in miniatura per visualizzarle e decidere se soddisfano le tue aspettative. In caso contrario, sentiti libero di regolare la scala CFG e i tuoi prompt. Durante questa fase, la tua GPU verrà utilizzata intensamente.

Screenshot che mostra più immagini generate dal modello AI Stable Diffusion.

Se trovi un’immagine che ti piace ma desideri perfezionarla o correggere dei problemi (come le caratteristiche distorte), clicca su Invia a img2img o Invia a inpaint . Questa opzione trasferirà la tua immagine e i prompt alle rispettive schede per un ulteriore miglioramento.

2. Esplorazione di Fooocus: il generatore di immagini AI più semplice

Fooocus si distingue come uno degli strumenti di generazione di immagini AI più semplici ed efficaci disponibili. La sua interfaccia intuitiva lo rende accessibile ai principianti che vogliono sperimentare la creazione di immagini AI prima di immergersi in metodi più intricati.

Uno screenshot di CIVIT.AI, che evidenzia esempi di immagini generate dall'intelligenza artificiale con diffusione stabile, come un tempio di montagna e una giovane donna dai capelli biondi.

Scarica il file compresso Fooocus ed estrailo una volta terminato il download. Poi, vai su CIVITAI per scegliere un checkpoint che ti piace. Dopo aver scaricato il checkpoint, vai alla tua cartella Fooocus. Clicca su Fooocus -> models -> checkpoints e posiziona lì il file checkpoint che hai scaricato.

Uno screenshot della directory dei checkpoint nel software generatore di immagini Fooocus AI.

Puoi anche scaricare i LoRA da Civitai, che sono file più piccoli che potenziano grandi modelli linguistici con nuovi concetti o stili. A differenza dei checkpoint, che possono essere di diversi gigabyte, i LoRA aggiungono elementi distintivi alle immagini finali mentre utilizzano un checkpoint esistente.

Un esempio di file LoRA scaricabile da CIVIT.AI.

Se scegli di utilizzare un LoRA per migliorare lo stile visivo delle tue immagini AI, torna alla cartella models nella directory Fooocus e incolla il file LoRA nella cartella loras .

Correre Fooocus

È il momento di iniziare a generare immagini in Fooocus. Vai alla cartella in cui hai estratto il software e fai doppio clic su run.bat . Apparirà il prompt dei comandi e caricherà automaticamente l’interfaccia di Fooocus nel tuo browser web.

Uno screenshot che mostra il flusso di lavoro dell'interfaccia utente di Fooocus per la generazione di immagini Stable Diffusion con impostazioni avanzate.

Nella schermata di apertura, assicurati di selezionare l’ opzione Avanzate in basso, che rivelerà impostazioni aggiuntive. Qui puoi selezionare il rapporto di aspetto desiderato, il numero di immagini che Fooocus genererà per prompt e scegliere il formato del file immagine.

Inizialmente, imposta l’opzione performance su Speed , poiché ciò aumenterà significativamente la velocità di generazione dell’immagine. In basso, inserisci prompt negativi per gli elementi indesiderati.

Passa il mouse su ogni stile per visualizzarne l’anteprima. Quindi, vai alla scheda Modelli, dove puoi selezionare il modello base che hai inserito nella tua cartella Fooocus. Subito sotto, scegli un LoRA se ne hai installato uno.

Un'immagine che mostra due elementi visivi generati dall'intelligenza artificiale in Fooocus, raffiguranti una donna futuristica in un'ambientazione cyberpunk.

Tutto ciò che resta da fare è cliccare sul pulsante Generate e guardare Fooocus creare le immagini desiderate. Sebbene non sia il generatore di immagini più potente disponibile, Fooocus dimostra sicuramente di essere il metodo più diretto, consentendo facili regolazioni di stili, checkpoint e LoRA per creare le immagini ideali.

Utilizzo di AI Face Swap in Fooocus

Fooocus ha anche una funzione FaceSwap, che ti consente di sostituire i volti in un’immagine con altri. Per prima cosa, seleziona l’ opzione Input Image in basso, quindi seleziona Image Prompt . Qui, carica l’immagine con cui vuoi scambiare il volto. Scorri verso il basso, clicca di nuovo su Advanced e, dalle opzioni, scegli FaceSwap .

Uno screenshot del generatore di immagini AI di Fooocus, che mostra l'immagine di una donna cyborg futuristica sottoposta a FaceSwap.

Accanto alla sezione Image Prompt , clicca sulla scheda Inpaint o Outpaint e carica l’immagine per lo scambio di volti. Delinea il volto e i capelli, quindi vai alla scheda Advanced nell’angolo in alto a destra. Attiva Developer Debug Mode , clicca su Control e seleziona la casella Mixing Image Prompt and Inpaint .

Un'immagine che dimostra la funzionalità di ritocco pittorico in Fooocus, evidenziando il volto da sostituire.

Una volta fatto, cancella la casella di richiesta e clicca su Genera . Questo eseguirà lo scambio di volti con l’immagine selezionata, producendo risultati variabili.

Il risultato di uno scambio di volti eseguito dal generatore di immagini AI di Fooocus.

Dopo aver generato le immagini, potresti volerle migliorare utilizzando alcuni degli strumenti di ingrandimento delle immagini basati sull’intelligenza artificiale di livello superiore per migliorarne la risoluzione.

3. Generazione di immagini AI con ComfyUI

ComfyUI è un altro metodo preferito per sfruttare Stable Diffusion per la creazione di immagini AI. Sebbene il flusso di lavoro possa essere più coinvolgente, è anche più complesso. Per iniziare, scarica ed estrai ComfyUI da GitHub.

Probabilmente a questo punto hai familiarità con i checkpoint e i LoRA. Come detto prima, scarica un file checkpoint (e un file LoRA se lo desideri) e mettilo nelle cartelle corrette all’interno della directory models di ComfyUI. Nella tua directory ComfyUI, apri la cartella Update ed esegui update_comfyui.bat per preparare la configurazione.

Uno screenshot di Windows della directory ComfyUI, che mostra il file batch di aggiornamento e la relativa finestra del prompt dei comandi.

Ora è il momento di eseguire il generatore di immagini AI ComfyUI. Torna alla tua directory ComfyUI, dove dovresti vedere due file batch. Se hai una GPU Nvidia, fai doppio clic su run_nvidia_gpu.bat ; altrimenti, esegui run_cpu.bat .

Una volta che ComfyUI si avvia nel tuo browser, vedrai il suo flusso di lavoro predefinito, che include diversi nodi interconnessi. Sebbene possa sembrare complesso inizialmente, questi nodi rappresentano vari passaggi nel processo di generazione delle immagini AI.

Uno screenshot del flusso di lavoro predefinito di ComfyUI, che riflette il processo di generazione delle immagini AI.

I nodi multipli consentono di creare un flusso di lavoro personalizzato, integrando diversi nodi, modelli, LoRA e refiner, garantendo agli utenti un controllo esteso sull’output finale. Tuttavia, questa complessità può rendere ComfyUI difficile da navigare e padroneggiare.

Esecuzione di ComfyUI

Per iniziare, seleziona un checkpoint nel nodo Load Checkpoint . Procedi al nodo CLIP Text Encode (Prompt) , dove inserirai il tuo prompt di testo per l’immagine. Sotto c’è un nodo prompt negativo corrispondente per i descrittori indesiderati. Nel nodo Empty Latent Image , puoi regolare la larghezza, l’altezza e il numero di immagini che desideri generare.

Uno screenshot del flusso di lavoro di ComfyUI, che illustra il selettore del checkpoint, i campi di richiesta positivi e negativi e le impostazioni delle immagini latenti vuote.

Una volta impostati i prompt, regola le dimensioni dell’immagine, la dimensione del batch e i passaggi chiave per l’elaborazione. Circa 20-30 passaggi di solito producono un’immagine di buona qualità. Infine, premi il pulsante Queue Prompt e lascia che ComfyUI faccia il lavoro.

Uno screenshot del flusso di lavoro di generazione delle immagini di ComfyUI, che cattura la creazione di immagini con un elefante colorato in grassetto.

Utilizzo di LoRA in ComfyUI

Per includere determinati LoRA in ComfyUI, fai semplicemente clic con il pulsante destro del mouse vicino al nodo del checkpoint e scegli Aggiungi nodo -> caricatori -> Carica LoRA . Seleziona un LoRA qualsiasi dalla tua cartella nella directory.

Uno screenshot del flusso di lavoro ComfyUI, che mostra come aggiungere un nodo LoRA per migliorare le immagini generate dall'intelligenza artificiale.

Tuttavia, tieni presente che ogni volta che viene aggiunto un nuovo nodo LoRA, dovrai riorganizzare le connessioni. Trascina la linea dal nodo Checkpoint etichettato Model al punto di ingresso del modello del nodo LoRA sul lato sinistro invece che su KSampler. Quindi collega il punto di uscita del nodo LoRA di nuovo all’ingresso del modello di KSampler.

Uno screenshot del flusso di lavoro di ComfyUI, che mostra come connettere un nodo LoRA dal Checkpoint al KSampler.

Assicurati che entrambe le linee Clip dal nodo Checkpoint siano dirette a ciascun nodo Prompt. Allo stesso modo, collega i punti di ingresso del lato sinistro della Clip di LoRA a prompt positivi e negativi.

Uno screenshot del flusso di lavoro di generazione delle immagini di ComfyUI, che mostra le connessioni per l'integrazione di un LoRA tra i nodi Checkpoint e Prompt.

Comprendendo il flusso di lavoro predefinito e aggiungendo progressivamente nodi personalizzati, diventerai esperto nell’utilizzo di ComfyUI per le tue esigenze di generazione di immagini AI.

Domande frequenti

Come si differenziano Stable Diffusion, DALL-E e Midjourney?

Tutti e tre i sistemi AI possono produrre immagini da prompt di testo, ma solo Stable Diffusion è completamente gratuito e open source. Puoi installarlo ed eseguirlo sul tuo computer senza alcun costo, mentre DALL-E e Midjourney sono software proprietari.

Cos’è esattamente un modello in diffusione stabile?

Un modello funge da file che incarna un algoritmo AI addestrato utilizzando immagini e parole chiave specifiche. Vari modelli eccellono nel generare tipi distinti di immagini. Ad esempio, alcuni possono essere ottimizzati per rappresentazioni umane realistiche, mentre altri sono più adatti per illustrazioni 2D o diversi stili artistici.

Crediti immagine: Immagine principale di Stable Diffusion. Tutti gli screenshot sono forniti da Brandon Li e Samarveer Singh.

Fonte e immagini