I ricercatori del MIT rendono la generazione di immagini AI 30 volte più veloce semplificando il processo
Un team di ricercatori del MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) ha trovato un modo per rendere molto più veloci i LLM per la generazione di immagini come DALL-E 3 e Stable Diffusion.
Sono riusciti a semplificare il processo in un unico passaggio, ma senza compromettere la qualità dell’immagine.
In questo momento, l’intelligenza artificiale utilizza un cosiddetto modello di diffusione per generare un’immagine. Ciò implica ricreare l’immagine di uno stato rumoroso e darle progressivamente struttura finché non diventa chiara. Sembra piuttosto semplice, ma in realtà sono necessari molti passaggi per passare da un’immagine confusa e senza senso a un’immagine chiara e nitida.
I ricercatori CSAIL hanno un nuovo quadro che trasforma questo approccio in più fasi in un’unica azione.
I ricercatori utilizzano un nuovo metodo chiamato Distribution Matching Distillation
Secondo il comunicato stampa , l’approccio del MIT si chiama DMD, o Distribution Matching Distillation, e abbina le reti generative avversarie con modelli di diffusione per raggiungere una velocità senza precedenti per la generazione di immagini.
L’idea alla base del nuovo framework DMD è quella di utilizzare due modelli di diffusione. In questo modo, riescono a superare i problemi di instabilità e di collasso della modalità derivanti dai modelli GAN.
I risultati sono stati sorprendenti e se guardi la clip qui sopra, vedrai che il nuovo DMD genera circa 20 immagini al secondo rispetto a Stable Diffusion 1.5 che necessita di 1,4 secondi per generare una singola immagine.
Secondo TechSpot , i ricercatori del MIT non sono gli unici ad applicare un approccio in un unico passaggio per la generazione delle immagini. Stability AI e il loro metodo chiamato Adversarial Diffusion Distillation (ADD) possono generare un’immagine in soli 207 ms utilizzando solo un acceleratore GPU AI Nvidia A100.
La generazione di immagini diventa ogni giorno più veloce e speriamo che ciò si applichi anche ai modelli di generazione di video come Sora AI .
Cosa ne pensi della nuova tecnologia? Condividi il tuo pensiero nella sezione commenti qui sotto.
Il nostro lavoro è un nuovo metodo che accelera di 30 volte gli attuali modelli di diffusione come Stable Diffusion e DALLE-3. Questo progresso non solo riduce significativamente i tempi di calcolo, ma mantiene anche, se non addirittura supera, la qualità del contenuto visivo generato. Teoricamente, l’approccio sposa i principi delle reti generative avversarie (GAN) con quelli dei modelli di diffusione, ottenendo la generazione di contenuti visivi in un unico passaggio – in netto contrasto con i cento passaggi di perfezionamento iterativo richiesti dagli attuali modelli di diffusione. Potrebbe potenzialmente essere un nuovo metodo di modellazione generativa che eccelle in velocità e qualità.
Tianwei Yin, ricercatore capo del quadro DMD
Lascia un commento