MIT-onderzoekers maken het genereren van AI-beelden 30x sneller door het proces te vereenvoudigen
Een team van onderzoekers van het MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) heeft een manier gevonden om LLM’s voor het genereren van afbeeldingen, zoals DALL-E 3 en Stable Diffusion, een stuk sneller te maken.
Ze slaagden erin het proces in één stap te vereenvoudigen, maar zonder dat dit ten koste ging van de beeldkwaliteit.
Op dit moment gebruikt AI een zogenaamd diffusiemodel om een beeld te genereren. Dat houdt in dat je een beeld met ruis opnieuw creëert en het geleidelijk structuur geeft totdat het duidelijk wordt. Het klinkt vrij eenvoudig, maar in feite zijn er veel stappen nodig om van een vage onzin naar een helder, helder beeld te komen.
De CSAIL-onderzoekers hebben een nieuw raamwerk dat deze meerstapsaanpak omzet in één enkele actie.
Onderzoekers gebruiken een nieuwe methode genaamd Distribution Matching Distillation
Volgens het persbericht heet de aanpak van MIT DMD, of Distribution Matching Distillation, en koppelt de generatieve vijandige netwerken aan diffusiemodellen om een ongekende snelheid voor het genereren van beelden te bereiken.
Het idee achter het nieuwe DMD-framework is om twee diffusiemodellen te gebruiken. Op deze manier slagen ze erin de problemen met instabiliteit en mode-instorting van GAN-modellen te overwinnen.
De resultaten waren verbluffend en als je de clip hierboven bekijkt, zul je zien dat de nieuwe DMD ongeveer 20 beelden per seconde genereert, vergeleken met Stable Diffusion 1.5, die 1,4 seconden nodig heeft om één enkel beeld te genereren.
Volgens TechSpot zijn de MIT-onderzoekers niet de enigen die een eenstapsaanpak toepassen voor het genereren van beelden. Stabiliteit AI en hun methode genaamd Adversarial Diffusion Distillation (ADD) kunnen een beeld genereren in slechts 207 ms door alleen een Nvidia A100 AI GPU-accelerator te gebruiken.
Het genereren van afbeeldingen wordt elke dag sneller en we hopen dat dit ook zal gelden voor modellen voor het genereren van video’s zoals Sora AI .
Wat vindt u van de nieuwe technologie? Deel uw mening in de opmerkingen hieronder.
Ons werk is een nieuwe methode die de huidige diffusiemodellen zoals Stable Diffusion en DLLE-3 met 30 keer versnelt. Deze vooruitgang vermindert niet alleen de rekentijd aanzienlijk, maar behoudt ook de kwaliteit van de gegenereerde visuele inhoud, of overtreft deze zelfs. Theoretisch combineert de aanpak de principes van generatieve vijandige netwerken (GAN’s) met die van diffusiemodellen, waardoor het genereren van visuele inhoud in één enkele stap wordt bereikt – een schril contrast met de honderd stappen van iteratieve verfijning die vereist zijn door de huidige diffusiemodellen. Het zou potentieel een nieuwe generatieve modelleringsmethode kunnen zijn die uitblinkt in snelheid en kwaliteit.
Tianwei Yin, hoofdonderzoeker van het DMD-framework
Geef een reactie