MIT-Forscher machen die KI-Bildgenerierung 30x schneller, indem sie den Prozess vereinfachen

2024/03/27

Ein Forscherteam vom MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) hat einen Weg gefunden, LLMs zur Bildgenerierung wie DALL-E 3 und Stable Diffusion deutlich zu beschleunigen.

Es ist ihnen gelungen, den Vorgang auf einen einzigen Schritt zu vereinfachen, ohne jedoch die Bildqualität zu beeinträchtigen.

Derzeit verwendet die KI ein sogenanntes Diffusionsmodell, um ein Bild zu erzeugen. Dabei wird ein verrauschtes Bild nachgebildet und schrittweise strukturiert, bis es klar wird. Das klingt ziemlich einfach, aber tatsächlich sind viele Schritte nötig, um von einem verschwommenen Unsinn zu einem klaren, scharfen Bild zu gelangen.

Die CSAIL-Forscher haben ein neues Framework entwickelt, das diesen mehrstufigen Ansatz in eine einzige Aktion umwandelt.

Forscher verwenden eine neue Methode namens Distribution Matching Distillation

Der Ansatz des MIT heißt laut Pressemitteilung DMD (Distribution Matching Distillation) und kombiniert die generativen kontradiktorischen Netzwerke mit Diffusionsmodellen, um eine beispiellose Geschwindigkeit bei der Bildgenerierung zu erreichen.

Die Idee hinter dem neuen DMD-Framework besteht darin, zwei Diffusionsmodelle zu verwenden. Auf diese Weise gelingt es, die Instabilitäts- und Moduskollapsprobleme von GAN-Modellen zu überwinden.

Die Ergebnisse waren erstaunlich und wenn Sie sich den Clip oben ansehen, werden Sie feststellen, dass das neue DMD ungefähr 20 Bilder pro Sekunde generiert, verglichen mit Stable Diffusion 1.5, das 1,4 Sekunden benötigt, um ein einzelnes Bild zu generieren.

Laut TechSpot sind die MIT-Forscher nicht die einzigen, die einen einstufigen Ansatz zur Bilderzeugung anwenden. Stability AI und ihre Methode namens Adversarial Diffusion Distillation (ADD) können mit nur einem Nvidia A100 AI GPU-Beschleuniger ein Bild in nur 207 ms erzeugen.

Die Bildgenerierung wird von Tag zu Tag schneller und wir hoffen, dass dies auch für Modelle zur Videogenerierung wie Sora AI gilt .

Was halten Sie von der neuen Technologie? Teilen Sie uns Ihre Meinung unten im Kommentarbereich mit.

Unsere Arbeit ist eine neuartige Methode, die aktuelle Diffusionsmodelle wie Stable Diffusion und DALLE-3 um das 30-fache beschleunigt. Diese Weiterentwicklung reduziert nicht nur die Rechenzeit erheblich, sondern behält auch die Qualität des generierten visuellen Inhalts bei, wenn nicht sogar übertrifft sie. Theoretisch verbindet der Ansatz die Prinzipien generativer kontradiktorischer Netzwerke (GANs) mit denen von Diffusionsmodellen und erreicht so die Generierung visueller Inhalte in einem einzigen Schritt – ein starker Kontrast zu den hundert Schritten iterativer Verfeinerung, die aktuelle Diffusionsmodelle erfordern. Dies könnte möglicherweise eine neue generative Modellierungsmethode sein, die sich durch Geschwindigkeit und Qualität auszeichnet.

Tianwei Yin, leitender Forscher zum DMD-Framework

Forscher verwenden eine neue Methode namens Distribution Matching Distillation

Schreibe einen Kommentar Antworten abbrechen