Les chercheurs du MIT accélèrent la génération d’images IA 30 fois en simplifiant le processus
Une équipe de chercheurs du Laboratoire d’informatique et d’intelligence artificielle du MIT (CSAIL) a trouvé un moyen de rendre les LLM de génération d’images tels que DALL-E 3 et Stable Diffusion beaucoup plus rapides.
Ils ont réussi à simplifier le processus en une seule étape, mais sans compromettre la qualité de l’image.
À l’heure actuelle, l’IA utilise ce qu’on appelle un modèle de diffusion pour générer une image. Il s’agit de recréer une image bruitée et de lui donner progressivement une structure jusqu’à ce qu’elle devienne claire. Cela semble assez simple, mais en réalité, il faut de nombreuses étapes pour passer d’une absurdité floue à une image claire et nette.
Les chercheurs du CSAIL disposent d’un nouveau cadre qui transforme cette approche en plusieurs étapes en une seule action.
Les chercheurs utilisent une nouvelle méthode appelée Distribution Matching Distillation
Selon le communiqué de presse , l’approche du MIT s’appelle DMD, ou Distribution Matching Distillation, et associe les réseaux adverses génératifs avec des modèles de diffusion pour atteindre une vitesse de génération d’images sans précédent.
L’idée derrière le nouveau cadre DMD est d’utiliser deux modèles de diffusion. De cette façon, ils réussissent à surmonter les problèmes d’instabilité et d’effondrement de mode des modèles GAN.
Les résultats ont été étonnants et si vous regardez le clip ci-dessus, vous verrez que le nouveau DMD génère environ 20 images par seconde, par rapport à Stable Diffusion 1.5 qui nécessite 1,4 seconde pour générer une seule image.
Selon TechSpot , les chercheurs du MIT ne sont pas les seuls à appliquer une approche en une seule étape pour la génération d’images. Stability AI et sa méthode appelée Adversarial Diffusion Distillation (ADD) peuvent générer une image en seulement 207 ms en utilisant uniquement un accélérateur GPU Nvidia A100 AI.
La génération d’images devient chaque jour plus rapide et nous espérons que cela s’appliquera également aux modèles de génération vidéo comme Sora AI .
Que pensez-vous de la nouvelle technologie ? Partagez votre réflexion dans la section commentaires ci-dessous.
Notre travail est une nouvelle méthode qui accélère de 30 fois les modèles de diffusion actuels tels que Stable Diffusion et DALLE-3. Cette avancée réduit non seulement considérablement le temps de calcul, mais conserve également, voire dépasse, la qualité du contenu visuel généré. Théoriquement, l’approche associe les principes des réseaux contradictoires génératifs (GAN) à ceux des modèles de diffusion, permettant ainsi de générer du contenu visuel en une seule étape – un contraste frappant avec les cent étapes de raffinement itératif requises par les modèles de diffusion actuels. Il pourrait s’agir d’une nouvelle méthode de modélisation générative qui excelle en termes de rapidité et de qualité.
Tianwei Yin, chercheur principal sur le cadre DMD
Laisser un commentaire