Los investigadores del MIT hacen que la generación de imágenes de IA sea 30 veces más rápida al simplificar el proceso
Un equipo de investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT encontró una manera de hacer que los LLM de generación de imágenes como DALL-E 3 y Stable Diffusion sean mucho más rápidos.
Lograron simplificar el proceso en un solo paso, pero sin comprometer la calidad de la imagen.
En este momento, la IA está utilizando el llamado modelo de difusión para generar una imagen. Esto implica recrear una imagen en estado ruidoso y darle estructura progresivamente hasta que se aclare. Suena bastante simple, pero en realidad se necesitan muchos pasos para pasar de una tontería borrosa a una imagen clara y nítida.
Los investigadores de CSAIL tienen un nuevo marco que transforma ese enfoque de varios pasos en una sola acción.
Los investigadores utilizan un nuevo método llamado Destilación de igualación de distribución
Según el comunicado de prensa , el enfoque del MIT se llama DMD, o Distribution Matching Distillation, y combina las redes generativas adversarias con modelos de difusión para lograr una velocidad sin precedentes para la generación de imágenes.
La idea detrás del nuevo marco DMD es utilizar dos modelos de difusión. De esta manera, logran superar los problemas de inestabilidad y colapso de modo de los modelos GAN.
Los resultados fueron sorprendentes y si mira el clip de arriba, verá que el nuevo DMD genera aproximadamente 20 imágenes por segundo en comparación con Stable Diffusion 1.5 que necesita 1,4 segundos para generar una sola imagen.
Según TechSpot , los investigadores del MIT no son los únicos que aplican un enfoque de un solo paso para la generación de imágenes. Estabilidad La IA y su método llamado Adversarial Diffusion Distillation (ADD) pueden generar una imagen en solo 207 ms usando solo un acelerador GPU Nvidia A100 AI.
La generación de imágenes es cada día más rápida y esperamos que esto también se aplique a modelos de generación de vídeo como Sora AI .
¿Qué opinas de la nueva tecnología? Comparta su opinión en la sección de comentarios a continuación.
Nuestro trabajo es un método novedoso que acelera 30 veces los modelos de difusión actuales, como la Difusión Estable y DALLE-3. Este avance no sólo reduce significativamente el tiempo de cálculo sino que también conserva, si no supera, la calidad del contenido visual generado. Teóricamente, el enfoque combina los principios de las redes generativas adversarias (GAN) con los de los modelos de difusión, logrando la generación de contenido visual en un solo paso, un marcado contraste con los cien pasos de refinamiento iterativo que requieren los modelos de difusión actuales. Potencialmente, podría ser un nuevo método de modelado generativo que sobresalga en velocidad y calidad.
Tianwei Yin, investigador principal sobre el marco DMD
Deja una respuesta