Pesquisadores do MIT tornam a geração de imagens de IA 30x mais rápida, simplificando o processo
Uma equipe de pesquisadores do Laboratório de Ciência da Computação e Inteligência Artificial do MIT (CSAIL) encontrou uma maneira de tornar os LLMs de geração de imagens, como DALL-E 3 e Difusão Estável, muito mais rápidos.
Eles conseguiram simplificar o processo em uma única etapa, mas sem comprometer a qualidade da imagem.
No momento, a IA está usando o chamado modelo de difusão para gerar uma imagem. Isso envolve recriar uma imagem em estado ruidoso e dar-lhe progressivamente estrutura até que fique clara. Parece muito simples, mas na verdade são necessários muitos passos para passar de um absurdo confuso a uma imagem clara e nítida.
Os pesquisadores do CSAIL possuem uma nova estrutura que transforma essa abordagem de várias etapas em uma única ação.
Os pesquisadores usam um novo método chamado Distribution Matching Distillation
De acordo com o comunicado de imprensa , a abordagem do MIT é chamada DMD, ou Distribution Matching Distillation, e combina as redes generativas adversárias com modelos de difusão para atingir uma velocidade sem precedentes para geração de imagens.
A ideia por trás da nova estrutura DMD é usar dois modelos de difusão. Dessa forma, eles conseguem superar os problemas de instabilidade e colapso de modo dos modelos GAN.
Os resultados foram incríveis e se você assistir ao clipe acima, verá que o novo DMD está gerando cerca de 20 imagens por segundo em comparação com o Stable Diffusion 1.5, que precisa de 1,4 segundos para gerar uma única imagem.
De acordo com o TechSpot , os pesquisadores do MIT não são os únicos a aplicar uma abordagem de etapa única para geração de imagens. Stability AI e seu método chamado Adversarial Diffusion Distillation (ADD) podem gerar uma imagem em apenas 207 ms usando apenas um acelerador GPU Nvidia A100 AI.
A geração de imagens fica mais rápida a cada dia e esperamos que isso também se aplique a modelos de geração de vídeo como o Sora AI .
O que você acha da nova tecnologia? Compartilhe sua opinião na seção de comentários abaixo.
Nosso trabalho é um método novo que acelera em 30 vezes os modelos de difusão atuais, como Difusão Estável e DALLE-3. Esse avanço não apenas reduz significativamente o tempo computacional, mas também mantém, senão supera, a qualidade do conteúdo visual gerado. Teoricamente, a abordagem combina os princípios das redes adversárias generativas (GANs) com os dos modelos de difusão, alcançando a geração de conteúdo visual em uma única etapa – um forte contraste com as centenas de etapas de refinamento iterativo exigidas pelos atuais modelos de difusão. Poderia ser potencialmente um novo método de modelagem generativa que se destaca em velocidade e qualidade.
Tianwei Yin, pesquisador principal da estrutura DMD
Deixe um comentário