MIT 연구진은 프로세스를 단순화하여 AI 이미지 생성 속도를 30배 빠르게 만듭니다.

2024/03/27

MIT 컴퓨터 과학 및 인공 지능 연구소(CSAIL)의 연구진 팀은 DALL-E 3 및 Stable Diffusion과 같은 이미지 생성 LLM을 훨씬 빠르게 만드는 방법을 찾았습니다.

그들은 프로세스를 한 단계로 단순화하면서도 이미지 품질을 저하시키지 않았습니다.

현재 AI는 소위 확산 모델을 사용하여 이미지를 생성하고 있습니다. 여기에는 시끄러운 상태의 이미지를 다시 생성하고 명확해질 때까지 점진적으로 구조를 부여하는 작업이 포함됩니다. 꽤 간단하게 들리지만 실제로는 흐릿한 넌센스에서 명확하고 선명한 이미지를 얻으려면 많은 단계가 필요합니다.

CSAIL 연구원들은 다단계 접근 방식을 단일 작업으로 변환하는 새로운 프레임워크를 보유하고 있습니다.

연구자들은 분포 매칭 증류(Distribution Matching Distillation)라는 새로운 방법을 사용합니다.

보도 자료 에 따르면 MIT의 접근 방식은 DMD(Distribution Matching Distillation)라고 하며, 생성적 적대 네트워크를 확산 모델과 일치시켜 전례 없는 이미지 생성 속도를 달성합니다.

새로운 DMD 프레임워크의 기본 아이디어는 두 가지 확산 모델을 사용하는 것입니다. 이러한 방식으로 그들은 GAN 모델의 불안정성과 모드 붕괴 문제를 극복하는 데 성공했습니다.

결과는 놀라웠으며 위의 클립을 보면 단일 이미지를 생성하는 데 1.4초가 필요한 Stable Diffusion 1.5와 비교하여 새로운 DMD가 초당 약 20개의 이미지를 생성하는 것을 볼 수 있습니다.

TechSpot 에 따르면 MIT 연구원들만이 이미지 생성에 단일 단계 접근 방식을 적용하는 것은 아닙니다. Stability AI와 ADD(Adversarial Diffusion Distillation)라는 방법은 Nvidia A100 AI GPU 가속기만을 사용하여 단 207ms 만에 이미지를 생성할 수 있습니다.

이미지 생성 속도는 나날이 빨라지고 있으며 이것이 Sora AI 와 같은 비디오 생성 모델에도 적용되기를 바랍니다 .

새로운 기술에 대해 어떻게 생각하시나요? 아래 댓글 섹션에서 여러분의 생각을 공유해 주세요.

우리의 작업은 Stable Diffusion 및 DALLE-3과 같은 현재 확산 모델을 30배 가속하는 새로운 방법입니다. 이러한 발전은 계산 시간을 크게 줄일 뿐만 아니라 생성된 시각적 콘텐츠의 품질을 능가하지는 않더라도 유지합니다. 이론적으로 이 접근 방식은 생성적 적대 네트워크(GAN)의 원리와 확산 모델의 원리를 결합하여 단일 단계로 시각적 콘텐츠 생성을 달성합니다. 이는 현재 확산 모델에서 요구하는 수백 단계의 반복적 개선과 극명한 대조를 이룹니다. 이는 잠재적으로 속도와 품질이 뛰어난 새로운 생성 모델링 방법이 될 수 있습니다.

DMD 프레임워크 수석 연구원 Tianwei Yin

연구자들은 분포 매칭 증류(Distribution Matching Distillation)라는 새로운 방법을 사용합니다.

답글 남기기 응답 취소