Naukowcy z MIT sprawiają, że generowanie obrazów AI jest 30 razy szybsze, upraszczając proces
Zespół naukowców z Laboratorium Informatyki i Sztucznej Inteligencji MIT (CSAIL) znalazł sposób na znacznie szybsze wytwarzanie obrazów LLM, takich jak DALL-E 3 i Stable Diffusion.
Udało im się uprościć proces do jednego kroku, ale bez utraty jakości obrazu.
Obecnie sztuczna inteligencja wykorzystuje tak zwany model dyfuzji do generowania obrazu. Wiąże się to z odtworzeniem obrazu w stanie zaszumionym i stopniowym nadawaniem mu struktury, aż stanie się wyraźny. Brzmi to dość prosto, ale w rzeczywistości przejście od niewyraźnego nonsensu do wyraźnego, ostrego obrazu wymaga wielu kroków.
Badacze CSAIL dysponują nowymi ramami, które przekształcają to wieloetapowe podejście w jedno działanie.
Naukowcy stosują nową metodę zwaną destylacją dopasowującą dystrybucję
Według komunikatu prasowego podejście MIT nosi nazwę DMD, czyli destylacja dopasowująca dystrybucję i łączy generatywne sieci kontradyktoryjne z modelami dyfuzyjnymi, aby osiągnąć niespotykaną dotąd prędkość generowania obrazu.
Ideą nowego modelu DMD jest wykorzystanie dwóch modeli dyfuzji. W ten sposób udaje im się przezwyciężyć problemy związane z niestabilnością i załamaniem trybów występujące w modelach GAN.
Wyniki były niesamowite i jeśli obejrzysz powyższy klip, zobaczysz, że nowy DMD generuje około 20 obrazów na sekundę w porównaniu z Stable Diffusion 1.5, która potrzebuje 1,4 sekundy na wygenerowanie pojedynczego obrazu.
Według TechSpot badacze z MIT nie są jedynymi, którzy stosują jednoetapowe podejście do generowania obrazów. Stabilna sztuczna inteligencja i jej metoda zwana adversarial diffusion destillation (ADD) mogą wygenerować obraz w zaledwie 207 ms przy użyciu wyłącznie akceleratora graficznego Nvidia A100 AI.
Generowanie obrazu staje się z każdym dniem szybsze i mamy nadzieję, że dotyczy to również modeli generowania wideo, takich jak Sora AI .
Co sądzisz o nowej technologii? Podziel się swoją myślą w sekcji komentarzy poniżej.
Nasza praca to nowatorska metoda, która 30-krotnie przyspiesza obecne modele dyfuzji, takie jak Stable Diffusion i DALLE-3. To udoskonalenie nie tylko znacznie skraca czas obliczeń, ale także pozwala zachować, jeśli nie przewyższa, jakość generowanych treści wizualnych. Teoretycznie podejście to łączy zasady generatywnych sieci kontradyktoryjnych (GAN) z zasadami modeli dyfuzyjnych, osiągając generowanie treści wizualnych w jednym kroku — co stanowi wyraźny kontrast w stosunku do stu etapów iteracyjnego udoskonalania wymaganych w obecnych modelach dyfuzji. Potencjalnie może to być nowa metoda modelowania generatywnego, charakteryzująca się szybkością i jakością.
Tianwei Yin, główny badacz modelu DMD
Dodaj komentarz