Naukowcy z MIT sprawiają, że generowanie obrazów AI jest 30 razy szybsze, upraszczając proces

Naukowcy z MIT sprawiają, że generowanie obrazów AI jest 30 razy szybsze, upraszczając proces

Zespół naukowców z Laboratorium Informatyki i Sztucznej Inteligencji MIT (CSAIL) znalazł sposób na znacznie szybsze wytwarzanie obrazów LLM, takich jak DALL-E 3 i Stable Diffusion.

Udało im się uprościć proces do jednego kroku, ale bez utraty jakości obrazu.

Obecnie sztuczna inteligencja wykorzystuje tak zwany model dyfuzji do generowania obrazu. Wiąże się to z odtworzeniem obrazu w stanie zaszumionym i stopniowym nadawaniem mu struktury, aż stanie się wyraźny. Brzmi to dość prosto, ale w rzeczywistości przejście od niewyraźnego nonsensu do wyraźnego, ostrego obrazu wymaga wielu kroków.

Badacze CSAIL dysponują nowymi ramami, które przekształcają to wieloetapowe podejście w jedno działanie.

Naukowcy stosują nową metodę zwaną destylacją dopasowującą dystrybucję

Według komunikatu prasowego podejście MIT nosi nazwę DMD, czyli destylacja dopasowująca dystrybucję i łączy generatywne sieci kontradyktoryjne z modelami dyfuzyjnymi, aby osiągnąć niespotykaną dotąd prędkość generowania obrazu.

Ideą nowego modelu DMD jest wykorzystanie dwóch modeli dyfuzji. W ten sposób udaje im się przezwyciężyć problemy związane z niestabilnością i załamaniem trybów występujące w modelach GAN.

Wyniki były niesamowite i jeśli obejrzysz powyższy klip, zobaczysz, że nowy DMD generuje około 20 obrazów na sekundę w porównaniu z Stable Diffusion 1.5, która potrzebuje 1,4 sekundy na wygenerowanie pojedynczego obrazu.

Według TechSpot badacze z MIT nie są jedynymi, którzy stosują jednoetapowe podejście do generowania obrazów. Stabilna sztuczna inteligencja i jej metoda zwana adversarial diffusion destillation (ADD) mogą wygenerować obraz w zaledwie 207 ms przy użyciu wyłącznie akceleratora graficznego Nvidia A100 AI.

Generowanie obrazu staje się z każdym dniem szybsze i mamy nadzieję, że dotyczy to również modeli generowania wideo, takich jak Sora AI .

Co sądzisz o nowej technologii? Podziel się swoją myślą w sekcji komentarzy poniżej.

Nasza praca to nowatorska metoda, która 30-krotnie przyspiesza obecne modele dyfuzji, takie jak Stable Diffusion i DALLE-3. To udoskonalenie nie tylko znacznie skraca czas obliczeń, ale także pozwala zachować, jeśli nie przewyższa, jakość generowanych treści wizualnych. Teoretycznie podejście to łączy zasady generatywnych sieci kontradyktoryjnych (GAN) z zasadami modeli dyfuzyjnych, osiągając generowanie treści wizualnych w jednym kroku — co stanowi wyraźny kontrast w stosunku do stu etapów iteracyjnego udoskonalania wymaganych w obecnych modelach dyfuzji. Potencjalnie może to być nowa metoda modelowania generatywnego, charakteryzująca się szybkością i jakością.

Tianwei Yin, główny badacz modelu DMD

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *