Modele języka wizualnego mogą wkrótce wykorzystać LLM do usprawnienia szybkiego uczenia się

2024/02/29

AI może tworzyć treści wizualne na podstawie naszych podpowiedzi. Jednak wynik nie zawsze jest dokładny, głównie jeśli korzystamy z darmowych modeli języka wizualnego (VLM). Co więcej, gdy próbujemy używać bezpłatnych VLM do skomplikowanych szczegółów, nie dają one wysokiej jakości wyników. Dlatego istnieje zapotrzebowanie na modele języka wizualnego, które będą w stanie generować treści lepszej jakości. Mamy na przykład Sora AI , która doskonale radzi sobie z tworzeniem wizualizacji, z których chińska firma już chce korzystać.

W jaki sposób LLM poprawią modele języka wizualnego?

Według bloga badawczego firmy Microsoft badacze próbują znaleźć sposób na wykorzystanie dużych modeli językowych (LLM) do generowania ustrukturyzowanych wykresów dla modeli języka wizualnego. Aby to zrobić, zadają AI pytania, restrukturyzują informacje, a następnie generują ustrukturyzowane wykresy. Ponadto proces wymaga trochę organizacji. W końcu wykresy muszą przedstawiać jednostkę, jej atrybuty i relacje między nimi.

Aby lepiej zrozumieć ten proces, pomyśl o konkretnym zwierzęciu. Następnie poproś sztuczną inteligencję o dostarczenie opisów na podstawie pytań związanych ze zwierzęciem. Będziesz wtedy miał więcej informacji na temat zwierzęcia, o którym pomyślałeś. Następnie poproś sztuczną inteligencję o restrukturyzację i kategoryzację informacji.

Po uzyskaniu wyników badacze wdrożyli Hierarchical Prompt Tuning (HTP), strukturę organizującą treść. Dzięki niemu modele języka wizualnego uczą się rozpoznawać w podpowiedziach różne dane, takie jak określone szczegóły, kategorie i motywy. Co więcej, metoda ta poprawia zdolność VLM do rozumienia i przetwarzania różnych zapytań.

Po zakończeniu ostatniego kroku modele języka wizualnego będą w stanie wygenerować dokładniejsze obrazy na podstawie podpowiedzi. Dodatkowo, gdy następnym razem będziesz musiał przeanalizować obraz, możesz użyć VLM, aby w zamian utworzyć dla niego opisy.

W skrócie, głównym celem badań jest wykorzystanie LLM do nauczenia modelu języka wizualnego, jak rozumieć szczegóły z podpowiedzi, aby wygenerować dokładniejsze i bardziej realistyczne obrazy. Tymczasem drugim celem jest nauczenie VLM rozpoznawania elementów na obrazie i tworzenia opisów.

Jakie są Twoje myśli? Czy jesteś podekscytowany tym badaniem? Daj nam znać w komentarzach.

W jaki sposób LLM poprawią modele języka wizualnego?

Dodaj komentarz Anuluj pisanie odpowiedzi