Visuele taalmodellen kunnen binnenkort LLM’s gebruiken om snel leren te verbeteren

Ai kan visuele inhoud creëren op basis van onze aanwijzingen. Het resultaat is echter niet altijd accuraat, vooral als we gratis visuele taalmodellen (VLM’s) gebruiken. Bovendien, als we gratis VLM’s proberen te gebruiken voor ingewikkelde details, leveren ze geen resultaten van hoge kwaliteit op. Er is dus behoefte aan beeldtaalmodellen die inhoud van betere kwaliteit kunnen genereren. We hebben bijvoorbeeld Sora AI , die uitstekend is in het creëren van visuals die een Chinees bedrijf al wil gebruiken.

Hoe zullen de LLM’s de visuele taalmodellen verbeteren?

Volgens een Microsoft Research Blog proberen onderzoekers een manier te vinden om grote taalmodellen (LLM’s) te gebruiken om gestructureerde grafieken voor de visuele taalmodellen te genereren. Om dit te doen, stellen ze de AI vragen, herstructureren ze de informatie en genereren ze daarna gestructureerde grafieken. Bovendien heeft het proces wat organisatie nodig. De grafieken moeten immers de entiteit, de attributen ervan en de relatie daartussen weergeven.

Denk aan een specifiek dier om het proces beter te begrijpen. Vraag de AI vervolgens om beschrijvingen te geven op basis van vragen die verband houden met het dier. Dan heb je meer informatie over het dier waar je aan dacht. Vraag daarna de AI om uw informatie te herstructureren en categoriseren.

Nadat ze de resultaten hadden behaald, implementeerden onderzoekers Hierarchical Prompt Tuning (HTP), een raamwerk dat inhoud organiseert. Hiermee leren de visuele taalmodellen verschillende gegevens, zoals specifieke details, categorieën en thema’s, uit een prompt te onderscheiden. Bovendien verbetert deze methode het vermogen van de VLM’s om verschillende vragen te begrijpen en te verwerken.

Wanneer de laatste stap voorbij is, kunnen de beeldtaalmodellen nauwkeurigere afbeeldingen genereren op basis van uw aanwijzingen. Bovendien kunt u de volgende keer dat u een afbeelding moet analyseren, de VLM gebruiken om er beschrijvingen voor te maken.

In een notendop is het belangrijkste doel van het onderzoek om een ​​LLM te gebruiken om een ​​visueel taalmodel te leren hoe de details van een prompt kunnen worden begrepen om nauwkeurigere en realistischere afbeeldingen te genereren. Het tweede doel is ondertussen om de VLM te leren de elementen uit een afbeelding te identificeren en beschrijvingen te maken.

Wat zijn uw gedachten? Bent u enthousiast over dit onderzoek? Laat het ons weten in de reacties.


Author: Egor Kostenko

Mijn doel is om complexe technische onderwerpen eenvoudig en toegankelijk te maken. Op deze site verzamel ik unieke en nuttige inhoud die niet alleen de problemen van gebruikers oplost, maar hen ook helpt om de mogelijkheden van Windows beter te begrijpen.


Geef een reactie

Je e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *