I modelli del linguaggio visivo potrebbero presto utilizzare i LLM per migliorare l’apprendimento rapido
Ai può creare contenuti visivi dai nostri suggerimenti. Tuttavia, il risultato non è sempre accurato, soprattutto se utilizziamo modelli di linguaggio visivo (VLM) gratuiti. Inoltre, quando proviamo a utilizzare VLM gratuiti per dettagli complessi, non riescono a produrre risultati di alta qualità. Pertanto, sono necessari modelli di linguaggio visivo in grado di generare contenuti di migliore qualità. Ad esempio, abbiamo Sora AI , che è eccellente nel creare immagini che un’azienda cinese vuole già utilizzare.
In che modo i LLM miglioreranno i modelli del linguaggio visivo?
Secondo un blog di ricerca di Microsoft , i ricercatori stanno cercando di trovare un modo per utilizzare modelli di linguaggio di grandi dimensioni (LLM) per generare grafici strutturati per i modelli di linguaggio visivo. Quindi, per fare ciò, pongono domande all’intelligenza artificiale, ristrutturano le informazioni e successivamente generano grafici strutturati. Inoltre, il processo necessita di un po’ di organizzazione. Dopotutto, i grafici devono rappresentare l’entità, i suoi attributi e la relazione tra loro.
Per comprendere meglio il processo, pensa a un animale specifico. Quindi, chiedi all’IA di fornire descrizioni basate su domande relative all’animale. Quindi avrai più informazioni sull’animale a cui hai pensato. Successivamente, chiedi all’intelligenza artificiale di ristrutturare e classificare le tue informazioni.
Dopo aver ottenuto i risultati, i ricercatori hanno implementato Hierarchical Prompt Tuning (HTP), un framework che organizza i contenuti. Con esso, i modelli del linguaggio visivo imparano a discernere dati diversi, come dettagli specifici, categorie e temi da un prompt. Inoltre, questo metodo migliora la capacità dei VLM di comprendere ed elaborare varie query.
Una volta terminato l’ultimo passaggio, i modelli del linguaggio visivo saranno in grado di generare immagini più accurate in base alle tue istruzioni. Inoltre, la prossima volta che avrai bisogno di analizzare un’immagine, potresti utilizzare VLM per creare in cambio delle descrizioni.
In poche parole, l’obiettivo principale della ricerca è utilizzare un LLM per insegnare a un modello di linguaggio visivo come comprendere i dettagli da un prompt per generare immagini più accurate e realistiche. Nel frattempo, il secondo obiettivo è insegnare al VLM a identificare gli elementi da un’immagine e creare descrizioni.
Quali sono i tuoi pensieri? Sei entusiasta di questa ricerca? Fateci sapere nei commenti.
Lascia un commento