Visuelle Sprachmodelle könnten bald LLMs nutzen, um das schnelle Lernen zu verbessern
Ai kann aus unseren Eingabeaufforderungen visuelle Inhalte erstellen. Allerdings ist das Ergebnis nicht immer genau, vor allem wenn wir freie visuelle Sprachmodelle (VLMs) verwenden. Wenn wir außerdem versuchen, kostenlose VLMs für komplizierte Details zu verwenden, liefern sie keine qualitativ hochwertigen Ergebnisse. Daher besteht ein Bedarf an visuellen Sprachmodellen, die qualitativ hochwertigere Inhalte generieren können. Wir haben zum Beispiel Sora AI , das hervorragend darin ist, visuelle Elemente zu erstellen, die ein chinesisches Unternehmen bereits verwenden möchte.
Wie werden die LLMs die visuellen Sprachmodelle verbessern?
Laut einem Microsoft Research Blog versuchen Forscher, eine Möglichkeit zu finden, große Sprachmodelle (LLMs) zu verwenden, um strukturierte Diagramme für die visuellen Sprachmodelle zu generieren. Dazu stellen sie der KI Fragen, strukturieren die Informationen neu und erstellen anschließend strukturierte Diagramme. Darüber hinaus erfordert der Prozess ein wenig Organisation. Schließlich müssen die Diagramme die Entität, ihre Attribute und die Beziehung zwischen ihnen darstellen.
Um den Vorgang besser zu verstehen, denken Sie an ein bestimmtes Tier. Bitten Sie dann die KI, Beschreibungen basierend auf Fragen zum Tier bereitzustellen. Dann erhalten Sie weitere Informationen über das Tier, an das Sie gedacht haben. Bitten Sie anschließend die KI, Ihre Informationen neu zu strukturieren und zu kategorisieren.
Nach Erhalt der Ergebnisse implementierten die Forscher Hierarchical Prompt Tuning (HTP), ein Framework zur Organisation von Inhalten. Damit lernen die visuellen Sprachmodelle, unterschiedliche Daten, wie beispielsweise spezifische Details, Kategorien und Themen, aus einer Eingabeaufforderung zu unterscheiden. Darüber hinaus verbessert diese Methode die Fähigkeit der VLMs, verschiedene Anfragen zu verstehen und zu verarbeiten.
Wenn der letzte Schritt abgeschlossen ist, können die visuellen Sprachmodelle basierend auf Ihren Eingabeaufforderungen genauere Bilder generieren. Darüber hinaus können Sie beim nächsten Mal, wenn Sie ein Bild analysieren müssen, mithilfe des VLM im Gegenzug Beschreibungen dafür erstellen.
Kurz gesagt besteht das Hauptziel der Forschung darin, mithilfe eines LLM einem visuellen Sprachmodell beizubringen, die Details einer Eingabeaufforderung zu verstehen, um genauere und realistischere Bilder zu erzeugen. Das zweite Ziel besteht darin, dem VLM beizubringen, die Elemente eines Bildes zu identifizieren und Beschreibungen zu erstellen.
Was sind deine Gedanken? Sind Sie von dieser Forschung begeistert? Lass es uns in den Kommentaren wissen.
Schreibe einen Kommentar