Les modèles de langage visuel pourraient bientôt utiliser les LLM pour améliorer l’apprentissage rapide

2024/02/29

Ai peut créer du contenu visuel à partir de nos invites. Cependant, le résultat n’est pas toujours précis, surtout si l’on utilise des modèles de langage visuel (VLM) gratuits. De plus, lorsque nous essayons d’utiliser des VLM gratuits pour des détails complexes, ils ne parviennent pas à produire des résultats de haute qualité. Il existe donc un besoin de modèles de langage visuel capables de générer un contenu de meilleure qualité. Par exemple, nous avons Sora AI , qui est excellent pour créer des visuels qu’une entreprise chinoise souhaite déjà utiliser.

Comment les LLM amélioreront-ils les modèles de langage visuel ?

Selon un blog de recherche Microsoft , les chercheurs tentent de trouver un moyen d’utiliser de grands modèles de langage (LLM) pour générer des graphiques structurés pour les modèles de langage visuel. Ainsi, pour ce faire, ils posent des questions à l’IA, restructurent les informations et génèrent ensuite des graphiques structurés. De plus, le processus nécessite un peu d’organisation. Après tout, les graphiques doivent présenter l’entité, ses attributs et les relations entre eux.

Pour mieux comprendre le processus, pensez à un animal spécifique. Demandez ensuite à l’IA de fournir des descriptions basées sur des questions liées à l’animal. Vous aurez alors plus d’informations sur l’animal auquel vous avez pensé. Ensuite, demandez à l’IA de restructurer et de catégoriser vos informations.

Après avoir obtenu les résultats, les chercheurs ont mis en œuvre le Hierarchical Prompt Tuning (HTP), un cadre qui organise le contenu. Grâce à lui, les modèles de langage visuel apprennent à discerner différentes données, telles que des détails spécifiques, des catégories et des thèmes à partir d’une invite. De plus, cette méthode améliore la capacité des VLM à comprendre et à traiter diverses requêtes.

Une fois la dernière étape terminée, les modèles de langage visuel seront capables de générer des images plus précises en fonction de vos invites. De plus, la prochaine fois que vous aurez besoin d’analyser une image, vous pourrez utiliser le VLM pour créer des descriptions en retour.

En un mot, l’objectif principal de la recherche est d’utiliser un LLM pour enseigner à un modèle de langage visuel comment comprendre les détails d’une invite afin de générer des images plus précises et plus réalistes. Pendant ce temps, le deuxième objectif est d’apprendre au VLM à identifier les éléments d’une image et à créer des descriptions.

Quelles sont vos pensées? Êtes-vous enthousiasmé par cette recherche? Faites le nous savoir dans les commentaires.

Comment les LLM amélioreront-ils les modèles de langage visuel ?

Laisser un commentaire Annuler la réponse