Los modelos de lenguaje visual pronto podrían usar LLM para mejorar el aprendizaje rápido
Ai puede crear contenido visual a partir de nuestras indicaciones. Sin embargo, el resultado no siempre es exacto, principalmente si utilizamos modelos de lenguaje visual (VLM) gratuitos. Además, cuando intentamos utilizar VLM gratuitos para detalles complejos, no logran producir resultados de alta calidad. Por tanto, existe la necesidad de modelos de lenguaje visual que puedan generar contenido de mejor calidad. Por ejemplo, tenemos Sora AI , que es excelente para crear imágenes que una empresa china ya quiere utilizar.
¿Cómo mejorarán los LLM los modelos de lenguaje visual?
Según un blog de investigación de Microsoft , los investigadores están tratando de encontrar una manera de utilizar modelos de lenguaje grandes (LLM) para generar gráficos estructurados para los modelos de lenguaje visual. Entonces, para hacer esto, hacen preguntas a la IA, reestructuran la información y luego generan gráficos estructurados. Además, el proceso necesita un poco de organización. Después de todo, los gráficos deben presentar la entidad, sus atributos y la relación entre ellos.
Para comprender mejor el proceso, piense en un animal específico. Luego, pídale a la IA que proporcione descripciones basadas en preguntas relacionadas con el animal. Entonces, tendrás más información sobre el animal en el que pensaste. Luego, pídale a la IA que reestructure y categorice su información.
Después de obtener los resultados, los investigadores implementaron Hierarchical Prompt Tuning (HTP), un marco que organiza el contenido. Con él, los modelos de lenguaje visual aprenden a discernir diferentes datos, como detalles, categorías y temas específicos a partir de un mensaje. Además, este método mejora la capacidad de los VLM para comprender y procesar diversas consultas.
Cuando finalice el último paso, los modelos de lenguaje visual podrán generar imágenes más precisas según sus indicaciones. Además, la próxima vez que necesite analizar una imagen, puede utilizar VLM para crear descripciones a cambio.
En pocas palabras, el objetivo principal de la investigación es utilizar un LLM para enseñar a un modelo de lenguaje visual cómo comprender los detalles a partir de una indicación para generar imágenes más precisas y realistas. Mientras tanto, el segundo objetivo es enseñar al VLM a identificar los elementos de una imagen y crear descripciones.
¿Cuáles son tus pensamientos? ¿Estás entusiasmado con esta investigación? Háganos saber en los comentarios.
Deja una respuesta