Modelos de linguagem visual poderão em breve usar LLMs para melhorar a aprendizagem imediata
Ai pode criar conteúdo visual a partir de nossos prompts. Porém, o resultado nem sempre é preciso, principalmente se utilizarmos modelos de linguagem visual livres (VLMs). Além disso, quando tentamos usar VLMs gratuitos para detalhes intrincados, eles não conseguem produzir resultados de alta qualidade. Assim, há necessidade de modelos de linguagem visual que possam gerar conteúdo de melhor qualidade. Por exemplo, temos Sora AI , que é excelente na criação de recursos visuais que uma empresa chinesa já deseja usar.
Como os LLMs irão melhorar os modelos de linguagem visual?
De acordo com um blog de pesquisa da Microsoft , os pesquisadores estão tentando encontrar uma maneira de usar grandes modelos de linguagem (LLMs) para gerar gráficos estruturados para os modelos de linguagem visual. Então, para fazer isso, eles fazem perguntas à IA, reestruturam as informações e depois geram gráficos estruturados. Além disso, o processo precisa de um pouco de organização. Afinal, os gráficos precisam apresentar a entidade, seus atributos e o relacionamento entre eles.
Para entender melhor o processo, pense em um animal específico. Em seguida, peça à IA para fornecer descrições baseadas em questões relacionadas ao animal. Assim, você terá mais informações sobre o animal em que pensou. Depois, peça à IA para reestruturar e categorizar suas informações.
Após obter os resultados, os pesquisadores implementaram o Hierarchical Prompt Tuning (HTP), um framework que organiza o conteúdo. Com ele, os modelos de linguagem visual aprendem a discernir diferentes dados, como detalhes específicos, categorias e temas a partir de um prompt. Além disso, este método melhora a capacidade dos VLMs de compreender e processar diversas consultas.
Quando a última etapa terminar, os modelos de linguagem visual serão capazes de gerar imagens mais precisas com base nas suas instruções. Além disso, na próxima vez que precisar analisar uma imagem, você poderá usar o VLM para criar descrições para ela em troca.
Resumindo, o objetivo principal da pesquisa é usar um LLM para ensinar um modelo de linguagem visual como compreender os detalhes de um prompt para gerar imagens mais precisas e realistas. Enquanto isso, o segundo objetivo é ensinar o VLM a identificar os elementos de uma imagem e a criar descrições.
Quais são seus pensamentos? Você está animado com esta pesquisa? Deixe-nos saber nos comentários.
Deixe um comentário