Microsoft anuncia modelo de linguagem de visão Turing Bletchley v3 para pesquisas de imagens do Bing
A Microsoft anunciou oficialmente a terceira versão de seu modelo de base de linguagem de visão multilíngue Turing Bletchley. Agora está sendo implementado em vários produtos da Microsoft, incluindo o Bing , para melhorias nas pesquisas de imagens.
A Microsoft lançou a primeira versão do modelo Turing Bletchley em novembro de 2021. Em uma postagem hoje no blog oficial do Bing , a Microsoft disse que começou a testar a terceira versão do modelo no outono de 2022 antes de adicioná-lo ao Bing e outros produtos. .
O modelo usa informações de texto e imagens para encontrar o que uma pessoa está procurando no mecanismo de busca Bing da Microsoft. O objetivo é que o modelo chegue o mais próximo possível para que um texto que descreva, por exemplo, “um cachorro tomando sorvete” chegue o mais próximo possível das imagens de um cachorro tomando sorvete em um resultado de pesquisa.
Parte da maneira como Turing Bletchley v3 faz essas conexões é extensa em relação ao modelo. A Microsoft afirma:
Dada uma imagem e uma legenda que descreve a imagem, algumas palavras da legenda são mascaradas. Uma rede neural é então treinada para prever as palavras ocultas condicionadas tanto na imagem quanto no texto. A tarefa também pode ser invertida para mascarar pixels em vez de palavras. Este tipo de treinamento mascarado, juntamente com um grande modelo baseado em transformador, leva a um forte modelo pré-treinado que pode ser ajustado em um conjunto diversificado de tarefas posteriores.
Além de ser utilizado para pesquisas de imagens no Bing. o novo modelo Turing Bletchley v3 está sendo usado para moderação de conteúdo em seu serviço de jogos Xbox. Ajuda a equipe a identificar, por exemplo, imagens e vídeos enviados por jogadores do Xbox em seus perfis que seriam considerados inadequados e violariam o padrão da comunidade da empresa na plataforma Xbox.
Deixe um comentário