A Microsoft quer que os usuários interajam com elementos, como pessoas e objetos, enquanto assistem ao conteúdo de vídeo

2024/01/23

conteúdo de vídeo interativo da Microsoft

A Microsoft registrou recentemente uma patente que descreve uma tecnologia capaz de permitir que as pessoas detectem, identifiquem e interajam com precisão com elementos, como pessoas e objetos, enquanto assistem a conteúdo de vídeo.

A patente, chamada Detecção de proeminência de objetos em informações de vídeo , descreve detalhadamente como essa tecnologia seria usada para facilitar compras interativas, mas também rastreamento e identificação, em um sistema que certamente causaria arrepios na espinha.

A tecnologia patenteada, que pode ser lida na íntegra aqui , funciona da seguinte forma:

Existe um sistema de processamento de vídeos que utiliza máquinas para localizar e seguir as pessoas que aparecem nos vídeos.
O sistema então atribui uma pontuação a cada pessoa com base na importância dela nos vídeos, para fazer uma lista de pontuações.
A pontuação de uma pessoa mostra o quanto ela pode interessar aos telespectadores. Por exemplo, a pontuação de uma pessoa mostra, em parte, o quanto ela aparece nos vídeos.
O sistema dá as pontuações com base em informações específicas de cada pessoa. O sistema gera essas informações somando características que pertencem a uma determinada pessoa.

A tecnologia pode ser usada em diversas aplicações. Ele poderia ser usado para rastrear um determinado produto, como um suéter que um personagem de filme está vestindo, permitindo efetivamente ao usuário identificá-lo e salvar as informações para uso posterior, como você pode ver na imagem abaixo.

No entanto, também pode ser utilizado para detectar e identificar com precisão pessoas, sejam pessoas públicas ou privadas, através do acesso a uma base de dados e da procura de rostos semelhantes.

Um componente de detecção de rosto determina as identidades das pessoas que aparecem nas informações do vídeo, reconhecendo seus rostos. Por exemplo, em algumas implementações, o componente de detecção de rosto determina se algum dos indivíduos que aparecem nas informações de vídeo foi previamente identificado como pessoa pública, tal como celebridades ou políticos.

Um dos aspectos mais assustadores desta ferramenta seria a sua capacidade de captar as emoções de cada rosto, utilizando conteúdos de áudio e vídeo para montar um mapa das emoções expressas pelos sujeitos do vídeo.

O componente de detecção de emoções detecta emoções de interesse determinando se a informação de áudio contém sons predeterminados indicativos dessas emoções.

Como tal, a tecnologia poderia ser utilizada por várias partes, desde empresas e empresas até utilizadores regulares, e ou mesmo departamentos de polícia, para colocar produtos e pessoas em conteúdo de vídeo e, posteriormente, detectar e identificar esses produtos e pessoas, utilizando a mesma tecnologia. .

A Microsoft tem registrado muitas patentes, como aquela que descreve uma tecnologia que tornaria as reuniões do Teams hiperrealistas , mas poucas veem a luz do dia.

No entanto, à medida que as plataformas de streaming de vídeo estão se consolidando e o conteúdo de vídeo é a forma predominante de mídia, com plataformas como TikTok, Instagram e outros lugares, uma tecnologia como essa certamente seria uma virada de jogo e poderia revolucionar a maneira como nós. consumir conteúdo de vídeo.

Mas é bastante estranho.

Deixe um comentário Cancelar resposta