Microsoft quiere que los usuarios interactúen con elementos, como personas y objetos, mientras ven contenido de vídeo.

2024/01/23

contenido de vídeo interactivo de Microsoft

Microsoft presentó recientemente una patente que describe una tecnología capaz de permitir a las personas detectar, identificar e interactuar con precisión con elementos, como personas y objetos, mientras miran contenido de video.

La patente, denominada Detecting Prominence of Objects in Video Information , describe en detalle cómo se utilizaría esta tecnología para facilitar la compra interactiva, pero también el seguimiento y la identificación, en un sistema que seguramente provocaría escalofríos.

La tecnología patentada, que puede leerse íntegramente aquí , funciona de esta manera:

Existe un sistema de procesamiento de vídeos que utiliza máquinas para encontrar y seguir a las personas que aparecen en los vídeos.
Luego, el sistema otorga una puntuación a cada persona en función de su importancia en los vídeos, para hacer una lista de puntuaciones.
La puntuación de una persona muestra hasta qué punto puede resultar interesante para los espectadores. Por ejemplo, la puntuación de una persona muestra, en parte, cuánto aparece en los vídeos.
El sistema otorga las puntuaciones basándose en información específica de cada persona. El sistema genera esta información sumando características que pertenecen a una determinada persona.

La tecnología podría utilizarse en una variedad de aplicaciones. Podría usarse para rastrear un determinado producto, como un suéter que lleva un personaje de una película, lo que permite al usuario identificarlo y guardar la información para su uso posterior, como se puede ver en la imagen a continuación.

Sin embargo, también se puede utilizar para detectar e identificar con precisión personas, ya sean públicas o privadas, accediendo a una base de datos y buscando rostros similares.

Un componente de detección de rostros determina las identidades de las personas que aparecen en la información del vídeo reconociendo sus rostros. Por ejemplo, en algunas implementaciones, el componente de detección de rostros determina si alguno de los individuos que aparecen en la información del vídeo ha sido identificado previamente como personas públicas, tales como celebridades o políticos.

Uno de los aspectos más inquietantes de esta herramienta sería su capacidad para capturar las emociones de cada rostro, haciendo uso de contenido de audio y video para armar un mapa de las emociones expresadas por los sujetos del video.

El componente de detección de emociones detecta emociones de interés determinando si la información de audio contiene sonidos predeterminados indicativos de estas emociones.

Como tal, la tecnología podría ser utilizada por varias partes, desde empresas y compañías hasta usuarios habituales, e incluso departamentos de policía, para colocar productos y personas en contenido de vídeo, y luego detectar e identificar esos productos y personas, utilizando la misma tecnología. .

Microsoft ha estado presentando muchas patentes, como la que describe una tecnología que haría que las reuniones de Teams fueran hiperrealistas , pero no muchas ven la luz.

Sin embargo, a medida que las plataformas de transmisión de video se están afianzando y el contenido de video es la forma predominante de medio, con plataformas como TikTok, Instagram y otros lugares, una tecnología como esta seguramente cambiaría las reglas del juego y podría revolucionar la forma en que consumir contenido de vídeo.

Pero es bastante inquietante.

Deja una respuesta Cancelar la respuesta