Microsoft souhaite que les utilisateurs interagissent avec des éléments, tels que des personnes et des objets, tout en regardant du contenu vidéo

2024/01/23

Microsoft a récemment déposé un brevet décrivant une technologie capable de permettre aux utilisateurs de détecter, d’identifier et d’interagir avec précision avec des éléments, tels que des personnes et des objets, tout en regardant du contenu vidéo.

Le brevet, intitulé Detecting Prominence of Objects in Video Information , décrit en détail comment cette technologie serait utilisée pour faciliter les achats interactifs, mais également le suivi et l’identification, dans un système qui donnerait sûrement des frissons dans le dos.

La technologie brevetée, qui peut être lue dans son intégralité ici , fonctionne de la manière suivante :

Il existe un système de traitement de vidéos qui utilise des machines pour rechercher et suivre les personnes qui apparaissent dans les vidéos.
Le système attribue ensuite une note à chaque personne en fonction de son importance dans les vidéos, pour dresser une liste de scores.
Le score d’une personne montre à quel point elle peut intéresser les téléspectateurs. Par exemple, le score d’une personne montre, en partie, à quel point elle apparaît dans les vidéos.
Le système attribue des scores en fonction d’informations spécifiques à chaque personne. Le système génère ces informations en additionnant les caractéristiques appartenant à une certaine personne.

La technologie pourrait être utilisée dans diverses applications. Il pourrait être utilisé pour retrouver un certain produit, tel qu’un pull qu’un personnage d’un film porte, permettant ainsi à l’utilisateur de l’identifier et de sauvegarder les informations pour une utilisation ultérieure, comme vous pouvez le voir dans l’image ci-dessous.

Cependant, il peut également être utilisé pour détecter et identifier avec précision des personnes, qu’elles soient publiques ou privées, en accédant à une base de données et en recherchant des visages similaires.

Un composant de détection de visage détermine l’identité des personnes qui apparaissent dans les informations vidéo en reconnaissant leurs visages. Par exemple, dans certaines mises en œuvre, le composant de détection de visage détermine si l’un des individus qui apparaissent dans les informations vidéo a été préalablement identifié comme étant des personnes publiques, telles que des célébrités ou des hommes politiques.

L’un des aspects les plus étranges de cet outil serait sa capacité à capturer les émotions de chaque visage, en utilisant du contenu audio et vidéo pour constituer une carte des émotions exprimées par les sujets de la vidéo.

Le composant de détection d’émotion détecte les émotions d’intérêt en déterminant si les informations audio contiennent des sons prédéterminés indicatifs de ces émotions.

En tant que telle, la technologie pourrait être utilisée par diverses parties, des entreprises aux utilisateurs réguliers, et même aux services de police, pour placer des produits et des personnes dans un contenu vidéo, puis détecter et identifier ces produits et ces personnes, en utilisant la même technologie. .

Microsoft a déposé de nombreux brevets, comme celui décrivant une technologie qui rendrait les réunions Teams hyperréalistes , mais peu voient le jour.

Cependant, à mesure que les plateformes de streaming vidéo s’imposent et que le contenu vidéo est la forme de média prédominante, avec des plateformes telles que TikTok, Instagram et d’autres, une technologie comme celle-ci changerait sûrement la donne et pourrait révolutionner la façon dont nous consommer du contenu vidéo.

Mais c’est assez inquiétant.

Laisser un commentaire Annuler la réponse