La última patente de Microsoft genera avatares virtuales hiperrealistas basados en los rostros de los usuarios

2024/04/24

Microsoft tiene algo con los avatares virtuales: su plataforma Mesh recientemente lanzada permite a los usuarios de Teams crear avatares para participar en los llamados espacios virtuales inmersivos, que son contextos donde los empleados pueden pasar el rato juntos, virtualmente, aunque estén a kilómetros de distancia.

Microsoft Mesh es de hecho una plataforma divertida, y el gigante tecnológico con sede en Redmond dice que está funcionando: muchos empleados de Microsoft sienten una sensación de unión mientras pasan el rato allí. Pero al mismo tiempo se siente mal: los avatares parecidos a dibujos animados, aunque lindos y todo, parecen desplazados.

Sin embargo, parece que el gigante tecnológico con sede en Redmond ya podría estar trabajando en una actualización. La compañía publicó recientemente una patente que describe una tecnología capaz de generar avatares virtuales hiperrealistas basados en los rostros de los usuarios.

La tecnología se llama seguimiento y modelado de rostros tridimensionales multimodales para generar avatares expresivos y describe un sistema informático que crea avatares expresivos utilizando el modelado y seguimiento de rostros en 3D.

El sistema informático tiene un procesador y un sistema de almacenamiento propio, que procesa y guarda los datos necesarios para modelar el avatar virtual hiperreal. También contiene instrucciones sobre cómo renderizarlos.

Luego, el procesador recibe datos de inicialización, que son el aspecto inicial de un modelo de rostro, y señales de datos multimodales adicionales, que pueden ser datos de audio (como la voz del usuario), que se utilizarán para crear un modelo hiperrealista de rostro. la cara.

Luego, el sistema toma los datos de inicialización y multimodales y los procesa juntos en un proceso de ajuste. Este proceso ajusta los datos para que se ajusten al modelo. A partir del proceso de adaptación, el sistema determina un conjunto de parámetros que se utilizan para describir el avatar virtual hiperreal.

El sistema utiliza el aprendizaje profundo para crear un avatar virtual detallado que se ve, actúa y es capaz de realizar expresiones faciales similares o idénticas a la cara del usuario. El aprendizaje profundo es una forma de tecnología de inteligencia artificial que busca emular el cerebro humano tanto como sea posible, y Microsoft ha estado invirtiendo en ella durante los últimos años.

Dado que se trata de un sistema informático, el documento menciona la capacidad de integrarlo en una gran cantidad de dispositivos, desde auriculares VR/AR/MR hasta teléfonos móviles, computadoras portátiles, consolas de juegos, tabletas y muchos más, lo que significa que los usuarios podrían tener un dispositivo listo para transportar sus avatares virtuales a un espacio virtual tipo Meta o Mesh.

Microsoft podría intentar implementar este nuevo sistema de avatar virtual hiperreal en plataformas existentes, como Microsoft Teams, Microsoft Mesh o incluso Windows.

Aunque los espacios virtuales ya existen, no son tan populares, por ahora, debido a sus capacidades limitantes, pero un sistema como este puede alentar a más personas a unirse a los espacios virtuales.

La industria del juego también podría beneficiarse de esta tecnología, permitiendo a los usuarios personalizar sus personajes en función de su apariencia, proporcionando también una experiencia de juego altamente personalizada.

El artículo completo se puede leer aquí .

El marco utiliza técnicas de aprendizaje profundo y modelado directo para realizar un proceso de ajuste paramétrico que traduce las señales de datos multimodales en un conjunto de parámetros o código de expresión que se puede utilizar para generar un modelo facial expresivo en 3D.

microsoft

Las técnicas de seguimiento y modelado de rostros en 3D crean vértices en 3D basados en el rostro de un usuario y aplican transformaciones a los vértices desde un rostro neutral para representar expresiones en un modelo de rostro digital (por ejemplo, una representación de avatar del rostro del usuario).

microsoft

Las técnicas de seguimiento y modelado facial 3D multimodal pueden utilizar múltiples dispositivos sensores diferentes, cada uno de los cuales proporciona una o más señales de entrada y/o mediciones para que el rostro de un usuario detecte, modele, rastree y/o anime un modelo facial tridimensional gráficamente como un avatar. .

microsoft

Deja una respuesta Cancelar la respuesta