El concepto revolucionario de los agentes de inteligencia artificial de Microsoft para Windows 11 podría transformar su experiencia con la PC

El concepto revolucionario de los agentes de inteligencia artificial de Microsoft para Windows 11 podría transformar su experiencia con la PC

Imagínese si su computadora con Windows 11 pudiera realizar tareas como lo hace un humano. Microsoft está explorando precisamente eso con un concepto revolucionario. WindowsLatest.com habló recientemente con un investigador de Microsoft AI para profundizar en los detalles de “Windows Agent Arena”.

Es posible que hayas visto el término “Agentes de IA” en los titulares recientes, especialmente en relación con el Agente de IA de Claude . Sin embargo, Microsoft ha estado desarrollando la idea del “Agente de IA” durante varios meses e incluso ha publicado un artículo de investigación . El proyecto “Windows Agent Arena” se lanzó como código abierto en septiembre .

Si sigues de cerca los avances de Microsoft, sabrás que están a la vanguardia de la carrera de la IA. Su división de IA está en plena marcha, creando herramientas que permiten a los desarrolladores e investigadores independientes trabajar con varios modelos de lenguaje.

Microsoft AI ha presentado Windows Agent Arena, un entorno totalmente de código abierto que ayuda a los investigadores y desarrolladores a crear y probar sus agentes de IA. Está diseñado para proporcionar todas las herramientas necesarias para desarrollar y evaluar agentes de IA para Windows 11. Pero, ¿qué implica tener un agente de IA en una PC?

Para comprender su utilidad, exploremos algunos ejemplos prácticos de agentes de IA.

Cada mañana, en lugar de iniciar individualmente cada una de sus aplicaciones de correo electrónico, calendario y sitio web de noticias preferido, podría simplemente ordenar: «Iniciar mi configuración matutina». El agente de IA abriría todas esas aplicaciones por usted de una sola vez.

Otra función de un agente de inteligencia artificial de Windows 11 podría ser modificar la configuración de su PC según sus instrucciones verbales. Si le preocupa la privacidad en línea y desea activar la función «No rastrear» en Microsoft Edge, el agente de inteligencia artificial puede encargarse de eso por usted.

He aquí una visión más detallada de cómo funcionaría esto:

  • El agente de inteligencia artificial interpretará su solicitud y comprenderá que desea habilitar la función “No rastrear” en Edge.
  • Siguiendo tu comando se iniciará Microsoft Edge.
  • El agente navegaría por el menú principal haciendo clic en los tres puntos, una tarea que realiza de forma autónoma sin intervención humana.
  • A continuación, seleccionaría “Configuración” de las opciones desplegables.
  • En la página de Configuración, encontrará la sección “Privacidad, búsqueda y servicios” y desplácese hasta encontrar el interruptor para “No rastrear”.

¡Luego, el agente habilitará automáticamente la opción “No rastrear” ante tus ojos!

Método de cadena de IA del agente de Windows
Ilustración del funcionamiento del agente de IA

Microsoft ha compartido ejemplos adicionales en su blog de Ciencias Aplicadas, como:

Ejemplo 1: Agente de IA que habilita la función No rastrear en Microsoft Edge

Ejemplo 2: Agente de IA que instala la extensión Pylance en VSCode .

Ejemplo 3: Agente de IA que modifica la configuración de su motor de búsqueda

Ejemplo 4: AI Agent cambia la configuración de VLC para ajustar la carpeta de almacenamiento de grabaciones

Ejemplo 5: Un agente de IA abre Paint y crea un dibujo para usted

Ejemplo 6: Agente de IA que cambia el nombre de su perfil de Edge

Increíble, ¿verdad?

El proyecto Windows Agent Arena marca una evolución emocionante, y estos casos son solo la punta del iceberg de lo que puede suceder, especialmente en un sistema operativo como Windows 11.

El objetivo de Windows Agent Arena es establecer un marco de apoyo de código abierto que permita a los desarrolladores e investigadores crear y evaluar sus propios agentes de IA adaptados a Windows 11.

¿Qué implica exactamente Windows Agent Arena?

“Los asistentes de inteligencia artificial como Copilot y ChatGPT han demostrado ser inmensamente beneficiosos para innumerables usuarios. Estas herramientas utilizan modelos de lenguaje sofisticados para ayudar con una variedad de tareas, desde corregir códigos hasta sugerir recetas para la cena. A medida que estos modelos se vuelven más avanzados, estamos especulando sobre las posibilidades futuras de los asistentes de inteligencia artificial”, explicó Francesco Bonacci, un investigador de inteligencia artificial de Microsoft que participa en el proyecto.

“Presentamos Windows Agent Arena, un marco dedicado a probar y desarrollar agentes de IA capaces de ejecutar tareas en un entorno Windows. Imagine a estos agentes como asistentes inteligentes que pueden ver su pantalla, comprenderla y luego interactuar con su PC haciendo clic, escribiendo o iniciando aplicaciones para ayudarlo con las tareas, de manera muy similar a como lo haría manualmente”.

Para quienes no lo sepan, Microsoft AI es una nueva división de Microsoft que trabaja en Copilot, Edge y otras innovaciones de IA. ¿Recuerdan el innovador modelo de lenguaje pequeño Phi-3 ? También se originó en Microsoft AI. La división está dirigida por el ex ejecutivo de Google DeepMind Mustafa Suleyman , quien actualmente se desempeña como director ejecutivo de Microsoft AI.

Windows Agent Arena (WAA) se está desarrollando para ayudar a los desarrolladores e investigadores a crear, probar y evaluar agentes de IA especializados para Windows 11.

El concepto fundamental es fomentar una amplia participación en la creación de agentes de IA para Windows 11, lo que permite la automatización de varias tareas. El marco es totalmente de código abierto y adaptable, lo que permite a los desarrolladores utilizar recursos locales o la infraestructura en la nube de Azure Machine Learning de Microsoft para probar y ejecutar varios agentes simultáneamente.

Arena del agente de Windows
Utilización de Azure para el desarrollo de múltiples agentes fuera de un entorno local

Con su integración en Azure, WAA brinda acceso a una experiencia realista de Windows 11, lo que permite a los desarrolladores ver cómo funcionarían los agentes de IA en una configuración genuina de Windows en lugar de una simulación limitada.

Esto puede parecer un poco técnico para un usuario cotidiano, pero simplifiquemos cómo se construyen los agentes de IA:

  • Los desarrolladores tienen acceso a Windows Agent Arena, una plataforma dedicada a codificar, probar y evaluar comparativamente agentes de IA en Windows 11.
  • Microsoft ha creado una plantilla predeterminada de “Agente de IA”, que proporciona una base para los desarrolladores.
  • Con estas plantillas, los desarrolladores pueden comenzar a crear agentes de IA únicos diseñados para resolver problemas comunes de los usuarios en Windows 11.
  • Por ejemplo, si tiene numerosas fotos distribuidas en su escritorio y en varias carpetas, un agente de IA podría ayudarlo a renombrar, comprimir y modificar automáticamente las extensiones de archivo. Esto ilustra cómo los agentes de IA pueden resolver tareas del mundo real en Windows 11.
  • Además de crear agentes de IA, los desarrolladores pueden evaluar su rendimiento y seguridad. Si bien los agentes de IA funcionan localmente en Windows 11, Microsoft ha incorporado herramientas de evaluación comparativa en WAA para abordar problemas de rendimiento.
  • Para comenzar, los desarrolladores configurarán Docker usando WSL 2, una clave API de OpenAI o AzureOpen, Python 3.9, clonarán el repositorio WAA, instalarán dependencias y utilizarán la ISO de evaluación de Windows Enterprise.
  • Los desarrolladores pueden ejecutar sus agentes de IA localmente o aprovechar las soluciones en la nube de Azure para realizar pruebas.

Según Francesco Bonacci de Microsoft, este marco brinda a los investigadores las herramientas para refinar sus modelos de IA, mejorando su capacidad para comprender e interactuar con un entorno de escritorio estándar.

¿Qué tan robusto es Windows Agent Arena?

El artículo de investigación “ Windows Agent Arena: Evaluación de agentes de SO multimodales a escala ”, escrito por un equipo que incluye a Rogerio Bonatti , Dan Zhao , Francesco Bonacci , Dillon Dupont , Sara Abdali , Yinheng Li , Yadong Lu , Justin Wagle , Kazuhito Koishida , Arthur Bucker , Lawrence Jang y Zack Hui , indica que el modelo WAA inicial puede ejecutar con éxito hasta 150 tareas diferentes en Windows 11.

Agentes de IA de Windows 11: 150 tareas

¿Qué tipos de tareas podrían ser? Si bien los detalles pueden variar, abarcan la mayoría de las funciones que normalmente realizas en tu computadora.

“Por ejemplo”, añadió Francesco Bonacci, “se puede indicar a la IA que instale extensiones del navegador, ajuste la configuración o incluso cree dibujos sencillos en Paint. La IA aprovecha los modelos avanzados de lenguaje y visión para comprender la información textual y visual en la pantalla, lo que le permite determinar las acciones adecuadas. Windows Agent Arena ofrece un espacio para evaluar la eficacia de estos agentes de IA en una variedad de tareas, desde la navegación hasta la edición de documentos, todo ello dentro de un auténtico sistema operativo Windows”.

Las tareas pueden incluir modificar configuraciones en Microsoft Edge o Chrome, por ejemplo, pedirle a un agente de IA que habilite el modo de privacidad, borre las cookies o cambie el motor de búsqueda predeterminado.

Puede aprovechar un agente de IA para aplicaciones como LibreOffice Writer o Calc para editar diversos documentos y hojas de cálculo. Para los desarrolladores, un agente de IA podría ayudar a instalar extensiones o modificar código mientras observa su funcionamiento.

Estas son solo algunas ideas; las posibles aplicaciones son enormes. Los agentes de IA podrían interactuar con una variedad de aplicaciones en Windows 11, incluido el Bloc de notas, Paint o Clock. Otros ejemplos incluyen:

  • Guarda un dibujo en Paint como “circle.png” en tu carpeta de Descargas
  • Cambiar el fondo del escritorio a un color sólido
  • Desactivar notificaciones del sistema
  • Habilite la luz nocturna y configúrela para que funcione desde las 7 p. m. hasta el amanecer.
  • Exportar el documento actual como PDF
  • Formatee los dos primeros párrafos para que tengan espacio doble.
  • Añade una línea vacía después de cada oración
  • Alinear el encabezado al centro en LibreOffice
  • Convertir el número 2 en texto a formato de subíndice
  • Establecer Times New Roman como fuente predeterminada
  • Cambie el nombre de la hoja 1 a “LARSScienceAssessment” en su hoja de cálculo
  • Ordenar una lista de empleados según sus cumpleaños
  • Complete los números de secuencia como “No. #” en la columna “Seq No.”
  • Habilite la configuración «No rastrear» en Edge para una mayor privacidad en línea
  • Establezca el tamaño de fuente predeterminado en la opción más grande
  • Guardar la página web actual que estás viendo

Pero, ¿qué tan potente es Windows Agent Arena para los desarrolladores? Cabe destacar que los desarrolladores pueden optar por confiar en la potencia informática local o ampliar sus capacidades mediante Azure Machine Learning (Azure ML). Esta flexibilidad significa que pueden probar múltiples agentes de IA en la nube en lugar de estar limitados a las limitaciones de rendimiento de una sola PC.

Agente Arena y Azure

El artículo de investigación también presentó el agente de inteligencia artificial de Microsoft, llamado Navi, que ha logrado una tasa de éxito del 19,5 % en la finalización de tareas. Aunque esta tasa está por debajo de la tasa humana del 74,5 %, representa un avance significativo para las capacidades de la inteligencia artificial.

Microsoft explicó que Navi emplea “indicaciones en cadena de pensamientos”, un método para abordar sistemáticamente las tareas y determinar cómo ejecutarlas dentro de Windows 11.

Navi evalúa lo que se debe hacer, qué acciones está realizando y qué debe ejecutar a continuación analizando su pantalla y comprendiendo elementos como la posición del cursor, completando así la tarea.

Para respaldar aún más la creación de agentes de IA personalizados, Microsoft también ha publicado en código abierto “ Omniparser ”, un sofisticado modelo de comprensión de pantalla.

¿Qué les espera a los agentes de IA en Windows 11?

Windows Agent Arena es más que un simple concepto; no me sorprendería ver a Microsoft presentando sus propias versiones de Agentes de IA para Windows 11.

Actualmente, sigue siendo un proyecto de código abierto aún en progreso con una tasa de éxito modesta, y el cronograma para los agentes de IA en Windows 11 es incierto, pero su llegada parece inevitable.

Los agentes de IA pronto podrán aprender sus rutinas diarias, proponer flujos de trabajo más eficientes o automatizar procesos sin requerir comandos explícitos.

Dicho esto, los agentes de IA enfrentan desafíos, especialmente a la hora de interpretar con precisión la información en pantalla y gestionar los movimientos del mouse para tareas como dibujar en Paint.

Fuente

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *