Microsoft Kosmos-2: cómo la IA podría interactuar con el mundo
Microsoft ha estado invirtiendo mucho presupuesto en financiar la investigación de IA últimamente. Orca 13B es de código abierto para el público después de que un equipo de investigadores reunido y financiado por Microsoft lo construyera.
LongMem es la esperanza de Microsoft de una longitud de contexto ilimitada en los modelos de IA. Y también es producto de una investigación financiada por el gigante tecnológico con sede en Redmond.
Phi-1 , un nuevo modelo de lenguaje para la codificación, es capaz de aprender y desarrollar conocimientos por sí mismo. Microsoft financió la investigación para ello.
Y parece que Embodiment AI es la próxima misión en el desarrollo de IA. Pero Microsoft podría tener la respuesta con otra investigación sobre IA. Esta vez se trata de Kosmos-2 , un nuevo modelo de IA que sienta las bases para Embodiment AI.
Kosmos-2 de Microsoft es el prototipo de IA de Embodiment
Tal vez esta sea la primera vez que escuchas sobre Embodiment AI. Bueno, el nombre es bastante sugerente en sí mismo. Entonces, ¿qué es Embodiment AI?, podrías preguntarte.
La IA de incorporación es un campo de la inteligencia artificial que se centra en el desarrollo de agentes inteligentes que tienen un cuerpo físico y pueden interactuar con el mundo de manera significativa.
En otras palabras, si la IA tuviera un cuerpo y se moviera, entonces podría aprender de esto y responder y formar respuestas, así como también interactuar en consecuencia. Y si crees que entramos en territorio de ciencia ficción, mantente firme. Siempre se suponía que la IA se volvería física.
Según la investigación, Kosmos-2 es un modelo de lenguaje que permite nuevas capacidades para percibir descripciones de objetos (p. ej., cuadros delimitadores) y conectar el texto al mundo visual. Los investigadores representaron las expresiones de referencia como enlaces en Markdown, es decir, «intervalo de texto», donde las descripciones de los objetos son secuencias de tokens de ubicación.
Junto con corpus multimodales, construyeron datos a gran escala de pares de imagen y texto conectados a tierra (llamados GrIT) para entrenar el modelo. Además de integrar las capacidades existentes de MLLM en Kosmos-2, el modelo también integra la capacidad de conexión a tierra en las aplicaciones.
¿Qué opinas sobre Microsoft Kosmos 2? ¿Sería bueno si la IA tiene una forma física o no? Háganos saber en la sección de comentarios.
Deja una respuesta