Microsoft Kosmos-2 : comment l’IA pourrait interagir avec le monde

Microsoft Kosmos-2 : comment l’IA pourrait interagir avec le monde

Microsoft a récemment investi beaucoup d’argent dans le financement de la recherche sur l’IA. Orca 13B est open source pour le public après qu’une équipe de chercheurs réunis et financés par Microsoft l’ait construit.

LongMem est l’espoir de Microsoft pour une longueur de contexte illimitée dans les modèles d’IA. Et c’est aussi un produit de la recherche financée par le géant de la technologie basé à Redmond.

Phi-1 , un nouveau modèle de langage pour le codage, est capable d’apprendre et de développer des connaissances par lui-même. Microsoft a financé la recherche pour cela.

Et il semble que Embodiment AI soit la prochaine quête du développement de l’IA. Mais Microsoft pourrait bien avoir la réponse avec une autre recherche sur l’IA. Cette fois, il s’agit de Kosmos-2 , un nouveau modèle d’IA qui jette les bases de l’IA Embodiment.

Kosmos-2 de Microsoft est le prototype Embodiment AI

C’est peut-être la première fois que vous entendez parler d’Incorporation AI. Eh bien, le nom est assez évocateur en soi. Alors, qu’est-ce que Embodiment AI, pourriez-vous demander?

Embodiment AI est un domaine de l’intelligence artificielle qui se concentre sur le développement d’agents intelligents qui ont un corps physique et peuvent interagir avec le monde de manière significative.

En d’autres termes, si l’IA avait un corps et bougeait, alors elle pourrait en tirer des leçons et répondre et former des réponses, ainsi qu’interagir en conséquence. Et si vous pensez que nous entrons dans le territoire de la science-fiction, tenez bon. L’IA a toujours été censée devenir physique.

Selon la recherche, Kosmos-2 est un modèle de langage qui permet de nouvelles capacités de perception des descriptions d’objets (par exemple, des boîtes englobantes) et d’ancrage du texte dans le monde visuel. Les chercheurs représentés se réfèrent aux expressions sous forme de liens dans Markdown, c’est-à-dire « text span », où les descriptions d’objets sont des séquences de jetons de localisation.

Avec des corpus multimodaux, ils ont construit des données à grande échelle de paires image-texte ancrées (appelées GrIT) pour former le modèle. En plus d’intégrer les capacités existantes des MLLM dans Kosmos-2, le modèle intègre également la capacité de mise à la terre dans les applications.

Que pensez-vous de Microsoft Kosmos 2 ? Serait-il bon que l’IA ait une forme physique ou non ? Faites-nous savoir dans la section commentaires ci-dessous.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *