Microsoft Kosmos-2: como a IA pode interagir com o mundo

Microsoft Kosmos-2: como a IA pode interagir com o mundo

A Microsoft tem colocado muito orçamento para financiar pesquisas de IA ultimamente. O Orca 13B é de código aberto para o público depois que uma equipe de pesquisadores reunida e financiada pela Microsoft o construiu.

LongMem é ​​a esperança da Microsoft para comprimento de contexto ilimitado em modelos de IA. E também é um produto de pesquisa financiada pela gigante da tecnologia de Redmond.

Phi-1 , um novo modelo de linguagem para codificação, é capaz de aprender e desenvolver conhecimento por conta própria. A Microsoft financiou a pesquisa para isso.

E parece que a Embodiment AI é a próxima missão no desenvolvimento de IA. Mas a Microsoft pode ter a resposta com outra pesquisa sobre IA. Desta vez, é sobre o Kosmos-2 , um novo modelo de IA que estabelece as bases para a Embodiment AI.

O Kosmos-2 da Microsoft é o protótipo da Embodiment AI

Talvez esta seja a primeira vez que você ouve sobre o Embodiment AI. Bem, o nome é bastante sugestivo por si só. Então, o que é Embodiment AI, você pode perguntar?

A Embodiment AI é um campo da inteligência artificial que se concentra no desenvolvimento de agentes inteligentes que possuem um corpo físico e podem interagir com o mundo de maneira significativa.

Em outras palavras, se a IA tivesse um corpo e se movesse, poderia aprender com isso e responder e formar respostas, bem como interagir de acordo. E se você acha que entramos no território da ficção científica, mantenha-se firme. A IA sempre deveria se tornar física.

De acordo com a pesquisa, o Kosmos-2 é um modelo de linguagem que permite novas capacidades de percepção de descrições de objetos (por exemplo, caixas delimitadoras) e texto de base para o mundo visual. Os pesquisadores representados referem-se a expressões como links em Markdown, ou seja, “extensão de texto”, onde as descrições de objetos são sequências de tokens de localização.

Juntamente com corpora multimodais, eles construíram dados em larga escala de pares imagem-texto fundamentados (chamados GrIT) para treinar o modelo. Além de integrar as capacidades existentes de MLLMs no Kosmos-2, o modelo também integra a capacidade de aterramento em aplicações.

O que você acha do Microsoft Kosmos 2? Seria bom se a IA tivesse uma forma física ou não? Deixe-nos saber na seção de comentários abaixo.

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *