Microsoft Kosmos-2: AI가 세계와 상호작용하는 방법
마이크로소프트는 최근 AI 연구 자금 조달에 많은 예산을 투입하고 있습니다. Orca 13B는 Microsoft가 자금을 지원하고 모인 연구원 팀이 구축한 후 대중에게 오픈 소스입니다.
LongMem은 AI 모델에서 무제한 컨텍스트 길이에 대한 Microsoft의 희망입니다. 그리고 그것은 또한 레드몬드에 기반을 둔 거대 기술 기업이 자금을 지원한 연구의 산물이기도 합니다.
코딩을 위한 새로운 언어 모델인 Phi-1 은 스스로 지식을 학습하고 개발할 수 있습니다. Microsoft는 이를 위한 연구 자금을 지원했습니다.
그리고 Embodiment AI는 AI 개발의 다음 퀘스트인 것 같습니다. 그러나 Microsoft는 AI에 대한 또 다른 연구를 통해 답을 얻을 수 있습니다. 이번에는 Embodiment AI의 기반이 되는 새로운 AI 모델인 Kosmos-2 에 관한 것입니다.
Microsoft의 Kosmos-2는 Embodiment AI 프로토타입입니다.
Embodiment AI에 대해 처음 듣는 것일 수도 있습니다. 글쎄, 그 이름은 그 자체로 꽤 암시적입니다. 그렇다면 Embodiment AI가 무엇인지 물어보실 수 있습니다.
Embodiment AI는 물리적인 몸을 가지고 의미 있는 방식으로 세상과 상호 작용할 수 있는 지능형 에이전트 개발에 중점을 둔 인공 지능 분야입니다.
즉, AI가 몸을 가지고 움직이면 이것으로부터 배우고 응답하고 답변을 형성하고 그에 따라 상호 작용할 수 있습니다. 그리고 우리가 공상과학의 영역에 진입했다고 생각한다면 입장을 고수하십시오. AI는 항상 물리적이 되어야 했습니다.
연구에 따르면 Kosmos-2는 객체 설명(예: 경계 상자)을 인식하고 텍스트를 시각적 세계에 접지시키는 새로운 기능을 가능하게 하는 언어 모델입니다. 연구자들은 객체 설명이 위치 토큰의 시퀀스인 “텍스트 범위”인 Markdown의 링크로 참조 표현을 표현했습니다.
그들은 다중 모드 말뭉치와 함께 모델을 훈련시키기 위해 접지된 이미지-텍스트 쌍(GrIT라고 함)의 대규모 데이터를 구성했습니다. 이 모델은 Kosmos-2에서 MLLM의 기존 기능을 통합하는 것 외에도 접지 기능을 애플리케이션에 통합합니다.
Microsoft Kosmos 2에 대해 어떻게 생각하십니까? AI에 물리적 형태가 있으면 좋을까요? 아래 의견란에 알려주십시오.
답글 남기기