Microsoft Kosmos-2: AI はどのように世界と対話できるのか

Microsoft Kosmos-2: AI はどのように世界と対話できるのか

Microsoftは最近、AI研究への資金提供に多額の予算をつぎ込んでいる。Orca 13B は、 Microsoft から資金提供を受けて集められた研究者チームが構築した後、オープンソースとして一般に公開されています。

LongMem は、 AI モデルのコンテキストの長さを無制限にするという Microsoft の希望です。そして、これはレドモンドに本拠を置くテクノロジー大手企業が資金提供した研究の成果でもある。

Phi-1はコーディング用の新しい言語モデルであり、それ自体で知識を学習し発展させることができます。マイクロソフトはその研究に資金を提供しました。

そして、Embedded AI が AI 開発の次の課題であるようです。しかし、Microsoft は AI に関する別の研究で答えを見つけるかもしれません。今回は、Evolution AI の基礎を築く新しい AI モデルであるKosmos-2についてです。

Microsoft の Kosmos-2 は、Enbody AI プロトタイプです

もしかしたら、Embedded AI について初めて聞いたかもしれません。まあ、名前自体はかなり示唆的です。では、具体化 AI とは何でしょうか?

身体化 AI は、肉体を持ち、有意義な方法で世界と対話できる知的エージェントの開発に焦点を当てた人工知能の分野です。

つまり、AI が体を持って動くとしたら、そこから学習して応答し、答えを導き出し、それに応じて対話することができるのです。そして、私たちが SF の領域に入ってしまったと思われるのであれば、その立場を堅持してください。AIは常に物理的なものになると考えられていました。

研究によると、Kosmos-2 は、オブジェクトの説明 (境界ボックスなど) を認識し、テキストを視覚的な世界に定着させる新しい機能を可能にする言語モデルです。研究者らは、参照式をマークダウンのリンク、つまり「テキスト スパン」として表し、オブジェクトの説明は一連の位置トークンです。

彼らは、マルチモーダル コーパスと連携して、モデルをトレーニングするために、根拠のある画像とテキストのペア (GrIT と呼ばれる) の大規模データを構築しました。このモデルは、Kosmos-2 の MLLM の既存の機能を統合するだけでなく、接地機能もアプリケーションに統合します。

Microsoft Kosmos 2 についてどう思われますか? AIは物理的な形を持っていれば良いのでしょうか?以下のコメントセクションでお知らせください。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です