Microsoft Kosmos-2: Wie KI mit der Welt interagieren könnte

Microsoft Kosmos-2: Wie KI mit der Welt interagieren könnte

Microsoft hat in letzter Zeit viel Budget in die Finanzierung der KI-Forschung gesteckt. Orca 13B ist Open Source für die Öffentlichkeit, nachdem es von einem von Microsoft zusammengestellten und finanzierten Forscherteam gebaut wurde.

LongMem ist Microsofts Hoffnung auf unbegrenzte Kontextlänge in KI-Modellen. Und es ist auch ein Forschungsprodukt, das vom in Redmond ansässigen Technologieriesen finanziert wird.

Phi-1 , ein neues Sprachmodell für die Codierung, ist in der Lage, selbstständig Wissen zu erlernen und zu entwickeln. Microsoft hat die Forschung dafür finanziert.

Und es scheint, dass Embodiment AI das nächste Ziel in der KI-Entwicklung ist. Aber Microsoft könnte die Antwort mit einer weiteren Forschung zu KI finden. Diesmal geht es um Kosmos-2 , ein neues KI-Modell, das den Grundstein für Embodiment AI legt.

Microsofts Kosmos-2 ist der Embodiment AI-Prototyp

Vielleicht hören Sie zum ersten Mal von Embodiment AI. Nun, der Name ist an sich schon ziemlich suggestiv. Was ist also Embodiment AI, fragen Sie sich vielleicht?

Embodiment AI ist ein Bereich der künstlichen Intelligenz, der sich auf die Entwicklung intelligenter Agenten konzentriert, die einen physischen Körper haben und auf sinnvolle Weise mit der Welt interagieren können.

Mit anderen Worten: Wenn KI einen Körper hätte und sich bewegen würde, dann könnte sie daraus lernen und reagieren und Antworten bilden sowie entsprechend interagieren. Und wenn Sie glauben, dass wir Science-Fiction-Territorium betreten, bleiben Sie standhaft. KI sollte immer physisch werden.

Laut der Studie handelt es sich bei Kosmos-2 um ein Sprachmodell, das neue Möglichkeiten zur Wahrnehmung von Objektbeschreibungen (z. B. Begrenzungsrahmen) und zur Verankerung von Text in der visuellen Welt ermöglicht. Die Forscher stellten Referenzausdrücke als Links in Markdown dar, also als „Textspanne“, wobei Objektbeschreibungen Sequenzen von Standort-Tokens sind.

Zusammen mit multimodalen Korpora konstruierten sie umfangreiche Daten aus geerdeten Bild-Text-Paaren (GrIT genannt), um das Modell zu trainieren. Neben der Integration der vorhandenen Fähigkeiten von MLLMs in Kosmos-2 integriert das Modell auch die Erdungsfähigkeit in Anwendungen.

Was denken Sie über Microsoft Kosmos 2? Wäre es gut, wenn KI eine physische Form hätte oder nicht? Lassen Sie es uns im Kommentarbereich unten wissen.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert