Microsoft Kosmos-2: come l’IA potrebbe interagire con il mondo
Microsoft ha stanziato molto budget per finanziare la ricerca sull’IA ultimamente. Orca 13B è open source al pubblico dopo che un team di ricercatori riunito e finanziato da Microsoft lo ha costruito.
LongMem è la speranza di Microsoft per una lunghezza illimitata del contesto nei modelli di intelligenza artificiale. Ed è anche un prodotto della ricerca finanziata dal colosso tecnologico di Redmond.
Phi-1 , un nuovo modello linguistico per la codifica, è in grado di apprendere e sviluppare la conoscenza da solo. Microsoft ha finanziato la ricerca per questo.
E sembra che Embodiment AI sia la prossima ricerca nello sviluppo dell’IA. Ma Microsoft potrebbe avere la risposta con un’altra ricerca sull’intelligenza artificiale. Questa volta si tratta di Kosmos-2 , un nuovo modello di intelligenza artificiale che getta le basi per Embodiment AI.
Kosmos-2 di Microsoft è il prototipo di Embodiment AI
Forse questa è la prima volta che senti parlare di Embodiment AI. Ebbene, il nome è di per sé piuttosto suggestivo. Quindi cos’è l’Incarnazione AI, potresti chiedere?
Incarnazione AI è un campo dell’intelligenza artificiale che si concentra sullo sviluppo di agenti intelligenti che hanno un corpo fisico e possono interagire con il mondo in modo significativo.
In altre parole, se l’IA avesse un corpo e si muovesse, allora potrebbe imparare da questo e rispondere e formare risposte, oltre che interagire di conseguenza. E se pensi che entriamo nel territorio della fantascienza, mantieni la posizione. L’intelligenza artificiale doveva sempre diventare fisica.
Secondo la ricerca, Kosmos-2 è un modello linguistico che consente nuove capacità di percepire descrizioni di oggetti (ad esempio, riquadri di delimitazione) e di radicare il testo nel mondo visivo. I ricercatori hanno rappresentato le espressioni di riferimento come collegamenti in Markdown, ovvero “estensione di testo”, in cui le descrizioni degli oggetti sono sequenze di token di posizione.
Insieme ai corpora multimodali, hanno costruito dati su larga scala di coppie immagine-testo (chiamate GrIT) per addestrare il modello. Oltre a integrare le funzionalità esistenti dei MLLM in Kosmos-2, il modello integra anche la capacità di messa a terra nelle applicazioni.
Cosa ne pensi di Microsoft Kosmos 2? Sarebbe bello se l’IA avesse una forma fisica o no? Fateci sapere nella sezione commenti qui sotto.
Lascia un commento