Cos’è Gemini 1.5? Cosa hai bisogno di sapere
In un post sul blog condiviso giovedì, Google ha annunciato il rilascio di Gemini 1.5, il suo modello di intelligenza artificiale di prossima generazione che promette miglioramenti significativi in termini di prestazioni ed efficienza. Tra i miglioramenti c’è la capacità di elaborare e comprendere grandi quantità di informazioni, fino a 1 milione di token alla volta.
Cos’è Gemini 1.5?
Basandosi sul successo di Gemini 1.0, l’ultima iterazione utilizza una nuova architettura Mixture-of-Experts (MoE) che divide il modello AI in reti specializzate più piccole. Google afferma che ciò consente un’elaborazione e una formazione più efficienti mantenendo prestazioni elevate. Per questo motivo, Gemini 1.5 sarà in grado di gestire input multimodali, inclusi testo, immagini, audio e video, con migliore precisione e comprensione.
Una delle caratteristiche degne di nota del nuovo modello è la finestra di contesto estesa. Mentre il modello precedente poteva gestire solo fino a 32.000 token, Gemini 1.5 può elaborare fino a 1 milione di token. Ciò gli consente di elaborare, analizzare e ragionare su un volume più ampio di testo, codice, video e audio, anche se aggiunti in un unico prompt.
La finestra di contesto estesa sblocca nuove funzionalità:
- Comprensione multimodale : il modello può elaborare diversi tipi di media, come analizzare la trama di un film muto basandosi solo sulle immagini.
- Risoluzione di problemi rilevanti : quando presentato con basi di codice di grandi dimensioni, Gemini 1.5 può suggerire modifiche e spiegare come interagiscono le diverse parti.
Google ha anche rivelato che Gemini 1.5 supera Gemini 1.0 Pro nell’87% delle attività e corrisponde alle prestazioni di Gemini 1.0 Ultra, anche con la sua finestra di contesto più ampia.
Accesso e disponibilità
Google offre un’anteprima limitata di Gemini 1.5 Pro a sviluppatori e clienti aziendali con una finestra di contesto di 128.000 token. Gli utenti idonei possono anche testare la finestra da 1 milione di token gratuitamente ma con una latenza più lunga. La società prevede inoltre di introdurre in futuro livelli di prezzo basati sulle dimensioni della finestra di contesto.
Demo di Gemini 1.5 Pro di Google
Ecco un video che Google ha condiviso su YouTube che mostra la sua capacità di comprendere il contesto lungo attraverso un’interazione dal vivo utilizzando una trascrizione PDF di 402 pagine e istruzioni multimodali. La dimostrazione prevede una registrazione continua delle risposte del modello, con indicati i tempi di risposta. Il conteggio totale dei token per il PDF di input (326.658 token) e l’immagine (256 token) è 326.914, mentre gli input di testo aumentano il totale a 327.309 token.
Lascia un commento