Qu’est-ce que Gémeaux 1.5 ? Que souhaitez-vous savoir
Dans un article de blog partagé jeudi, Google a annoncé la sortie de Gemini 1.5, son modèle d’IA de nouvelle génération qui promet des améliorations significatives en termes de performances et d’efficacité. Parmi les améliorations figurent la capacité de traiter et de comprendre de grandes quantités d’informations, jusqu’à 1 million de jetons à la fois.
Qu’est-ce que Gémeaux 1.5 ?
S’appuyant sur le succès de Gemini 1.0, la dernière itération utilise une nouvelle architecture Mixture-of-Experts (MoE) qui divise le modèle d’IA en réseaux spécialisés plus petits. Google affirme que cela permet un traitement et une formation plus efficaces tout en maintenant des performances élevées. Pour cette raison, Gemini 1.5 sera capable de gérer les entrées multimodales, notamment le texte, les images, l’audio et la vidéo, avec une meilleure précision et compréhension.
L’une des caractéristiques notables du nouveau modèle est la fenêtre contextuelle étendue. Alors que le modèle précédent ne pouvait gérer que 32 000 jetons, Gemini 1.5 peut traiter jusqu’à 1 million de jetons. Cela lui permet de traiter, d’analyser et de raisonner sur un plus grand volume de texte, de code, de vidéo et d’audio, même s’ils sont ajoutés dans une seule invite.
La fenêtre contextuelle étendue débloque de nouvelles fonctionnalités :
- Compréhension multimodale : le modèle peut traiter différents types de médias, comme l’analyse de l’intrigue d’un film muet basée uniquement sur les visuels.
- Résolution de problèmes pertinente : lorsqu’il est présenté avec des bases de code volumineuses, Gemini 1.5 peut suggérer des modifications et expliquer comment les différentes parties interagissent.
Google a également révélé que Gemini 1.5 surpasse Gemini 1.0 Pro sur 87 % des tâches et correspond aux performances de Gemini 1.0 Ultra, même avec sa fenêtre contextuelle plus grande.
Accès et disponibilité
Google propose un aperçu limité de Gemini 1.5 Pro aux développeurs et aux entreprises clientes avec une fenêtre contextuelle de 128 000 jetons. Les utilisateurs éligibles peuvent également tester gratuitement la fenêtre d’un million de jetons, mais avec une latence plus longue. La société prévoit également d’introduire à l’avenir des niveaux de tarification basés sur la taille de la fenêtre contextuelle.
Démo Gemini 1.5 Pro par Google
Voici une vidéo partagée par Google sur YouTube qui présente sa capacité de compréhension du contexte à long terme grâce à une interaction en direct utilisant une transcription PDF de 402 pages et des invites multimodales. La démonstration implique un enregistrement continu des réponses du modèle, avec des temps de réponse indiqués. Le nombre total de jetons pour le PDF d’entrée (326 658 jetons) et l’image (256 jetons) est de 326 914, tandis que les entrées de texte augmentent le total à 327 309 jetons.
Laisser un commentaire