¿Qué es Géminis 1.5? Lo que necesitas saber
En una publicación de blog compartida el jueves, Google anunció el lanzamiento de Gemini 1.5, su modelo de inteligencia artificial de próxima generación que promete mejoras significativas en rendimiento y eficiencia. Entre las mejoras se encuentra la capacidad de procesar y comprender grandes cantidades de información, hasta 1 millón de tokens a la vez.
¿Qué es Géminis 1.5?
Aprovechando el éxito de Gemini 1.0, la última versión utiliza una nueva arquitectura de Mezcla de Expertos (MoE) que divide el modelo de IA en redes especializadas más pequeñas. Google dice que esto permite un procesamiento y una capacitación más eficientes manteniendo un alto rendimiento. Debido a esto, Gemini 1.5 podrá manejar entradas multimodales, incluidos texto, imágenes, audio y video, con mayor precisión y comprensión.
Una de las características notables del nuevo modelo es la ventana de contexto ampliada. Mientras que el modelo anterior sólo podía manejar hasta 32.000 tokens, Gemini 1.5 puede procesar hasta 1 millón de tokens. Esto le permite procesar, analizar y razonar sobre un mayor volumen de texto, código, video y audio, incluso si se agregan en un solo mensaje.
La ventana de contexto ampliada desbloquea nuevas funcionalidades:
- Comprensión multimodal : el modelo puede procesar diferentes tipos de medios, como analizar la trama de una película muda basándose únicamente en imágenes.
- Resolución de problemas relevantes : cuando se presenta con grandes bases de código, Gemini 1.5 puede sugerir modificaciones y explicar cómo interactúan las diferentes partes.
Google también ha revelado que Gemini 1.5 supera a Gemini 1.0 Pro en el 87% de las tareas y iguala el rendimiento de Gemini 1.0 Ultra, incluso con su ventana de contexto más grande.
Acceso y disponibilidad
Google ofrece una vista previa limitada de Gemini 1.5 Pro a desarrolladores y clientes empresariales con una ventana contextual de 128.000 tokens. Los usuarios elegibles también pueden probar la ventana de 1 millón de tokens sin costo pero con una latencia más larga. La compañía también planea introducir niveles de precios basados en el tamaño de la ventana de contexto en el futuro.
Demostración de Gemini 1.5 Pro de Google
Aquí hay un video que Google compartió en YouTube que muestra su capacidad de comprensión de contexto extenso a través de una interacción en vivo utilizando una transcripción en PDF de 402 páginas e indicaciones multimodales. La demostración implica un registro continuo de las respuestas del modelo, con tiempos de respuesta indicados. El recuento total de tokens para el PDF de entrada (326.658 tokens) y la imagen (256 tokens) es 326.914, mientras que las entradas de texto aumentan el total a 327.309 tokens.
Deja una respuesta