O que é Gêmeos 1.5? O que você precisa saber
Em uma postagem de blog compartilhada na quinta-feira, o Google anunciou o lançamento do Gemini 1.5, seu modelo de IA de próxima geração que promete melhorias significativas em desempenho e eficiência. Entre as melhorias está a capacidade de processar e compreender grandes quantidades de informações, até 1 milhão de tokens por vez.
O que é Gêmeos 1.5?
Com base no sucesso do Gemini 1.0, a iteração mais recente utiliza uma nova arquitetura Mixture-of-Experts (MoE) que divide o modelo de IA em redes especializadas menores. O Google afirma que isso permite processamento e treinamento mais eficientes, mantendo o alto desempenho. Por causa disso, o Gemini 1.5 será capaz de lidar com entradas multimodais, incluindo texto, imagens, áudio e vídeo, com melhor precisão e compreensão.
Um dos recursos notáveis do novo modelo é a janela de contexto estendida. Enquanto o modelo anterior só conseguia lidar com até 32.000 tokens, o Gemini 1.5 pode processar até 1 milhão de tokens. Isso permite processar, analisar e raciocinar sobre um volume maior de texto, código, vídeo e áudio, mesmo que sejam adicionados em um único prompt.
A janela de contexto estendida desbloqueia novas funcionalidades:
- Compreensão multimodal : o modelo pode processar diferentes tipos de mídia, como analisar o enredo de um filme mudo baseado apenas em recursos visuais.
- Solução de problemas relevantes : Quando apresentado com grandes bases de código, o Gemini 1.5 pode sugerir modificações e explicar como as diferentes partes interagem.
O Google também revelou que o Gemini 1.5 supera o Gemini 1.0 Pro em 87% das tarefas e se iguala ao desempenho do Gemini 1.0 Ultra, mesmo com sua janela de contexto maior.
Acesso e disponibilidade
O Google está oferecendo uma prévia limitada do Gemini 1.5 Pro para desenvolvedores e clientes corporativos com uma janela de contexto de 128.000 tokens. Os usuários elegíveis também podem testar a janela de 1 milhão de tokens sem nenhum custo, mas com maior latência. A empresa também planeja introduzir níveis de preços com base no tamanho da janela de contexto no futuro.
Demonstração do Gemini 1.5 Pro do Google
Aqui está um vídeo que o Google compartilhou no YouTube que mostra sua longa capacidade de compreensão de contexto por meio de uma interação ao vivo usando uma transcrição em PDF de 402 páginas e prompts multimodais. A demonstração envolve um registro contínuo das respostas do modelo, com tempos de resposta indicados. A contagem total de tokens para o PDF de entrada (326.658 tokens) e imagem (256 tokens) é 326.914, enquanto as entradas de texto aumentam o total para 327.309 tokens.
Deixe um comentário