Análise do Gemini Live: um assistente aprimorado prejudicado por seu modelo de IA
O que saber
- Gemini Live é um impressionante recurso de modo de voz de assistente digital com 10 vozes diferentes, respostas rápidas de conversação e transcrições de bate-papo.
- Infelizmente, suas respostas são bloqueadas pelo modelo de IA subjacente. O discurso do Gemini Live também pode ser um pouco formal demais, e suas respostas parecem truncadas.
- Confiar no Gemini Live é tolice. O pior é pagar US$ 20 por ele.
Disponível por meio de uma assinatura Gemini Advanced, o Gemini Live tem sido o recurso mais comentado desde que foi revelado no evento Made by Google 2024, relegando até mesmo o lançamento do Pixel 9 a uma mera nota de rodapé. Mas as primeiras análises, embora inicialmente impressionantes, não são a seu favor.
Então, como a maioria dos críticos de tecnologia, decidi dar uma volta no Gemini Live e ver do que se tratava. Para ser breve, não vou contar tudo o que falei (quem tem tempo?). Mas você vai entender a ideia geral.
Gemini Live – Um assistente digital avançado prejudicado por seu modelo de IA
Agora, o Gemini Live não é gratuito, nem eu tenho um Pixel 9 que vem com uma assinatura Gemini Advanced de um ano de graça. Então, eu fiz um teste gratuito e o Gemini Live ficou disponível para mim imediatamente, o que é legal.
Mas a taxa de assinatura de US$ 20 do Gemini Live vale a pena? Vamos descobrir.
O que há de bom no Gemini Live?
O Gemini Live vem em 10 vozes, e você pode escolher a sua facilmente nas configurações do Gemini. Mas observe que o Google exige que você defina o inglês (Estados Unidos) como padrão para poder fazer isso, o que é um requisito irracional. Quer dizer, há uma voz britânica (Capella) bem ali.
De qualquer forma, há vozes suficientes para cada dia da semana, e mais um pouco.
Minhas primeiras impressões do Gemini Live, como as de todos os outros, foram positivas. Considerando as vozes sintéticas e afetadas do Google de antigamente, o Gemini Live é uma lufada de ar fresco. As vozes são, no entanto, um pouco formais — você não ouvirá muitos Umms e Ahs (e outras interjeições). Por causa disso, e de outras razões subliminares, achei as vozes um pouco desapaixonadas e contidas, presumivelmente para que os usuários não acabem formando laços emocionais — algo que a OpenAI teme que possa ser o caso do próprio Modo de Voz do ChatGPT, que ainda é muito melhor.
As respostas vêm rápido, então parece que você está falando com um amigo de plantão. Mas, diferente de um amigo cujas histórias nunca terminam, você pode interromper o Gemini a qualquer momento. Talvez você já soubesse disso. Mas ainda vale a pena mencionar porque você pode dizer para ele desligar se ele começar a falar algo que você sabe que está incorreto (mais sobre isso depois).
Assim que você terminar a conversa, você encontrará a transcrição pronta e disponível para você ler. Para mim, esse é um dos melhores recursos. Realmente ajuda a verificar como a conversa se parece em texto e compartilhá-la com outras pessoas.
Espaço para melhorias
Há coisas que o Gemini Live faz bem. Mas ele também tem muito potencial inexplorado.
Primeiramente, as conversas com o Gemini Live são, sem dúvida, breves. Quando você faz uma pergunta, o Gemini Live responderá com o mínimo de palavras possível, como se estivesse ocupado atendendo outras pessoas. Você não o verá falando tangencialmente ou dando palpites com você, o que, muitos diriam, é uma coisa boa. Mas todas as ideias podem ser declaradas de forma simples e direta, apesar da navalha de Occam?
Por exemplo, pedi para comparar Pégaso (já que eu estava usando essa voz) com Ícaro (ambos parte dos mitos gregos). Embora haja vários nós de comparação, o Gemini Live me deu respostas breves e diretas. Trouxe Hanuman (do mito hindu) para dar outro ângulo de comparação. E, novamente, não mais do que algumas frases. As coisas ficaram frustrantes.
Depois de várias tentativas de fazê-lo dizer mais, perguntei se havia uma configuração que me permitisse ajustar sua verbosidade. Ele me disse que não era capaz de mudar isso, mas me deu instruções muito autoritárias sobre como eu poderia fazer isso sozinho, o que segui tolamente porque tal configuração não existe.
O que me leva a…
Onde sofre?
A tendência do Gemini de inventar coisas e alucinar não exatamente gerou confiança entre os usuários. Ele também atraiu muitas críticas por seus erros de geração de imagens no passado. Por mais lamentável que seja, embora a modalidade tenha mudado e o modelo subjacente seja atualizado para o Gemini 1.5 Flash, o problema ainda é prevalente no Gemini Live.
Embora a maioria de suas respostas sejam baseadas em informações factuais, de vez em quando ele gera uma resposta do nada.
Certamente há um caso a ser feito sobre como dar voz à IA inspira mais confiança entre os usuários. E com vozes semelhantes às humanas, é muito mais fácil depositar sua confiança nela e ser influenciado pela confiança com que as respostas são apresentadas. Mas se você não estiver em guarda, ou checando respostas duvidosas, você pode se ver enganado, como eu fui.
A tecnologia está se desenvolvendo mais rápido do que qualquer um esperava, mas os chatbots estão tão propensos a alucinações quanto sempre. Então, mesmo depois de saber da propensão da IA em fornecer informações ruins, se você continuar a confiar cegamente nela, talvez não seja inteligência artificial que você precise.
Repita comigo: engane-me uma vez, a vergonha é sua; engane-me duas vezes, a vergonha é minha.
Como o Gemini Live se compara ao Modo de Voz Avançado do ChatGPT?
Agora, vamos considerar o elefante na sala. Como o Gemini Live se compara ao Modo de Voz Avançado do ChatGPT? Verdade seja dita, o Gemini Live não é tão prolixo, envolvente ou divertido quanto o Modo de Voz do ChatGPT. Embora este último possa ter sido um pouco envolvente demais (até mesmo flertante) e assustadoramente humano, com todos os seus sons e maneirismos ponderados, ele pelo menos serve como uma ferramenta para se divertir. O Gemini Live, por outro lado, se leva muito a sério, o que pode não funcionar a seu favor, especialmente porque suas respostas são prejudicadas por seu modelo de IA.
Mas talvez a maior diferença entre os dois seja esta: o Gemini Live interpreta a fala como texto e então dá sua resposta, enquanto o Modo de Voz do ChatGPT processa a fala diretamente.
Veredito
O Gemini Live é uma ferramenta boa e um claro avanço em relação ao antigo Google Assistente. A capacidade de invocá-lo a partir da tela de bloqueio é útil, e as 10 vozes têm o suficiente a seu favor. Mas seria insano confiar nele para qualquer coisa profissional. Pessoalmente, eu preferiria doar meu dinheiro para uma instituição de caridade sobre a qual não sei nada do que pagar US$ 20 apenas pelo Gemini Live. Felizmente, a assinatura Gemini Advanced tem outras vantagens.
Do jeito que as coisas estão, é bom ver a IA, independentemente de sua modalidade, como um esquizofrênico em recuperação. Está melhorando, mas ainda é propenso a recaídas. A única diferença é que você não tem um esquizofrênico no bolso, nem vai pagar para ter um.
O que você acha do Gemini Live? Você acha que o Google vai sufocar essa avaliação brilhante? Deixe-nos saber nos comentários abaixo.
Deixe um comentário