Como usar comandos de voz e imagem no ChatGPT
O que saber
- A partir de 27 de setembro de 2023, os usuários do ChatGPT Plus e Enterprise agora podem interagir com o chatbot com comandos de imagem e voz, bem como ouvir sua resposta em vozes humanas.
- Para inserir imagens em prompts, toque no ícone da câmera ou galeria à esquerda do campo de mensagem e capture ou escolha uma imagem. Você também pode desenhar na imagem para especificar onde o ChatGPT se concentra.
- Para começar a usar o modo de voz, opte pelo modo de voz em Configurações do ChatGPT > Novos recursos.
- Inicie uma conversa por voz tocando no botão do fone de ouvido no canto superior direito e selecionando uma voz.
- ChatGPT permite escolher entre cinco vozes humanas diferentes.
Quase um ano desde o seu lançamento, o OpenAI continua a adicionar recursos para aprimorar não apenas o que o ChatGPT pode fazer, mas também como você o usa. Uma atualização recente agora permite que você forneça comandos de voz e imagens como prompts ao ChatGPT e leia suas respostas em voz alta em vozes humanas, facilitando essencialmente uma conversa entre você e o chatbot de IA.
Aqui está tudo o que você precisa saber sobre como acessar e usar esses novos modos ChatGPT e como eles promovem uma integração mais próxima da IA em nossas vidas.
ChatGPT obtém modo de voz e visão
O aplicativo ChatGPT já pode traduzir comandos de voz gravados em texto. Mas o suporte para conversas diretas por voz agora permite a interação sem envolver nenhum texto de nenhum dos lados, tornando a plataforma muito mais flexível.
O recurso Voz funciona como seria de esperar – você toca na tela e começa a falar. As palavras são então transformadas em texto e enviadas para o LLM. A resposta é transformada em fala e, finalmente, é lida na voz de sua escolha.
A OpenAI colaborou com atores profissionais para fornecer cinco vozes diferentes, o que adiciona um toque autêntico às respostas, ao mesmo tempo que estimula as conversas naturalmente.
Por outro lado, está o Image Prompt que, como o nome sugere, permite adicionar imagens da sua câmera ou galeria e fazer perguntas sobre elas. Isso está na mesma linha do Google Lens, embora com respostas mais confiáveis graças à arquitetura GPT avançada.
Como solicitar o ChatGPT com comandos de voz
O Modo Voz abre um novo modo de conversa, mas ainda não está disponível para todos. OpenAI está lançando-os exclusivamente para usuários ChatGPT Plus e Enterprise por enquanto. Também está disponível apenas no aplicativo móvel do ChatGPT para iOS e Android, e não na versão desktop. Você pode ativar o modo de voz em Configurações > Novos recursos.
Para começar a usar o modo de voz, toque no ícone do fone de ouvido no canto superior direito da tela inicial e selecione uma voz entre as cinco opções disponíveis.
Assim que a conversa começar, comece a falar no microfone.
O prompt de voz será enviado assim que você parar de falar.
Você também pode tocar no meio para enviar sua solicitação manualmente.
Use os botões de pausa e parada para controlar ainda mais as gravações.
O ChatGPT agora entregará sua resposta na voz escolhida. Para interromper uma resposta, basta tocar no meio enquanto ela é falada.
Assim que a resposta for concluída, você poderá começar a falar novamente e levar a conversa adiante.
Encerre o bate-papo tocando no X na parte inferior.
Como solicitar o ChatGPT com imagens
Considerando que outros chatbots de IA já têm isso instalado e funcionando, o prompt de imagem se torna um recurso importante para trazer para a plataforma junto com o modo de voz. Também está disponível exclusivamente para usuários ChatGPT Plus e Enterprise. Mas, felizmente, ele também está sendo lançado na versão desktop.
Toque no ícone da câmera no canto inferior esquerdo para começar.
Capture a imagem.
E toque em ‘Confirmar’.
A imagem será carregada no campo de mensagem. Digite seu texto para acompanhá-lo e clique em Enviar.
ChatGPT examinará as solicitações de imagem e texto e responderá de acordo. Pode até solicitar mais referências visuais.
Desenhe na imagem para pedir ao ChatGPT foco em um objeto
Você também pode desenhar na imagem para chamar a atenção do ChatGPT.
Além da câmera, você também tem a opção de adicionar imagens da galeria ou de pastas. Toque no sinal ‘+’ para revelar opções adicionais de prompt de imagem.
Em seguida, escolha outro meio de upload de imagens.
Selecione uma imagem.
Você pode adicionar várias imagens a um prompt.
Continue suas conversas com imagens de acompanhamento e consultas de texto. Ou mude para a voz e faça suas perguntas para acompanhar as imagens.
Benefícios de longo alcance dos recursos de voz e imagem do ChatGPT
A implementação de vozes humanas naturais – ou uma reprodução aproximada delas – pode permitir uma série de possibilidades e cenários do mundo real.
Por exemplo, você pode tirar fotos de sua comida e fazer com que o ChatGPT lhe dê uma estimativa de sua ingestão de calorias, faça com que ele leia uma história para você dormir em uma de suas vozes preferidas, abra o aprendizado auditivo ou planeje DAN com ele. Embora não permita exatamente que você inicie um relacionamento com ele como nos filmes (Her de Spike Jones vem à mente), o recurso em essência é estranhamente próximo disso.
Ter uma IA com voz humana não apenas abre portas para novos casos de uso, mas também permite que a OpenAI colabore com serviços como Spotify e outros para desenvolver novos recursos baseados em IA para suas próprias plataformas.
Perguntas frequentes
Vamos considerar algumas perguntas frequentes sobre os novos recursos de voz e imagem do ChatGPT.
Como ativar o modo de voz e os prompts de imagem no ChatGPT?
Para começar a usar os modos de voz e imagem no ChatGPT, toque nas três linhas horizontais e selecione Configurações > Novos recursos. Certifique-se de ter um plano ChatGPT Plus ou Enterprise e usar GPT-4.
Por que não consigo encontrar novos recursos nas configurações do ChatGPT?
Se você não vir a opção ‘Novos recursos’, seu dispositivo ainda não recebeu a nova atualização. Verifique se há atualizações para o aplicativo na App Store ou na Play Store. Embora o recurso esteja ativo, a OpenAI disse que será lançado aos usuários nas próximas semanas.
A capacidade de interagir por voz e fornecer comandos de imagem traz os pioneiros da IA generativa de volta à batalha dos bots. Embora o Bing AI e o Bard tenham recursos semelhantes, eles não foram capazes de implementar a multimodalidade de forma interconectada e abrangente. O Bing AI não consegue ler sua resposta em voz alta e Bard ainda não recebeu um aplicativo independente. Com os gigantes um pouco atrasados, o ChatGPT tentará ganhar impulso para si e para seus usuários.
Esperamos que este guia tenha sido útil para entender como você pode usar as novas modalidades de voz e imagem no ChatGPT. Até a próxima vez!
Deixe um comentário