Como usar comandos de voz e imagem no ChatGPT

Como usar comandos de voz e imagem no ChatGPT

O que saber

  • A partir de 27 de setembro de 2023, os usuários do ChatGPT Plus e Enterprise agora podem interagir com o chatbot com comandos de imagem e voz, bem como ouvir sua resposta em vozes humanas.
  • Para inserir imagens em prompts, toque no ícone da câmera ou galeria à esquerda do campo de mensagem e capture ou escolha uma imagem. Você também pode desenhar na imagem para especificar onde o ChatGPT se concentra.
  • Para começar a usar o modo de voz, opte pelo modo de voz em Configurações do ChatGPT > Novos recursos.
  • Inicie uma conversa por voz tocando no botão do fone de ouvido no canto superior direito e selecionando uma voz.
  • ChatGPT permite escolher entre cinco vozes humanas diferentes.

Quase um ano desde o seu lançamento, o OpenAI continua a adicionar recursos para aprimorar não apenas o que o ChatGPT pode fazer, mas também como você o usa. Uma atualização recente agora permite que você forneça comandos de voz e imagens como prompts ao ChatGPT e leia suas respostas em voz alta em vozes humanas, facilitando essencialmente uma conversa entre você e o chatbot de IA.

Aqui está tudo o que você precisa saber sobre como acessar e usar esses novos modos ChatGPT e como eles promovem uma integração mais próxima da IA ​​em nossas vidas.

ChatGPT obtém modo de voz e visão

O aplicativo ChatGPT já pode traduzir comandos de voz gravados em texto. Mas o suporte para conversas diretas por voz agora permite a interação sem envolver nenhum texto de nenhum dos lados, tornando a plataforma muito mais flexível.

O recurso Voz funciona como seria de esperar – você toca na tela e começa a falar. As palavras são então transformadas em texto e enviadas para o LLM. A resposta é transformada em fala e, finalmente, é lida na voz de sua escolha.

A OpenAI colaborou com atores profissionais para fornecer cinco vozes diferentes, o que adiciona um toque autêntico às respostas, ao mesmo tempo que estimula as conversas naturalmente.

Por outro lado, está o Image Prompt que, como o nome sugere, permite adicionar imagens da sua câmera ou galeria e fazer perguntas sobre elas. Isso está na mesma linha do Google Lens, embora com respostas mais confiáveis ​​graças à arquitetura GPT avançada.

Como solicitar o ChatGPT com comandos de voz

O Modo Voz abre um novo modo de conversa, mas ainda não está disponível para todos. OpenAI está lançando-os exclusivamente para usuários ChatGPT Plus e Enterprise por enquanto. Também está disponível apenas no aplicativo móvel do ChatGPT para iOS e Android, e não na versão desktop. Você pode ativar o modo de voz em Configurações > Novos recursos.

Para começar a usar o modo de voz, toque no ícone do fone de ouvido no canto superior direito da tela inicial e selecione uma voz entre as cinco opções disponíveis.

Assim que a conversa começar, comece a falar no microfone.

O prompt de voz será enviado assim que você parar de falar.

Você também pode tocar no meio para enviar sua solicitação manualmente.

Use os botões de pausa e parada para controlar ainda mais as gravações.

O ChatGPT agora entregará sua resposta na voz escolhida. Para interromper uma resposta, basta tocar no meio enquanto ela é falada.

Assim que a resposta for concluída, você poderá começar a falar novamente e levar a conversa adiante.

Encerre o bate-papo tocando no X na parte inferior.

Como solicitar o ChatGPT com imagens

Considerando que outros chatbots de IA já têm isso instalado e funcionando, o prompt de imagem se torna um recurso importante para trazer para a plataforma junto com o modo de voz. Também está disponível exclusivamente para usuários ChatGPT Plus e Enterprise. Mas, felizmente, ele também está sendo lançado na versão desktop.

Toque no ícone da câmera no canto inferior esquerdo para começar.

Capture a imagem.

E toque em ‘Confirmar’.

A imagem será carregada no campo de mensagem. Digite seu texto para acompanhá-lo e clique em Enviar.

ChatGPT examinará as solicitações de imagem e texto e responderá de acordo. Pode até solicitar mais referências visuais.

Desenhe na imagem para pedir ao ChatGPT foco em um objeto

Você também pode desenhar na imagem para chamar a atenção do ChatGPT.

Além da câmera, você também tem a opção de adicionar imagens da galeria ou de pastas. Toque no sinal ‘+’ para revelar opções adicionais de prompt de imagem.

Em seguida, escolha outro meio de upload de imagens.

Selecione uma imagem.

Você pode adicionar várias imagens a um prompt.

Continue suas conversas com imagens de acompanhamento e consultas de texto. Ou mude para a voz e faça suas perguntas para acompanhar as imagens.

Benefícios de longo alcance dos recursos de voz e imagem do ChatGPT

A implementação de vozes humanas naturais – ou uma reprodução aproximada delas – pode permitir uma série de possibilidades e cenários do mundo real.

Por exemplo, você pode tirar fotos de sua comida e fazer com que o ChatGPT lhe dê uma estimativa de sua ingestão de calorias, faça com que ele leia uma história para você dormir em uma de suas vozes preferidas, abra o aprendizado auditivo ou planeje DAN com ele. Embora não permita exatamente que você inicie um relacionamento com ele como nos filmes (Her de Spike Jones vem à mente), o recurso em essência é estranhamente próximo disso.

Ter uma IA com voz humana não apenas abre portas para novos casos de uso, mas também permite que a OpenAI colabore com serviços como Spotify e outros para desenvolver novos recursos baseados em IA para suas próprias plataformas.

Perguntas frequentes

Vamos considerar algumas perguntas frequentes sobre os novos recursos de voz e imagem do ChatGPT.

Como ativar o modo de voz e os prompts de imagem no ChatGPT?

Para começar a usar os modos de voz e imagem no ChatGPT, toque nas três linhas horizontais e selecione Configurações > Novos recursos. Certifique-se de ter um plano ChatGPT Plus ou Enterprise e usar GPT-4.

Por que não consigo encontrar novos recursos nas configurações do ChatGPT?

Se você não vir a opção ‘Novos recursos’, seu dispositivo ainda não recebeu a nova atualização. Verifique se há atualizações para o aplicativo na App Store ou na Play Store. Embora o recurso esteja ativo, a OpenAI disse que será lançado aos usuários nas próximas semanas.

A capacidade de interagir por voz e fornecer comandos de imagem traz os pioneiros da IA ​​generativa de volta à batalha dos bots. Embora o Bing AI e o Bard tenham recursos semelhantes, eles não foram capazes de implementar a multimodalidade de forma interconectada e abrangente. O Bing AI não consegue ler sua resposta em voz alta e Bard ainda não recebeu um aplicativo independente. Com os gigantes um pouco atrasados, o ChatGPT tentará ganhar impulso para si e para seus usuários.

Esperamos que este guia tenha sido útil para entender como você pode usar as novas modalidades de voz e imagem no ChatGPT. Até a próxima vez!

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *