Cómo utilizar indicaciones de voz e imagen en ChatGPT

2023/09/27

Qué saber

A partir del 27 de septiembre de 2023, los usuarios de ChatGPT Plus y Enterprise ahora pueden interactuar con el chatbot con imágenes y mensajes de voz, así como escuchar su respuesta con voces humanas.
Para ingresar imágenes en las indicaciones, toque el ícono de la cámara o la galería a la izquierda del campo del mensaje y capture o elija una imagen. También puedes dibujar en la imagen para especificar dónde se enfoca ChatGPT.
Para comenzar a usar el Modo de voz, opte por el modo de voz en Configuración de ChatGPT > Nuevas funciones.
Inicie una conversación de voz tocando el botón de los auriculares en la esquina superior derecha y seleccionando una voz.
ChatGPT te permite elegir entre cinco voces humanas diferentes.

Casi un año desde su lanzamiento, OpenAI continúa agregando funciones para mejorar no solo lo que ChatGPT puede hacer sino también cómo se usa. Una actualización reciente ahora le permite dar comandos de voz e imágenes como indicaciones a ChatGPT y leer sus respuestas en voz alta con voces humanas, lo que esencialmente facilita una conversación de ida y vuelta entre usted y el chatbot de IA.

Aquí encontrará todo lo que necesita saber sobre cómo acceder y utilizar estos nuevos modos ChatGPT y cómo promueven una integración más estrecha de la IA en nuestras vidas.

ChatGPT obtiene modo de voz y visión

La aplicación ChatGPT ya puede traducir mensajes de voz grabados a texto. Pero el soporte para conversaciones de voz directas ahora permite la interacción sin involucrar texto alguno de ninguno de los lados, lo que hace que la plataforma sea mucho más flexible.

La función Voz funciona como era de esperar: tocas la pantalla y comienzas a hablar. Luego, las palabras se convierten en texto y se envían al LLM. La respuesta vuelve al habla y, finalmente, se lee con la voz que usted elija.

OpenAI ha colaborado con actores profesionales para ofrecer cinco voces diferentes que agregan un toque auténtico a las respuestas y al mismo tiempo estimulan las conversaciones de forma natural.

Por otro lado está Image Prompt que, como su nombre indica, te permite agregar imágenes desde tu cámara o galería y hacer preguntas sobre ellas. Esto está en la misma línea que Google Lens, aunque con respuestas más confiables gracias a la arquitectura GPT avanzada.

Cómo solicitar ChatGPT con comandos de voz

El modo de voz abre un nuevo modo de conversación, pero todavía no está disponible para todos. OpenAI los está implementando exclusivamente para usuarios de ChatGPT Plus y Enterprise por ahora. También sólo está disponible en la aplicación móvil de ChatGPT para iOS y Android, no en la versión de escritorio. Puede optar por el modo de voz desde Configuración > Nuevas funciones.

Para comenzar a usar el modo de voz, toque el ícono de auriculares en la esquina superior derecha de la pantalla de inicio y seleccione una voz entre las cinco opciones disponibles.

Una vez que comience la conversación, comience a hablar por el micrófono.

El mensaje de voz se enviará tan pronto como dejes de hablar.

También puedes tocar en el medio para enviar tu mensaje manualmente.

Utilice los botones de pausa y parada para controlar aún más las grabaciones.

ChatGPT ahora entregará su respuesta con la voz que elija. Para interrumpir una respuesta, simplemente toque en el medio mientras se pronuncia.

Una vez que se complete la respuesta, puede comenzar a hablar nuevamente y hacer avanzar la conversación.

Finaliza el chat tocando la X en la parte inferior.

Cómo solicitar ChatGPT con imágenes

Teniendo en cuenta que otros chatbots de IA ya lo tienen en funcionamiento, las indicaciones de imágenes se convierten en una característica importante para incorporar a la plataforma junto con el modo de voz. También está disponible exclusivamente para usuarios de ChatGPT Plus y Enterprise. Pero, afortunadamente, también se está implementando en la versión de escritorio.

Toque el ícono de la cámara en la esquina inferior izquierda para comenzar.

Captura la imagen.

Y toque ‘Confirmar’.

La imagen se cargará en el campo de mensaje. Escribe tu texto para acompañarlo y presiona Enviar.

ChatGPT escaneará las indicaciones de imagen y texto y responderá en consecuencia. Incluso puede solicitarle más referencias visuales.

Dibuja en la imagen para pedirle a ChatGPT que se enfoque en un objeto.

También puedes dibujar en la imagen para centrar la atención de ChatGPT.

Además de la cámara, también tienes la opción de agregar imágenes de la galería o carpetas. Toque el signo ‘+’ para revelar opciones adicionales de mensajes de imagen.

Luego elija otro medio para cargar imágenes.

Seleccione una imagen.

Puede agregar varias imágenes a un mensaje.

Continúe sus conversaciones con imágenes de seguimiento y consultas de texto. O cambie a voz y diga sus preguntas para acompañar las imágenes.

Beneficios de gran alcance de las capacidades de voz e imagen de ChatGPT

La implementación de voces humanas naturales –o una reproducción fiel de ellas– puede permitir una gran cantidad de posibilidades y escenarios del mundo real.

Por ejemplo, puede tomar fotografías de su comida y hacer que ChatGPT le brinde una estimación de su consumo de calorías, hacer que le lea un cuento antes de dormir con una de sus voces preferidas, abrir el aprendizaje auditivo o planificar DAN con él. Aunque no te permitirá exactamente comenzar una relación con él como en las películas (me viene a la mente Her de Spike Jones), la característica en esencia es increíblemente cercana a eso.

Tener una IA con voz humana no sólo abre puertas a casos de uso novedosos, sino que también permite a OpenAI colaborar con servicios como Spotify y otros para desarrollar nuevas funciones basadas en IA para sus propias plataformas.

Preguntas más frecuentes

Consideremos algunas preguntas frecuentes sobre las nuevas funciones de voz e imagen en ChatGPT.

¿Cómo habilitar el modo de voz y las indicaciones de imagen en ChatGPT?

Para comenzar a usar los modos de voz e imagen en ChatGPT, toque las tres líneas horizontales y seleccione Configuración > Nuevas funciones. Asegúrese de tener un plan ChatGPT Plus o Enterprise y de estar utilizando GPT-4.

¿Por qué no puedo encontrar nuevas funciones en la configuración de ChatGPT?

Si no ve la opción «Nuevas funciones», su dispositivo aún no ha recibido la nueva actualización. Busque actualizaciones para la aplicación en App Store o Play Store. Aunque la función ya está disponible, OpenAI ha dicho que se implementará para los usuarios en las próximas semanas.

La capacidad de interactuar con voz y dar indicaciones con imágenes devuelve a los pioneros de la IA generativa a la batalla de los bots. Aunque tanto Bing AI como Bard tienen características similares, no han podido implementar la multimodalidad de ninguna manera interconectada e integral. Bing AI no puede leer en voz alta su respuesta y Bard aún no ha recibido una aplicación independiente. Con los gigantes un poco rezagados, ChatGPT buscará ganar impulso para sí mismo y sus usuarios.

Esperamos que esta guía haya resultado útil para comprender cómo puede utilizar las nuevas modalidades de voz e imagen en ChatGPT. ¡Hasta la proxima vez!