Come utilizzare i comandi vocali e immagini in ChatGPT

2023/09/27

Cosa sapere

A partire dal 27 settembre 2023, gli utenti ChatGPT Plus ed Enterprise possono ora interagire con il chatbot con immagini e comandi vocali, nonché ascoltare la sua risposta con voci umane.
Per inserire immagini nei messaggi, tocca l’icona della fotocamera o della galleria a sinistra del campo del messaggio e acquisisci o scegli un’immagine. Puoi anche disegnare sull’immagine per specificare dove si concentra ChatGPT.
Per iniziare a utilizzare la modalità vocale, attiva la modalità vocale da Impostazioni ChatGPT > Nuove funzionalità.
Avvia una conversazione vocale toccando il pulsante delle cuffie nell’angolo in alto a destra e selezionando una voce.
ChatGPT ti consente di scegliere tra cinque diverse voci umane.

A quasi un anno dal suo lancio, OpenAI continua ad aggiungere funzionalità per migliorare non solo ciò che ChatGPT può fare ma anche il modo in cui lo usi. Un recente aggiornamento ora ti consente di fornire comandi vocali e immagini come suggerimenti a ChatGPT e leggere le tue risposte ad alta voce con voci umane, facilitando essenzialmente una conversazione avanti e indietro tra te e il chatbot AI.

Ecco tutto ciò che devi sapere su come accedere e utilizzare queste nuove modalità ChatGPT e su come favoriscono una più stretta integrazione dell’intelligenza artificiale nelle nostre vite.

ChatGPT ottiene la modalità vocale e la visione

L’app ChatGPT può già tradurre in testo i comandi vocali registrati. Ma il supporto per le conversazioni vocali dirette ora consente l’interazione senza coinvolgere il testo da entrambi i lati, rendendo la piattaforma molto più flessibile.

La funzione Voce funziona come ci si aspetterebbe: tocchi lo schermo e inizi a parlare. Le parole vengono quindi trasformate in testo e inviate al LLM. La risposta viene riportata alla voce e, infine, viene letta con una voce di tua scelta.

OpenAI ha collaborato con attori professionisti per fornire cinque voci diverse che aggiungono un tocco autentico alle risposte stimolando al contempo le conversazioni in modo naturale.

D’altra parte c’è Image Prompt che, come suggerisce il nome, ti consente di aggiungere immagini dalla tua fotocamera o galleria e porre domande al riguardo. Questo è sulla stessa linea di Google Lens anche se con risposte più affidabili grazie all’avanzata architettura GPT.

Come richiedere ChatGPT con comandi vocali

La modalità vocale apre una nuova modalità di conversazione, ma non è ancora disponibile per tutti. Per ora OpenAI li sta distribuendo esclusivamente agli utenti ChatGPT Plus ed Enterprise. Inoltre è disponibile solo sull’app mobile ChatGPT per iOS e Android, non sulla versione desktop. Puoi attivare la modalità vocale da Impostazioni > Nuove funzionalità.

Per iniziare a utilizzare la modalità vocale, tocca l’icona delle cuffie nell’angolo in alto a destra della schermata principale e seleziona una voce tra le cinque opzioni disponibili.

Una volta iniziata la conversazione, inizia a parlare nel microfono.

Il messaggio vocale verrà inviato non appena smetti di parlare.

Puoi anche toccare al centro per inviare il messaggio manualmente.

Utilizza i pulsanti Pausa e Interrompi per controllare ulteriormente le registrazioni.

ChatGPT ora fornirà la sua risposta con la voce prescelta. Per interrompere una risposta, tocca semplicemente al centro mentre viene pronunciata.

Una volta completata la risposta, puoi ricominciare a parlare e portare avanti la conversazione.

Termina la chat toccando la X in basso.

Come richiedere ChatGPT con le immagini

Considerando che altri chatbot con intelligenza artificiale lo hanno già installato e funzionante, la richiesta di immagini diventa una caratteristica importante da portare sulla piattaforma insieme alla modalità vocale. Anch’esso è disponibile esclusivamente per gli utenti ChatGPT Plus ed Enterprise. Ma fortunatamente è disponibile anche per la versione desktop.

Tocca l’icona della fotocamera nell’angolo in basso a sinistra per iniziare.

Cattura l’immagine.

E tocca “Conferma”.

L’immagine verrà caricata nel campo del messaggio. Digita il testo da accompagnare e premi Invia.

ChatGPT analizzerà l’immagine e le istruzioni di testo e risponderà di conseguenza. Potrebbe anche richiederti ulteriori riferimenti visivi.

Disegna sull’immagine per chiedere a ChatGPT di concentrarsi su un oggetto

Puoi anche attingere all’immagine per focalizzare l’attenzione di ChatGPT.

Oltre alla fotocamera, hai la possibilità di aggiungere anche immagini dalla galleria o dalle cartelle. Tocca il segno “+” per visualizzare ulteriori opzioni di richiesta immagine.

Quindi scegli un altro mezzo per caricare le immagini.

Seleziona un’immagine.

È possibile aggiungere più immagini a un prompt.

Continua le tue conversazioni con immagini di follow-up e query di testo. Oppure passa alla voce e pronuncia le tue domande per accompagnarle alle immagini.

Vantaggi di vasta portata delle funzionalità vocali e di immagine di ChatGPT

L’implementazione delle voci umane naturali – o una loro riproduzione fedele – può consentire una serie di possibilità e scenari del mondo reale.

Ad esempio, puoi scattare foto del tuo cibo e chiedere a ChatGPT di darti una stima del tuo apporto calorico, farti leggere una favola della buonanotte con una delle tue voci preferite, aprire l’apprendimento uditivo o pianificare DAN con esso. Anche se non ti permetterà esattamente di iniziare una relazione con esso come nei film (mi viene in mente Her di Spike Jones), la caratteristica in sostanza è incredibilmente vicina ad esso.

Avere un’intelligenza artificiale con una voce simile a quella umana non solo apre le porte a nuovi casi d’uso, ma consente anche a OpenAI di collaborare con servizi come Spotify e altri per sviluppare nuove funzionalità basate sull’intelligenza artificiale per le proprie piattaforme.

FAQ

Consideriamo alcune domande frequenti sulle nuove funzionalità vocali e di immagini su ChatGPT.

Come abilitare la modalità vocale e i messaggi immagine in ChatGPT?

Per iniziare a utilizzare le modalità voce e immagine in ChatGPT, tocca le tre linee orizzontali e seleziona Impostazioni > Nuove funzionalità. Assicurati di avere un piano ChatGPT Plus o Enterprise e di utilizzare GPT-4.

Perché non riesco a trovare le nuove funzionalità nelle impostazioni ChatGPT?

Se non vedi l’opzione “Nuove funzionalità”, il tuo dispositivo deve ancora ricevere il nuovo aggiornamento. Controlla gli aggiornamenti per l’app sull’App Store o sul Play Store. Sebbene la funzionalità sia attiva, OpenAI ha affermato che verrà distribuita agli utenti nelle prossime settimane.

La capacità di interagire con la voce e fornire suggerimenti tramite immagini riporta i pionieri dell’intelligenza artificiale generativa nella battaglia dei robot. Sebbene sia Bing AI che Bard abbiano caratteristiche simili, non sono stati in grado di implementare la multimodalità in modo interconnesso e completo. Bing AI non è in grado di leggere ad alta voce la sua risposta e Bard deve ancora ricevere un’app autonoma. Con i giganti un po’ in ritardo, ChatGPT cercherà di guadagnare slancio per sé e per i suoi utenti.

Ci auguriamo che questa guida si sia rivelata utile per comprendere come utilizzare le nuove modalità voce e immagini su ChatGPT. Fino alla prossima volta!