ChatGPT で音声と画像のプロンプトを使用する方法

2023/09/27

知っておくべきこと

2023 年 9 月 27 日の時点で、ChatGPT Plus と Enterprise のユーザーは、画像と音声のプロンプトを使用してチャットボットと対話できるようになり、人間のような声でその応答を聞くことができるようになりました。
プロンプトに画像を入力するには、メッセージフィールドの左側にあるカメラまたはギャラリーのアイコンをタップし、画像をキャプチャまたは選択します。画像上に描画して、ChatGPT が焦点を当てる場所を指定することもできます。
音声モードの使用を開始するには、ChatGPT 設定 > 新機能から音声モードをオプトインします。
右上隅にあるヘッドフォンボタンをタップして音声を選択し、音声会話を開始します。
ChatGPT では、5 つの異なる人間の声から選択できます。

OpenAI は、発売からほぼ 1 年が経過しましたが、ChatGPT でできることだけでなく、その使用方法も強化する機能を追加し続けています。最近のアップデートにより、音声コマンドや画像をプロンプトとして ChatGPT に与えることができるようになり、回答を人間の声で読み上げることができるようになり、基本的にユーザーと AI チャットボットの間のやり取りが容易になります。

これらの新しい ChatGPT モードにアクセスして使用する方法、およびこれらのモードが私たちの生活への AI の緊密な統合をどのように進めるかについて、知っておく必要があるすべてをここに示します。

ChatGPT が音声モードとビジョンを取得

ChatGPT アプリは、すでに録音された音声プロンプトをテキストに翻訳できます。しかし、直接音声会話のサポートにより、どちらの側からもテキストをまったく介さずに対話できるようになり、プラットフォームがより柔軟になりました。

音声機能は期待どおりに機能します。画面をタップして話し始めます。その後、単語はテキストに変換されて LLM に送信されます。応答は音声に戻され、最終的には選択した音声で読み上げられます。

OpenAI はプロの俳優と協力して、会話を自然に刺激しながら、回答に本物の雰囲気を加える 5 つの異なる音声を提供しました。

一方、画像プロンプトは、名前が示すように、カメラまたはギャラリーから画像を追加し、それらについて質問することができます。これは Google レンズと同じ流れですが、高度な GPT アーキテクチャのおかげでより信頼性の高い応答が得られます。

音声コマンドで ChatGPT にプロンプトを表示する方法

音声モードは新しい会話モードを開きますが、まだ誰もが利用できるわけではありません。OpenAI は、現時点では ChatGPT Plus および Enterprise ユーザーのみにこれらを展開しています。また、iOS および Android 用の ChatGPT モバイルアプリでのみ利用可能であり、デスクトップバージョンでは利用できません。[設定] > [新機能] から音声モードにオプトインできます。

音声モードの使用を開始するには、ホーム画面の右上隅にあるヘッドフォンアイコンをタップし、5 つの利用可能なオプションから音声を選択します。

会話が始まったら、マイクに向かって話し始めます。

話すのをやめるとすぐに音声プロンプトが送信されます。

中央をタップしてプロンプトを手動で送信することもできます。

一時停止ボタンと停止ボタンを使用して、録音をさらに制御します。

ChatGPT は選択した音声で応答を配信します。回答を中断するには、話されている間に中央をタップするだけです。

応答が完了したら、再び話し始めて会話を進めることができます。

下部にある [X] をタップしてチャットを終了します。

ChatGPT に画像を使用してプロンプトを表示する方法

他の AI チャットボットがすでにこれを導入して実行していることを考慮すると、画像プロンプトは音声モードと並んでプラットフォームに導入する重要な機能になります。これも ChatGPT Plus および Enterprise ユーザーのみが利用できます。しかし、幸いなことに、デスクトップ版にも展開されています。

左下隅にあるカメラアイコンをタップして開始します。

画像をキャプチャします。

そして「確認」をタップします。

画像はメッセージ欄にアップロードされます。それに合わせてテキストを入力し、[送信] をクリックします。

ChatGPT は画像とテキストのプロンプトをスキャンし、それに応じて応答します。さらに視覚的な参照を求めるプロンプトが表示される場合もあります。

画像上に描画して、ChatGPT にオブジェクトへのフォーカスを依頼します

画像に描画して ChatGPT の注意を集中させることもできます。

カメラの他に、ギャラリーまたはフォルダーから画像を追加するオプションもあります。「+」記号をタップすると、追加の画像プロンプトオプションが表示されます。

次に、画像をアップロードする別の手段を選択します。

写真を選択します。

プロンプトに複数の画像を追加できます。

フォローアップの画像やテキストによる質問で会話を続けます。または、音声に切り替えて、画像に合わせて質問を話します。

ChatGPT の音声および画像機能の広範囲にわたる利点

自然な人間の声の実装、またはその忠実な再現により、現実世界のさまざまな可能性やシナリオが可能になります。

たとえば、食べ物の写真を撮り、ChatGPT を使用してカロリー摂取量の推定値を取得したり、好みの声で就寝時の物語を読み上げさせたり、聴覚学習をオープンにしたり、それを使用して DAN を計画したりすることができます。映画のように正確に関係を始めることはできませんが（スパイク・ジョーンズの『Her』が思い浮かびます）、この機能は本質的には不気味なほどそれに近いものです。

人間のような声を持つ AI を搭載することで、新しいユースケースへの扉が開かれるだけでなく、OpenAI が Spotify などのサービスと連携して、独自のプラットフォーム用の新しい AI ベースの機能を開発することも可能になります。

よくある質問

ChatGPT の新しい音声および画像機能に関してよくある質問をいくつか考えてみましょう。

ChatGPT で音声モードと画像プロンプトを有効にする方法は?

ChatGPT で音声モードと画像モードの使用を開始するには、3 本の水平線をタップし、[設定] > [新機能] を選択します。ChatGPT Plus または Enterprise プランに加入しており、GPT-4 を使用していることを確認してください。

ChatGPT 設定で新機能が見つからないのはなぜですか?

[新機能] オプションが表示されない場合、デバイスはまだ新しいアップデートを受信していません。App Store または Play ストアでアプリのアップデートを確認してください。この機能は現在公開されているが、OpenAIは今後数週間以内にユーザーに展開すると述べた。

音声と対話し、画像プロンプトを与える機能により、生成 AI の先駆者がボットの戦いに戻ります。Bing AI と Bard はどちらも同様の機能を備えていますが、相互接続された包括的な方法でマルチモダリティを実装することはできませんでした。Bing AI は応答を読み上げることができず、Bard はまだスタンドアロンアプリを受け取っていません。巨人が少し遅れをとっているため、ChatGPT は自身とそのユーザーのために勢いをもぎ取ることを目指しています。

このガイドが、ChatGPT で新しい音声と画像のモダリティを使用する方法を理解するのに役立つことを願っています。次回まで！