如何在 ChatGPT 中使用語音和影像提示

2023/09/27

要知道什麼

自 2023 年 9 月 27 日起，ChatGPT Plus 和 Enterprise 用戶現在可以透過影像和語音提示與聊天機器人進行交互，並聽到其以類人聲音的回應。
若要將影像輸入到提示中，請點選訊息欄位左側的相機或圖庫圖標，然後擷取或選取影像。您也可以在影像上繪圖來指定 ChatGPT 的焦點位置。
若要開始使用語音模式，請從 ChatGPT 設定 > 新功能中選擇語音模式。
點擊右上角的耳機按鈕並選擇語音即可開始語音對話。
ChatGPT 讓您可以從五種不同的人類聲音中進行選擇。

自推出近一年以來，OpenAI 不斷添加功能，不僅增強 ChatGPT 的功能，還增強您的使用方式。最近的更新現在允許您向 ChatGPT 提供語音命令和圖像作為提示，並以人聲大聲朗讀您的答案，從本質上促進您和 AI 聊天機器人之間的來回對話。

以下是您需要了解的有關如何存取和使用這些新的 ChatGPT 模式以及它們如何推動人工智慧更緊密地融入我們生活的所有資訊。

ChatGPT 獲得語音模式和視覺

ChatGPT 應用程式已經可以將錄製的語音提示翻譯為文字。但現在對直接語音對話的支持允許雙方進行交互，而無需涉及任何一方的文本，從而使該平台更加靈活。

語音功能正如人們所期望的那樣工作——你點擊螢幕並開始說話。然後將單字轉換為文字並發送給法學碩士。回應將轉回語音，最後以您選擇的聲音朗讀。

OpenAI 與專業演員合作，提供五種不同的聲音，為答案增添真實感，同時自然地激發對話。

另一方面，圖像提示，顧名思義，可以讓您添加相機或圖庫中的圖像並提出有關它們的問題。這與 Google Lens 是一脈相承的，儘管由於先進的 GPT 架構，回應更可靠。

如何透過語音指令提示 ChatGPT

語音模式開啟了新的對話模式，但目前還不是每個人都可以使用。OpenAI 目前專門向 ChatGPT Plus 和企業用戶推出它們。它也僅在適用於 iOS 和 Android 的 ChatGPT 行動應用程式上可用，而在桌面版本上不可用。您可以從“設定”>“新功能”選擇進入語音模式。

要開始使用語音模式，請點擊主畫面右上角的耳機圖標，然後從五個可用選項中選擇一種語音。

對話開始後，開始對著麥克風講話。

當您停止說話時，將立即發送語音提示。

您也可以點擊中間的手動發送提示。

使用暫停和停止按鈕進一步控制錄音。

ChatGPT 現在將以您選擇的聲音提供回應。要打斷回答，只需在說話時點擊中間即可。

回覆完成後，您可以再次開始講話並繼續對話。

點擊底部的 X 結束聊天。

如何用影像提示 ChatGPT

考慮到其他人工智慧聊天機器人已經啟動並運行了此功能，影像提示成為與語音模式一起引入平台的重要功能。它也專門供 ChatGPT Plus 和 Enterprise 用戶使用。但幸運的是，它也正在推出桌面版本。

點擊左下角的相機圖示即可開始。

捕捉影像。

然後點選“確認”。

圖像將上傳到訊息欄位中。輸入您的文字並點擊發送。

ChatGPT 將掃描圖像和文字提示並做出相應回應。它甚至可能會提示您提供更多視覺參考。

在影像上繪製以要求 ChatGPT 聚焦於某個對象

您也可以在圖像上繪圖以吸引 ChatGPT 的注意。

除了相機之外，您還可以選擇從圖庫或資料夾中新增影像。點選“+”號可顯示其他圖像提示選項。

然後選擇其他上傳圖片的方式。

選擇一張圖片。

您可以將多張圖片新增至提示。

透過後續圖像和文字查詢繼續您的對話。或切換到語音並說出您的問題以配合圖像。

ChatGPT 語音和影像功能的深遠優勢

自然人類聲音的實現——或它們的近似再現——可以允許現實世界中的許多可能性和場景。

例如，您可以為食物拍照，讓 ChatGPT 估算您的卡路里攝取量，讓它以您喜歡的聲音之一給您讀睡前故事，開放聽覺學習，或用它來計劃 DAN。雖然它不會讓你像電影中那樣開始與它建立關係（我想到了斯派克瓊斯的《她》），但該功能本質上與它非常接近。

擁有類似人類聲音的人工智慧不僅為新的用例打開了大門，而且還允許 OpenAI 與 Spotify 等服務合作，為自己的平台開發新的基於人工智慧的功能。

常問問題

讓我們考慮一些有關 ChatGPT 上的新語音和圖像功能的常見問題。

如何在 ChatGPT 中啟用語音模式和影像提示？

若要開始在 ChatGPT 中使用語音和影像模式，請點選三條水平線，然後選擇「設定」>「新功能」。確保您有 ChatGPT Plus 或 Enterprise 計劃並且正在使用 GPT-4。

為什麼我在 ChatGPT 設定中找不到新功能？

如果您沒有看到「新功能」選項，則表示您的裝置尚未收到新更新。在 App Store 或 Play Store 上檢查應用程式的更新。儘管該功能已經上線，但 OpenAI 表示將在未來幾週內向用戶推出。

語音互動和圖像提示的能力讓生成式人工智慧的先驅們重新回到了機器人之戰中。儘管 Bing AI 和 Bard 都有相似的功能，但它們尚未能夠以任何互連、全面的方式實現多模態。Bing AI 無法大聲朗讀其回复，巴德尚未收到獨立的應用程式。由於巨頭們稍顯落後，ChatGPT 將尋求為自己及其用戶贏得動力。

我們希望本指南有助於了解如何在 ChatGPT 上使用新的語音和影像模式。直到下一次！

Author: Egor Kostenko

我的目標是讓複雜的技術主題變得簡單易懂。在本網站中，我收集了獨特且實用的內容，不僅能解決用戶的問題，還能幫助他們更好地了解 Windows 的功能。