使用進階語音模式將即時視訊串流傳輸到 ChatGPT：逐步指南

2024/12/13

基本見解

ChatGPT 的高級語音模式已增強，包括「視覺」功能，使其能夠透過裝置的攝影機識別和理解您附近的情況。這項創新功能使 ChatGPT 能夠接收您觀點的即時視訊來源，以便立即分析。

這種多模式功能最初是在大約七個月前 OpenAI 推出高級語音模式期間展示的。以下是將即時視訊串流傳輸到 ChatGPT AVM 的步驟，從而實現即時語音和視訊通訊。

借助高級語音模式中的最新視訊功能，無需再拍攝影像或螢幕截圖；相反，您可以直接在應用程式中開啟相機並查詢 ChatGPT 有關幀中捕獲的內容。

步驟 1：在行動裝置上的 ChatGPT 應用程式中開啟進階語音模式。

步驟 2：啟動進階語音模式後，您會注意到左下角有一個獨特的視訊圖示。單擊它即可開始即時視訊串流。

步驟 3：允許應用程式存取您智慧型手機的相機。

步驟 4：將您想要顯示的主題放置在相機的取景框內，然後只需向 ChatGPT 詢問相關資訊即可。

步驟5： ChatGPT將根據其直接接收到的視覺資訊來回應您的查詢。您可以免持方便地保持對話。

步驟 6：如果您處於光線昏暗的區域，請點擊框架左下角的閃光燈圖示以使物體變亮。使用框架右下側的翻轉相機圖示可在前置相機和後置相機之間切換。

步驟 8：要停止視訊共享，只需再次按視訊圖標，您就會恢復到純語音對話。

步驟9：如前所述，一旦結束語音模式，您將收到對話記錄。

OpenAI 在其 12 天 OpenAI 活動的第 6 天推出了高級語音模式的視覺功能，由於大量更新和新工具（例如文字轉視訊生成器 Sora），該活動取得了巨大成功。密切關注人工智慧技術的進一步發展。