ChatGPT 進階語音模式概述:期望與現實

ChatGPT 進階語音模式概述:期望與現實

重點

  • ChatGPT 進階語音模式缺乏幾個基本功能,包括多模式功能和維持通話功能,有時會因過度審查而無法使用。
  • 然而,它擁有令人印象深刻的表現力,能夠說多種語言、口音和地方方言,儘管它無法唱歌、哼歌或調情(根據 OpenAI 的規定)。
  • 免費用戶每月只能使用聊天功能 15 分鐘,而 Plus 用戶則受到每日 1 小時的嚴格限制。

在目睹了最初的演示後,人們對 ChatGPT 高級語音模式的興奮之情溢於言表。然而,在面臨各種法律挑戰和隨後的延誤之後,該功能仍然受到很大限制,缺乏基本功能,並且包含一些有損預期體驗的誤解。

儘管 OpenAI 提供的日常互動時間有限,但使用者可以對其優點、缺點和可能性有一個很好的了解。以下是我對 ChatGPT 高級語音模式的坦率印象,重點介紹了它的優點、缺點,以及為什麼擁有魅力語音助理的願景可能仍然是一個遙遠的現實。

普遍使用進階語音模式,但缺乏關鍵功能

ChatGPT 行動應用程式上推出的高級語音模式現在允許所有用戶參與這種創新的語音到語音模型。免費帳戶每月的使用時間限制為15 分鐘,而Plus 用戶每天可以享受約1 小時,但每日限制會根據伺服器的可用性而有所不同。一旦達到這個時間,就必須轉換到不太令人興奮的標準語音模式。

在開始對話之前,管理您的期望至關重要。目前,免費帳戶和 Plus 帳戶都無法使用預覽期間宣傳的許多功能。目前,高級語音模式還不是多模態的,缺乏解釋聲音或分析影像和視訊的能力。它無法閱讀實體書籍或識別手勢(例如您是否舉起手指),也無法唱歌或識別吉他等樂器。許多承諾的功能仍然缺失。

高級語音模式的優點

儘管 ChatGPT 的高級語音模式可能無法滿足所有期望,但它在某些領域確實取得了成功。以下是一些值得注意的正面面向:

多種語音選項,但沒有天空

使用者可以選擇九種不同的聲音:

  • Sol (F) – 輕鬆而精明
  • Ember (M) – 樂觀、自信
  • Arbor (M) – 多才多藝且隨和
  • Vale (F) – 好奇又聰明
  • 楓 (F) – 坦率、開朗
  • 杜松 (F) – 樂觀、開放
  • Cove (M) – 直接且沉著
  • 雲杉 (M) – 肯定和冷靜
  • Breeze (男/女) – 認真活潑

這個混音中缺少了 Sky,但其他聲音被證明是豐富且迷人的。看來天空不再是選擇,所以讓我們繼續吧。

善於表達的多語言健談者

儘管對高級語音模式有任何批評,但它的性能無論如何強調都不為過,尤其是與標準模式相比,在標準模式下,流暢對話的延遲最小。它能夠理解和講 50 多種語言,甚至可以充當演講教練、翻譯員或語言講師。

雖然它可能無法模仿聲音,但它可以根據要求表現出各種口音,迎合從美國南部到英國倫敦語以及介於兩者之間的各種方言。

與 Gemini Live 相比,與這些聲音的互動感覺不那麼匆忙,創造了一種更專注和支持的體驗。

ChatGPT 理解情緒嗎?

這是有待爭論的。雖然 OpenAI 聲稱 ChatGPT 可以感知說話者的語氣和情緒,但使用者之間的看法各不相同。有些人認為它真正理解了這些方面,而另一些人則認為它只是根據單字選擇和上下文線索推斷出語氣。

u/Arman64在討論中的評論在開放人工智慧

一位用戶建議,不要直接轉錄 GPT-4o 的口語單詞,而是在處理之前將音訊轉換為文字。這意味著透過聲音或呼吸模式傳達的語氣和情感可能無法很好地轉化為文字形式。

此外,由於高級語音模式可以利用 GPT-4(處理文字轉語音,但不處理語音到語音),這讓人懷疑 ChatGPT 是否真正掌握了情緒的細微差別。然而,其他人堅持認為它確實表現出了一些理解。看來這個主題仍有待進一步研究。

ChatGPT 高階語音模式的局限性

現在,讓我們切入正題。不管這個概念聽起來多麼吸引人,我們的實際經驗揭示了它的主要缺點。這是一個細分。

過度的審查和限制

與許多人工智慧聊天機器人一樣,ChatGPT 往往過於謹慎,有時可能會導致過度審查。雖然謹慎的做法是不允許人工智慧形成意見或發表煽動性評論,但安全欄的設定非常嚴格,以至於高級語音模式可能會拒絕解決甚至基本的詢問。

雖然新用戶可能不會立即遇到這些問題,但聊天時間較長的 Plus 用戶可能會定期面臨此類拒絕。得知您的請求可能會被駁回,導致您得不到預期的答复,這令人沮喪。

極低的中斷閾值

許多用戶注意到該模型的中斷閾值低得驚人。即使是短暫的暫停也會觸發 ChatGPT 認為現在「輪到」回應了。如果你停頓超過一秒鐘,它就會跳進來。

反覆打斷和重新表達你的問題可能會擾亂你的思考過程,導致對話變得膚淺。透過結合保持通話功能可以輕鬆解決這個問題。

缺乏維持通話功能

遺憾的是,進階模式中沒有標準模式中的保留通話選項。用戶只能使用「靜音」和「結束通話」按鈕。因此,如果沒有能力停下來進行長時間的思考,您的請求可能會被過早切斷。

與內容限制等更複雜的問題相比,這方面似乎更容易解決。只需添加保持通話選項即可顯著增強用戶體驗。

訪問文字記錄有其好處,但即使 ChatGPT 理解了問題並提供了答案,一些回應也可能會被省略。

其他令人毛骨悚然且無法解釋的異常現象

用戶在使用 ChatGPT 的高級語音模式時報告了奇怪且有時令人不安的體驗。例如,該模型已用西班牙語發起對話,而之前沒有任何該語言的交互。

意外地以不同的語言開始對話,並遺失了恢復英語的請求的文字記錄。

一位用戶提到 ChatGPT「突然尖叫」或有時顯示出機械音和完全不同的聲音的經歷。

這些事件可能源自於語音模型中的幻覺,或是顯示一些完全令人擔憂的事情。無論如何,這種情況需要引起注意。

最後的想法

儘管遲到了,ChatGPT 高級語音模式目前還不能作為日常互動的實用解決方案。相反,它感覺更像是一個精心設計的人工智慧實驗,具有巨大的未開發潛力。

由於主題和其他限制,高級語音模式仍處於初步開發階段,缺乏宣傳期間展示的許多功能。

雖然對使用者對人工智慧聲音產生情感依戀的擔憂可能是合理的,但 OpenAI 可能高估了當前的能力。使用者介面和聊天限制的改進無疑可以顯著增強體驗。

目前,高級語音模式與競爭對手相比幾乎沒有什麼區別。如果有什麼不同的話,那就是它與 Gemini Live 相比有所不足,儘管 Gemini Live 存在問題,但仍然更容易為每個人所接受。

來源

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *