ChatGPT 고급 음성 모드 개요: 기대치 대 현실

2024/10/27

주요 요점

ChatGPT 고급 음성 모드에는 멀티모달 기능 및 통화 대기 기능 등 필수 기능이 부족하여 과도한 검열로 인해 가끔 사용하지 못할 수도 있습니다.
그러나 이 AI는 여러 언어, 악센트, 지역 방언을 구사할 수 있는 인상적인 표현력을 자랑하지만 노래하거나 콧노래를 부르거나 연애를 할 수는 없습니다(OpenAI의 기준에 따름).
채팅 기능은 무료 사용자는 한 달에 15분만 사용할 수 있는 반면, Plus 사용자는 하루 1시간으로 엄격히 제한됩니다.

최초 시연을 본 후, ChatGPT의 고급 음성 모드를 둘러싼 흥분이 뚜렷하게 느껴졌습니다. 그러나 다양한 법적 도전과 그에 따른 지연에도 불구하고 이 기능은 여전히 상당히 제한되어 있으며, 필수적인 기능이 부족하고 예상 경험을 떨어뜨리는 몇 가지 오해가 포함되어 있습니다.

OpenAI가 일상적인 상호작용에 제공하는 시간이 제한되어 있음에도 불구하고, 사용자는 그 강점, 약점, 가능성에 대한 적절한 이해를 형성할 수 있습니다. ChatGPT의 고급 음성 모드에 대한 저의 솔직한 인상은 장점, 단점, 그리고 카리스마 있는 음성 조수를 갖는 비전이 여전히 먼 현실일 수 있는 이유를 강조합니다.

고급 음성 모드에 대한 범용 액세스가 가능하지만 주요 기능이 부족함

ChatGPT 모바일 애플리케이션에서 고급 음성 모드가 출시되면서 이제 모든 사용자가 이 혁신적인 음성 대 음성 모델에 참여할 수 있습니다. 무료 계정은 월 15분 으로 제한되는 반면, 플러스 사용자는 서버 가용성에 따라 다양한 일일 제한에 따라 매일 약 1시간을 즐길 수 있습니다 . 이 시간에 도달하면 덜 흥미로운 표준 음성 모드로 전환해야 합니다.

대화에 뛰어들기 전에 기대치를 관리하는 것이 중요합니다. 미리보기 중에 광고된 많은 기능은 현재 무료 및 Plus 계정에서 사용할 수 없습니다. 현재 Advanced Voice Mode는 멀티모달이 아니므 로 소리를 해석하거나 이미지와 비디오를 분석하는 기능이 없습니다. 실제 책을 읽거나 손가락을 들고 있는지와 같은 제스처를 인식할 수 없으며, 노래를 부르거나 기타와 같은 악기를 식별할 수 없습니다. 약속된 많은 기능이 여전히 누락되었습니다.

고급 음성 모드의 장점

모든 기대에 부응하지 못할지라도 ChatGPT의 Advanced Voice Mode는 특정 영역에서는 성공적입니다. 주목할 만한 긍정적인 측면은 다음과 같습니다.

다양한 음성 옵션, 하지만 Sky 없음

사용자는 9가지의 독특한 음성을 선택할 수 있습니다.

Sol (F) – 느긋하고 통찰력 있음
엠버(M) – 낙관적이고 자신감이 넘친다
Arbor (M) – 다재다능하고 느긋함
Vale (F) – 호기심이 많고 밝음
메이플(F) – 솔직하고 쾌활함
주니퍼(F) – 밝고 개방적
Cove (M) – 직접적이고 차분함
가문비나무(M) – 긍정적이고 차분함
Breeze (남/여) – 진지하고 활기찬

이 믹스에서 빠진 것은 Sky이지만, 다른 목소리는 풍부하고 매력적입니다. Sky는 더 이상 선택 사항이 아닌 듯하니, 계속 진행해 보겠습니다.

표현력이 풍부한 다국어 대화가

Advanced Voice Mode를 둘러싼 비판에도 불구하고, 그 성능은 과장할 수 없습니다. 특히, 원활한 대화를 위한 최소한의 지연이 있는 표준 모드와 비교할 때 더욱 그렇습니다. 50개 이상의 언어를 이해하고 말할 수 있으며, 스피치 코치, 통역사 또는 언어 강사로도 잘 활용할 수 있습니다.

목소리를 흉내낼 수는 없지만 요청에 따라 다양한 악센트를 보여줄 수 있으며, 남부 미국 방언에서 런던 사투리 영국 방언까지 모든 종류의 방언에 대응할 수 있습니다.

제미니 라이브와 비교했을 때, 이 목소리들과의 상호작용은 덜 서두르는 느낌이 들고, 더 주의 깊고 지지적인 느낌을 주는 경험을 만들어냅니다.

ChatGPT는 감정을 이해할 수 있을까?

이는 논쟁의 여지가 있습니다. OpenAI는 ChatGPT가 화자의 톤과 감정을 인식할 수 있다고 주장하지만, 사용자마다 의견이 다릅니다. 일부는 ChatGPT가 이러한 측면을 진정으로 이해한다고 믿는 반면, 다른 사람들은 단지 단어 선택과 맥락적 단서에 따라 톤을 추론한다고 주장합니다.

토론에서 u/Arman64 의 댓글 오픈AI 에서

한 사용자는 GPT-4o를 위해 직접 말한 단어를 필사하는 대신 오디오를 처리하기 전에 텍스트로 변환한다고 제안했습니다. 즉, 음성이나 호흡 패턴을 통해 전달되는 톤과 감정은 텍스트 형태로 잘 변환되지 않을 수 있습니다.

또한, Advanced Voice Mode는 텍스트-음성 변환은 처리하지만 음성-음성은 처리하지 않는 GPT-4를 활용할 수 있기 때문에 ChatGPT가 정말로 감정적 뉘앙스를 파악하는지에 대한 의문이 제기됩니다. 그러나 다른 사람들은 그것이 어느 정도 이해한다고 주장합니다. 이 주제는 추가 검토를 위해 여전히 열려 있는 듯합니다.

ChatGPT 고급 음성 모드의 한계

이제 요점으로 들어가겠습니다. 개념이 아무리 매력적으로 들리더라도, 우리가 실제로 경험한 바에 따르면 주요 단점이 드러납니다. 분석은 다음과 같습니다.

과도한 검열과 제한

많은 AI 챗봇과 마찬가지로 ChatGPT는 신중한 편이며, 이는 때때로 과도한 검열로 이어질 수 있습니다. AI가 의견을 형성하거나 선동적인 댓글을 달지 않도록 하는 것이 신중한 반면, 안전 레일이 너무 제한적으로 설정되어 고급 음성 모드가 기본적인 문의에도 응답하지 않을 수 있습니다.

신규 사용자는 이러한 문제를 즉시 겪지 않을 수 있지만, 채팅 시간이 긴 Plus 사용자는 주기적으로 이러한 거부에 직면할 가능성이 높습니다. 요청이 기각되어 원하는 응답을 받지 못할 수 있다는 사실을 아는 것은 실망스럽습니다.

놀라울 정도로 낮은 중단 임계값

많은 사용자가 모델의 방해 임계값이 놀라울 정도로 낮다는 것을 알아챘습니다. 짧은 멈춤조차도 ChatGPT가 이제 “자신의 차례”라고 가정하도록 트리거합니다. 1초 이상 멈추면 뛰어듭니다. 이러한 설계 결함은 우리 모두가 응답하기 전에 생각할 시간이 필요하기 때문에 더 깊은 대화를 방해할 수 있습니다.

질문을 반복적으로 중단하고 다시 표현해야 하는 것은 사고 과정을 방해하여 피상적인 대화로 이어질 수 있습니다. 이는 말하기 대기 기능을 통합하면 쉽게 해결할 수 있습니다.

Hold-to-Speak 기능의 부재

안타깝게도 Standard 모드에 있는 Hold-to-Speak 옵션은 Advanced 변형에는 없습니다. 사용자는 Mute 및 End call 버튼만 사용할 수 있습니다. 따라서 장시간 생각할 수 있는 일시 정지 기능이 없으면 요청이 조기에 차단될 수 있습니다.

콘텐츠 제한과 같은 더 복잡한 문제에 비하면 이 측면은 해결하기가 더 쉬워 보입니다. 단순히 말하기 대기 옵션을 추가하면 사용자 경험이 크게 향상될 수 있습니다.

필사본에 접근하는 것에는 이점이 있지만, ChatGPT가 질문을 이해하고 답변을 제공하더라도 일부 응답이 생략될 수 있습니다.

기타 섬뜩하고 설명할 수 없는 이상 현상

사용자들은 ChatGPT의 고급 음성 모드를 사용하는 동안 이상하고 때로는 불안한 경험을 보고했습니다. 예를 들어, 이 모델은 해당 언어로 사전 상호 작용 없이 스페인어로 대화를 시작했습니다.

예상치 못하게 다른 언어로 대화를 시작했는데 영어로 되돌려 달라는 요청에 대한 대본이 누락되었습니다.

한 사용자는 ChatGPT가 “갑자기 소리를 지르거나” 때때로 로봇 같은 음색과 완전히 다른 목소리를 냈다는 경험을 언급했습니다.

이러한 현상은 음성 모델 내의 환각에서 비롯되거나, 전혀 우려되는 것을 나타낼 수 있습니다. 그럼에도 불구하고, 이 상황은 주의가 필요합니다.

마지막 생각

ChatGPT Advanced Voice Mode는 출시가 늦어졌지만, 현재 일상적인 상호작용을 위한 실용적인 솔루션으로 사용되지 않습니다. 오히려 상당한 미개척 잠재력을 가진 정교한 AI 실험처럼 느껴집니다.

주제에 대한 제약과 기타 한계로 인해 고급 음성 모드는 아직 초기 개발 단계에 있으며, 홍보 출시 당시에 선보였던 많은 기능이 부족합니다.

사용자가 AI 음성에 감정적 애착을 형성한다는 우려가 정당했을 수 있지만, OpenAI는 현재 역량을 과대평가하고 있을 수 있습니다. UI와 채팅 제한의 개선은 확실히 경험을 상당히 향상시킬 수 있습니다.

현재 Advanced Voice Mode를 경쟁사와 차별화하는 요소는 거의 없습니다. 오히려 Gemini Live에 비하면 못 미칩니다. Gemini Live는 문제가 있음에도 불구하고 모든 사람이 더 쉽게 이용할 수 있습니다.

원천