ChatGPT에서 음성 및 이미지 프롬프트를 사용하는 방법

2023/09/27

알아야 할 사항

2023년 9월 27일부터 ChatGPT Plus 및 Enterprise 사용자는 이제 이미지 및 음성 안내를 통해 챗봇과 상호작용할 수 있을 뿐만 아니라 사람과 같은 음성으로 응답을 들을 수 있습니다.
프롬프트에 이미지를 입력하려면 메시지 필드 왼쪽에 있는 카메라 또는 갤러리 아이콘을 탭하고 이미지를 캡처하거나 선택하세요. 이미지에 그림을 그려 ChatGPT가 초점을 맞추는 위치를 지정할 수도 있습니다.
음성 모드 사용을 시작하려면 ChatGPT 설정 > 새로운 기능에서 음성 모드를 선택하세요.
오른쪽 상단에 있는 헤드폰 버튼을 탭하고 음성을 선택하여 음성 대화를 시작하세요.
ChatGPT를 사용하면 다섯 가지 사람의 목소리 중에서 선택할 수 있습니다.

출시된 지 거의 1년이 지난 OpenAI는 ChatGPT가 수행할 수 있는 기능뿐만 아니라 사용 방법도 향상시키기 위해 계속해서 기능을 추가하고 있습니다. 최근 업데이트를 통해 이제 ChatGPT에 대한 프롬프트로 음성 명령과 이미지를 제공하고 사람의 목소리로 답변을 큰 소리로 읽을 수 있어 기본적으로 사용자와 AI 챗봇 간의 대화가 원활해집니다.

새로운 ChatGPT 모드에 액세스하고 사용하는 방법과 우리 삶에 AI를 더 긴밀하게 통합하는 방법에 대해 알아야 할 모든 것이 있습니다.

ChatGPT는 음성 모드와 비전을 얻습니다.

ChatGPT 앱은 이미 녹음된 음성 안내를 텍스트로 번역할 수 있습니다. 그러나 직접적인 음성 대화 지원을 통해 이제 양쪽에서 텍스트를 전혀 사용하지 않고도 상호 작용이 가능해 플랫폼이 훨씬 더 유연해졌습니다.

음성 기능은 예상대로 작동합니다. 화면을 탭하고 말하기 시작합니다. 그러면 단어가 텍스트로 바뀌어 LLM으로 전송됩니다. 응답은 다시 음성으로 바뀌고, 마지막으로 선택한 음성으로 읽혀집니다.

OpenAI는 전문 배우들과 협력하여 다섯 가지 목소리를 전달하여 답변에 실제적인 느낌을 더하는 동시에 자연스럽게 대화를 자극합니다.

반면에 이미지 프롬프트(Image Prompt)는 이름에서 알 수 있듯이 카메라나 갤러리의 이미지를 추가하고 이에 대해 질문할 수 있는 기능입니다. 이는 고급 GPT 아키텍처 덕분에 더욱 안정적인 응답을 제공하지만 Google Lens와 같은 맥락입니다.

음성 명령으로 ChatGPT에 메시지를 보내는 방법

음성 모드는 새로운 대화 모드를 제공하지만 아직 모든 사람이 사용할 수 있는 것은 아닙니다. OpenAI는 현재 ChatGPT Plus 및 Enterprise 사용자에게만 독점적으로 출시하고 있습니다. 또한 데스크톱 버전이 아닌 iOS 및 Android용 ChatGPT 모바일 앱에서만 사용할 수 있습니다. 설정 > 새로운 기능에서 음성 모드를 선택할 수 있습니다.

음성 모드 사용을 시작하려면 홈 화면 오른쪽 상단에 있는 헤드폰 아이콘을 누르고 사용 가능한 5가지 옵션 중에서 음성을 선택하세요.

대화가 시작되면 마이크에 대고 말하세요.

말하기를 멈추는 즉시 음성 안내가 전송됩니다.

가운데를 탭하여 메시지를 수동으로 보낼 수도 있습니다.

녹음을 추가로 제어하려면 일시 중지 및 중지 버튼을 사용하세요.

이제 ChatGPT가 선택한 음성으로 응답을 전달합니다. 답변을 중단하려면 말하는 도중에 가운데를 탭하면 됩니다.

응답이 완료되면 다시 말하기를 시작하여 대화를 진행할 수 있습니다.

하단의 X를 눌러 채팅을 종료하세요.

이미지로 ChatGPT를 프롬프트하는 방법

다른 AI 챗봇이 이미 이를 실행하고 있다는 점을 고려하면, 이미지 프롬프트는 음성 모드와 함께 플랫폼에 도입하는 중요한 기능이 됩니다. 이 기능도 ChatGPT Plus 및 Enterprise 사용자에게만 제공됩니다. 하지만 다행스럽게도 데스크톱 버전에도 출시되고 있습니다.

시작하려면 왼쪽 하단에 있는 카메라 아이콘을 탭하세요.

이미지를 캡처하세요.

그리고 ‘확인’을 탭하세요.

메시지 필드에 이미지가 업로드됩니다. 함께 사용할 텍스트를 입력하고 보내기를 누르세요.

ChatGPT는 이미지와 텍스트 프롬프트를 스캔하고 그에 따라 응답합니다. 더 많은 시각적 참조를 요구할 수도 있습니다.

개체에 ChatGPT 초점을 요청하려면 이미지에 그림을 그립니다.

ChatGPT의 관심을 집중시키기 위해 이미지에 그림을 그릴 수도 있습니다.

카메라 외에도 갤러리나 폴더의 이미지를 추가하는 옵션도 있습니다. 추가 이미지 프롬프트 옵션을 표시하려면 ‘+’ 기호를 탭하세요.

그런 다음 다른 이미지 업로드 방법을 선택하세요.

사진을 선택하세요.

프롬프트에 여러 그림을 추가할 수 있습니다.

후속 이미지와 텍스트 쿼리를 통해 대화를 계속하세요. 또는 음성으로 전환하여 이미지와 함께 질문을 말해보세요.

ChatGPT의 음성 및 이미지 기능이 제공하는 광범위한 이점

자연스러운 인간 목소리의 구현 또는 이를 근접하게 재현하면 다양한 실제 가능성과 시나리오가 가능해집니다.

예를 들어, 음식 사진을 찍어 ChatGPT를 통해 칼로리 섭취량을 추정하거나, 선호하는 목소리로 취침 시간 이야기를 읽어주거나, 청각 학습을 공개하거나, DAN을 계획할 수 있습니다. 영화에서처럼(스파이크 존스의 그녀가 떠오른다) 관계를 시작할 수는 없지만 본질적으로 기능은 놀라울 정도로 가깝습니다.

인간과 같은 목소리를 지닌 AI를 갖는 것은 새로운 사용 사례의 문을 열어줄 뿐만 아니라 OpenAI가 Spotify 및 기타 서비스와 협력하여 자체 플랫폼을 위한 새로운 AI 기반 기능을 개발할 수 있게 해줍니다.

자주하는 질문

ChatGPT의 새로운 음성 및 이미지 기능에 대해 자주 묻는 몇 가지 질문을 고려해 보겠습니다.

ChatGPT에서 음성 모드 및 이미지 프롬프트를 활성화하는 방법은 무엇입니까?

ChatGPT에서 음성 및 이미지 모드 사용을 시작하려면 세 개의 수평선을 탭하고 설정 > 새로운 기능을 선택하세요. ChatGPT Plus 또는 Enterprise 요금제가 있고 GPT-4를 사용하고 있는지 확인하세요.

ChatGPT 설정에서 새로운 기능을 찾을 수 없는 이유는 무엇입니까?

‘새 기능’ 옵션이 표시되지 않으면 기기가 아직 새 업데이트를 받지 못한 것입니다. App Store 또는 Play Store에서 앱 업데이트를 확인하세요. OpenAI는 이 기능이 현재 활성화되어 있지만 앞으로 몇 주에 걸쳐 사용자에게 출시될 것이라고 밝혔습니다.

음성과 상호 작용하고 이미지 프롬프트를 제공하는 기능은 생성 AI의 선구자들을 봇 전투에서 다시 불러옵니다. Bing AI와 Bard는 모두 유사한 기능을 가지고 있지만 상호 연결되고 포괄적인 방식으로 다중 모드를 구현할 수는 없었습니다. Bing AI는 응답을 소리내어 읽을 수 없으며 Bard는 아직 독립형 앱을 받지 못했습니다. 거대 기업이 약간 뒤쳐지면서 ChatGPT는 자체와 사용자를 위해 추진력을 얻으려고 할 것입니다.

이 가이드가 ChatGPT에서 새로운 음성 및 이미지 형식을 사용하는 방법을 이해하는 데 도움이 되기를 바랍니다. 다음 시간까지!