Microsoft, Azure OpenAI에서 사용할 수 있는 4가지 새로운 AI 텍스트 음성 변환 발표
Microsoft는 오늘부터 Azure OpenAI GPT에서 음성 기반 챗봇, 음성 도우미 또는 대화 에이전트를 만드는 데 사용할 수 있는 TTS(텍스트 음성 변환) 애플리케이션을 위한 4개의 새로운 AI 기반 신경 음성을 도입했다고 발표했습니다 .
en-US-AndrewNeural, en-US-BrianNeural, en-US-EmmaNeural(모두 미국 영어) 및 zh-CH-YunjieNeural(중국어)이라는 네 가지 음성은 “대화 시나리오에 최적화”되었으며 이제 사용할 수 있습니다. 미국 동부, 동남아시아 및 서유럽의 3개 지역에서 공개 미리 보기를 제공합니다.
Microsoft는 현재 사용 가능한 다른 신경망 음성과 비교하여 음성을 보다 자연스럽고 유동적으로 만드는 개선 사항을 보여주기 위해 새로운 음성의 일부 샘플을 선보였습니다 .
Azure Speech SDK 또는 REST API를 사용하고 Azure Bot Framework를 사용하여 새로운 신경 TTS 음성을 사용할 수 있는 지능형 봇을 개발함으로써 Azure OpenAI를 사용하는 기존 애플리케이션에 음성 자체를 통합할 수 있습니다 .
Microsoft는 계속해서 다음과 같이 말합니다.
“우리는 각 목소리의 페르소나를 마치 삶에 대해 친절하고 낙관적이며 항상 다른 사람을 돕고 흥미롭거나 실용적인 지식을 공유하기를 열망하는 실제 사람인 것처럼 만드는 것부터 시작했습니다. 목소리의 말하는 스타일은 마치 지인과 차 한잔 마시며 대화하는 듯한 느낌을 주면서 자연스럽고 과장되지 않은 톤을 유지하고 있다”고 설명했다.
또한 AI 음성 품질을 향상시키기 위해 TTS(텍스트 음성 변환) 모델링 기술을 지속적으로 향상하고 있습니다. DelightfulTTS 2 및 MuLanTTS와 같은 최신 프로젝트는 AI 음성과 전문적인 인간 녹음 간의 품질 격차를 크게 줄여 이전보다 더 자연스럽고 사실적인 음성을 생성했습니다. 이러한 기술 발전은 새로운 AI 목소리가 구축되는 기반이 됩니다.
4개의 새로운 음성은 140개 이상의 언어와 지역을 포괄하는 400개 이상의 신경 음성을 제공하는 기존 제품과 함께 제공됩니다.
답글 남기기