Microsoft anuncia quatro novas vozes de conversão de texto em fala de IA para uso com Azure OpenAI
A Microsoft anunciou a introdução de quatro novas vozes neurais orientadas por IA para aplicativos de conversão de texto em fala (TTS), que podem ser usadas no Azure OpenAI GPT a partir de hoje para ajudar a criar chatbots, assistentes de voz ou agentes de conversação baseados em fala.
As quatro vozes, denominadas en-US-AndrewNeural, en-US-BrianNeural, en-US-EmmaNeural (todas em inglês dos EUA) e zh-CH-YunjieNeural (chinês), são “otimizadas para cenários de conversação” e agora estão disponíveis para visualização pública em três regiões, Leste dos EUA, Sudeste Asiático e Europa Ocidental.
A Microsoft apresentou algumas amostras das novas vozes em comparação com outras vozes neurais que estão atualmente disponíveis para mostrar as melhorias que foram feitas para tornar a fala mais natural e fluida.
As próprias vozes podem ser integradas em aplicativos existentes fazendo uso do Azure OpenAI , usando o Azure Speech SDK ou REST API, bem como empregando o Azure Bot Framework para desenvolver bots inteligentes capazes de usar as novas vozes neurais TTS.
A Microsoft continua dizendo o seguinte:
“Começamos elaborando a persona de cada voz como se fosse uma pessoa real, amigável e otimista em relação à vida, sempre disposta a ajudar os outros e compartilhar conhecimentos intrigantes ou práticos. O estilo de falar da voz lembra uma conversa com um conhecido tomando uma xícara de chá, mantendo um tom natural e não exagerado.”
Além disso, aprimoramos continuamente nossas técnicas de modelagem Text-to-Speech (TTS) para melhorar a qualidade de nossas vozes de IA. Nossos projetos mais recentes, como DelightfulTTS 2 e MuLanTTS, reduziram significativamente a lacuna de qualidade entre as vozes de IA e as gravações humanas profissionais, produzindo vozes mais naturais e realistas do que nunca. Esses avanços tecnológicos servem como base sobre a qual essas novas vozes de IA são construídas.
As quatro novas vozes acompanharão a oferta existente de mais de 400 vozes neurais, que abrangem mais de 140 idiomas e localidades.
Deixe um comentário