Microsoft annonce quatre nouvelles voix de synthèse vocale IA à utiliser avec Azure OpenAI

2023/09/21

Microsoft a annoncé l’introduction de quatre nouvelles voix neuronales basées sur l’IA pour les applications de synthèse vocale (TTS), qui peuvent être utilisées dans Azure OpenAI GPT à partir d’aujourd’hui pour aider à créer des chatbots, des assistants vocaux ou des agents conversationnels basés sur la parole.

Les quatre voix, nommées en-US-AndrewNeural, en-US-BrianNeural, en-US-EmmaNeural (toutes en anglais américain) et zh-CH-YunjieNeural (chinois), sont « optimisées pour les scénarios conversationnels » et sont désormais disponibles. en avant-première publique dans trois régions : l’Est des États-Unis, l’Asie du Sud-Est et l’Europe de l’Ouest.

Microsoft a présenté quelques échantillons des nouvelles voix par rapport à d’autres voix neuronales actuellement disponibles pour présenter les améliorations apportées pour rendre le discours plus naturel et fluide.

Les voix elles-mêmes peuvent être intégrées dans des applications existantes en utilisant Azure OpenAI , en utilisant le SDK Azure Speech ou l’API REST, ainsi qu’en utilisant Azure Bot Framework pour développer des robots intelligents capables d’utiliser les nouvelles voix neuronales TTS.

Microsoft continue en disant ce qui suit :

«Nous avons commencé par créer le personnage de chaque voix comme s’il s’agissait d’une personne réelle, amicale et optimiste quant à la vie, toujours désireuse d’aider les autres et de partager des connaissances intrigantes ou pratiques. Le style de parole de la voix ressemble à une conversation avec une connaissance autour d’une tasse de thé, en conservant un ton naturel et non exagéré.

De plus, nous améliorons continuellement nos techniques de modélisation de synthèse vocale (TTS) pour améliorer la qualité de nos voix IA. Nos projets les plus récents, tels que DelightfulTTS 2 et MuLanTTS, ont considérablement réduit l’écart de qualité entre les voix IA et les enregistrements humains professionnels, produisant des voix plus naturelles et réalistes que jamais. Ces avancées technologiques constituent la base sur laquelle reposent ces nouvelles voix de l’IA.

Les quatre nouvelles voix s’ajouteront à l’offre existante de plus de 400 voix neuronales, qui couvrent plus de 140 langues et paramètres régionaux.

Laisser un commentaire Annuler la réponse