Microsoft kondigt vier nieuwe AI-tekst-naar-spraak-stemmen aan voor gebruik met Azure OpenAI

2023/09/21

Microsoft heeft de introductie aangekondigd van vier nieuwe AI-gestuurde neurale stemmen voor tekst-naar-spraak (TTS)-toepassingen, die vanaf vandaag kunnen worden gebruikt in Azure OpenAI GPT om spraakgebaseerde chatbots, stemassistenten of conversatieagenten te helpen creëren.

De vier stemmen, genaamd en-US-AndrewNeural, en-US-BrianNeural, en-US-EmmaNeural (allemaal in Amerikaans Engels) en zh-CH-YunjieNeural (Chinees), zijn “geoptimaliseerd voor gespreksscenario’s” en zijn nu beschikbaar voor openbare preview in drie regio’s: Oost-VS, Zuidoost-Azië en West-Europa.

Microsoft heeft enkele voorbeelden van de nieuwe stemmen getoond in vergelijking met andere neurale stemmen die momenteel beschikbaar zijn om de verbeteringen te demonstreren die zijn aangebracht om de spraak natuurlijker en vloeiender te maken.

De stemmen zelf kunnen worden geïntegreerd in bestaande toepassingen die gebruik maken van Azure OpenAI , door gebruik te maken van de Azure Speech SDK of REST API, en door het Azure Bot Framework te gebruiken om intelligente bots te ontwikkelen die in staat zijn de nieuwe neurale TTS-stemmen te gebruiken.

Microsoft zegt verder het volgende:

“We zijn begonnen met het vormgeven van de persoonlijkheid van elke stem alsof het een echte persoon is, vriendelijk en optimistisch over het leven, altijd bereid om anderen te helpen en intrigerende of praktische kennis te delen. De spreekstijl van de stem lijkt op een gesprek met een bekende bij een kopje thee, waarbij de natuurlijke en niet overdreven toon behouden blijft.”

Bovendien verbeteren we voortdurend onze Text-to-Speech (TTS)-modelleringstechnieken om de kwaliteit van onze AI-stemmen te verbeteren. Onze meest recente projecten, zoals DelightfulTTS 2 en MuLanTTS, hebben de kwaliteitskloof tussen AI-stemmen en professionele menselijke opnames aanzienlijk verkleind, waardoor natuurlijkere en realistischere stemmen zijn geproduceerd dan ooit tevoren. Deze technologische vooruitgang dient als de basis waarop deze nieuwe AI-stemmen zijn gebouwd.

De vier nieuwe stemmen zullen naast het bestaande aanbod van meer dan 400 neurale stemmen staan, die meer dan 140 talen en landinstellingen bestrijken.

Geef een reactie Reactie annuleren