Microsoft kündigt vier neue KI-Text-to-Speech-Stimmen zur Verwendung mit Azure OpenAI an

2023/09/21

Microsoft hat die Einführung von vier neuen KI-gesteuerten neuronalen Stimmen für Text-to-Speech (TTS)-Anwendungen angekündigt, die ab heute in Azure OpenAI GPT verwendet werden können, um bei der Erstellung sprachbasierter Chatbots, Sprachassistenten oder Konversationsagenten zu helfen.

Die vier Stimmen mit den Namen en-US-AndrewNeural, en-US-BrianNeural, en-US-EmmaNeural (alle in US-Englisch) und zh-CH-YunjieNeural (Chinesisch) sind „für Konversationsszenarien optimiert“ und jetzt verfügbar Zur öffentlichen Vorschau in drei Regionen: Ost-USA, Südostasien und Westeuropa.

Microsoft hat einige Beispiele der neuen Stimmen im Vergleich zu anderen derzeit verfügbaren neuronalen Stimmen vorgestellt, um die Verbesserungen zu veranschaulichen, die durch die natürlichere und flüssigere Gestaltung der Sprache erzielt wurden.

Die Stimmen selbst können unter Verwendung von Azure OpenAI in bestehende Anwendungen integriert werden, indem das Azure Speech SDK oder die REST-API verwendet wird und das Azure Bot Framework verwendet wird, um intelligente Bots zu entwickeln, die in der Lage sind, die neuen neuronalen TTS-Stimmen zu verwenden.

Microsoft sagt weiter Folgendes:

„Wir begannen damit, die Persönlichkeit jeder Stimme so zu gestalten, als wäre sie eine echte Person, die freundlich und optimistisch im Leben ist und immer bereit ist, anderen zu helfen und faszinierendes oder praktisches Wissen zu teilen. Der Sprechstil der Stimme ähnelt einem Gespräch mit einem Bekannten bei einer Tasse Tee und behält dabei einen natürlichen und nicht übertriebenen Ton bei.“

Darüber hinaus verbessern wir kontinuierlich unsere Text-to-Speech (TTS)-Modellierungstechniken, um die Qualität unserer KI-Stimmen zu verbessern. Unsere jüngsten Projekte wie DelightfulTTS 2 und MuLanTTS haben die Qualitätslücke zwischen KI-Stimmen und professionellen menschlichen Aufnahmen erheblich verringert und natürlichere und realistischere Stimmen als je zuvor erzeugt. Diese technologischen Fortschritte dienen als Grundlage für den Aufbau dieser neuen KI-Stimmen.

Die vier neuen Stimmen werden das bestehende Angebot von über 400 neuronalen Stimmen ergänzen, die mehr als 140 Sprachen und Regionen abdecken.

Schreibe einen Kommentar Antworten abbrechen