Microsoft、Azure OpenAI で使用する 4 つの新しい AI テキスト読み上げ音声を発表

2023/09/21

Microsoft は、Text-to-Speech (TTS) アプリケーション用の 4 つの新しい AI 駆動ニューラル音声の導入を発表しました。これは、今日から Azure OpenAI GPT で使用でき、音声ベースのチャットボット、音声アシスタント、または会話エージェントの作成に役立ちます。

en-US-AndrewNeural、en-US-BrianNeural、en-US-EmmaNeural (すべて米国英語)、および zh-CH-YunjieNeural (中国語) という名前の 4 つの音声は、「会話シナリオ用に最適化」されており、現在利用可能です。米国東部、東南アジア、西ヨーロッパの 3 つの地域でパブリックプレビューが可能です。

Microsoft は、音声をより自然で滑らかにすることで行われた改善を紹介するために、現在利用可能な他のニューラル音声と比較した新しい音声のサンプルをいくつか紹介しました。

音声自体は、Azure Speech SDK または REST API を使用して、 Azure OpenAIを利用する既存のアプリケーションに統合できます。また、Azure Bot Framework を使用して、新しいニューラル TTS 音声を使用できるインテリジェントボットを開発することもできます。

Microsoft はさらに次のように述べています。

「私たちは、あたかもフレンドリーで人生に対して楽観的で、常に他の人を支援し、興味深い知識や実践的な知識を共有することに熱心な実在の人物であるかのように、それぞれの声のペルソナを作り上げることから始めました。声の話し方は、知人とお茶を飲みながら会話するような感じで、自然で誇張のないトーンを保っています。」

さらに、AI 音声の品質を向上させるために、Text-to-Speech (TTS) モデリング技術を継続的に強化しています。DelightfulTTS 2 や MuLanTTS などの当社の最新プロジェクトは、AI の音声とプロの人間の録音との品質の差を大幅に縮め、これまでよりも自然でリアルな音声を生成します。これらの技術の進歩は、新しい AI 音声が構築される基盤として機能します。

4 つの新しい音声は、140 以上の言語とロケールをカバーする 400 以上のニューラル音声の既存製品と並行して提供されます。

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル