Microsoft annuncia quattro nuove voci di sintesi vocale AI da utilizzare con Azure OpenAI

Microsoft annuncia quattro nuove voci di sintesi vocale AI da utilizzare con Azure OpenAI

Microsoft ha annunciato l’introduzione di quattro nuove voci neurali guidate dall’intelligenza artificiale per applicazioni di sintesi vocale (TTS), che possono essere utilizzate in Azure OpenAI GPT a partire da oggi per contribuire a creare chatbot vocali, assistenti vocali o agenti conversazionali.

Le quattro voci, denominate en-US-AndrewNeural, en-US-BrianNeural, en-US-EmmaNeural (tutte in inglese americano) e zh-CH-YunjieNeural (cinese), sono “ottimizzate per scenari di conversazione” e sono ora disponibili per l’anteprima pubblica in tre regioni, Stati Uniti orientali, Asia sudorientale ed Europa occidentale.

Microsoft ha presentato alcuni esempi delle nuove voci confrontandole con altre voci neurali attualmente disponibili per mostrare i miglioramenti apportati per rendere il parlato più naturale e fluido.

Le voci stesse possono essere integrate nelle applicazioni esistenti che utilizzano Azure OpenAI , utilizzando Azure Speech SDK o l’API REST, nonché impiegando Azure Bot Framework per sviluppare bot intelligenti in grado di utilizzare le nuove voci TTS neurali.

Microsoft prosegue affermando quanto segue:

“Abbiamo iniziato creando la personalità di ogni voce come se fosse una persona reale, amichevole e ottimista riguardo alla vita, sempre desiderosa di assistere gli altri e condividere conoscenze intriganti o pratiche. Lo stile della voce ricorda una conversazione con un conoscente davanti a una tazza di tè, mantenendo un tono naturale e non esagerato.”

Inoltre, miglioriamo continuamente le nostre tecniche di modellazione Text-to-Speech (TTS) per migliorare la qualità delle nostre voci AI. I nostri progetti più recenti, come DelightfulTTS 2 e MuLanTTS, hanno ridotto significativamente il divario qualitativo tra le voci AI e le registrazioni umane professionali, producendo voci più naturali e realistiche che mai. Questi progressi tecnologici fungono da base su cui sono costruite queste nuove voci di intelligenza artificiale.

Le quattro nuove voci si affiancheranno all’offerta esistente di oltre 400 voci neurali, che coprono più di 140 lingue e località.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *