Skip to main content

DeepMind revoluciona la voz sintética con WaveNet

DeepMind revoluciona la voz sintética con WaveNet

12/09/2016 - 09:33

DeepMind, propiedad de Google desde el 2014, ha presentado un nuevo software de voz sintética y lectura virtual que supera a los actuales sistemas TTS.

Si eres un usuario habitual de YouTube y de otros servicios de Internet, probablemente te habrás cruzado alguna vez con alguna voz sintética generada por ordenador. Más allá de Loquendo, este tipo de software de lectura ha evolucionado notablemente en los últimos años con la popularización de asistentes virtuales como Cortana o Siri. Ahora, Google ha presentado un nuevo y sofisticado programa de síntesis de voz conocido como WaveNet.

Los ingenieros de DeepMind, una compañía de inteligencia artificial adquirida por Google en el año 2014, han desarrollado un software de voz sintética basado en la inteligencia artificial que funciona como un complejo sistema neuronal. Este tipo de voces han formado parte del ecosistema de Google desde hace años, como en Google Search, pero conseguir más realismo y naturalidad ha supuesto todo un reto.

Hasta ahora, el principal método de lectura virtual pasaba por la concatenación TTS (texto a voz). Este sistema combina distintos fragmentos grabados para construir palabras y oraciones. El principal inconveniente del TTS es que estos fragmentos no se pueden modificar, lo que produce un resultado robótico y artificial. Otra alternativa ha sido el TTS paramétrico, un método que envía el texto a un codificador de voz y que es, si cabe, todavía menos natural.

¿Qué es Inteligencia Artificial?

WaveNet de DeepMind es completamente diferente. En lugar de limitarse a combinar y reproducir un audio, integra un sistema de inteligencia artificial que es capaz de aprender y adaptarse al contexto. Funciona a 16.000 muestras por segundo y puede generar sus propias secuencias de audio sin intervención humana. Además, recurre a la estadística para predecir lo que tendrá que decir después.

Oficinas de Deepmind de Google

En la página web de WaveNet se pueden escuchar varias muestras en inglés y en chino mandarín. El sistema también puede sintetizar pistas de música porque es capaz de rastrear cualquier patrón acústico, pero lo más novedoso es que puede generar voz sintética sin un texto base.

Los mejores chatbots de Internet

WaveNet es más que una sucesión de fonemas, estas voces sintéticas incluso integran los sonidos del movimiento de la boca y de la respiración humana. Esto nos da una idea del potencial de este software y del gran realismo de las voces generadas por ordenador que llegarán en un futuro próximo. 

[Fuente: sciencealert, deepmind]

Ver ahora: