Logo Computerhoy.com

Así puedes clonar cualquier voz con tan solo 3 segundos de audio

- Actualizado:
Voz

Veamos como la IA puede seguir sorprendiendo, ya que ahora es capaz de clonar nuestra voz en muy poco tiempo. Te lo vamos a contar.

Actualmente existen dos formas fiables de clonar nuestra voz, una la que promete Microsoft y otra la que ofrece ElevenLabs.

El problema es que una de ellas ofrece un sistema clonado o imitación de personas, pero aún no es posible probarlo, aunque sí que podemos disfrutar de escuchar varios ejemplos, mientras que la otra sí que nos va a permitir utilizarla.

Sea como sea, está claro que la Inteligencia Artificial está experimentando un auge, no solo a grandes rasgos, sino que también se ve en cosas tan "simples" como la imitación de nuestras y otras voces, englobando a empresas tan grandes es como puede Microsoft.

Veamos los dos ejemplos de los que os estamos hablando, para saber cómo son y qué tan diferentes se ven.

VALL-E

Desde Microsoft están trabajando en un modelo de texto a voz (TTS) que puede imitar la voz de una persona, incluyendo su emoción y entonación, después de solo tres segundos de entrenamiento.

Esta tecnología la han denominado VALL-E y la hemos conocido gracias a un escrito de 15 páginas publicado hace unos meses en arXiv.

Los de Redmond, ya estaban utilizando desde antes de este proyecto la IA a través de Nuance, una empresa que compraron por 20 millones de dólares en 2022, con la cual están experimentando también con la voz y el TTS.

Además, también utilizan tecnología de la startup OpenAI, incluida su herramienta ChatGPT, para implementarla en su motor de Bing y su conjunto de aplicaciones de Office.

Lo que concluyen todos estos proyectos y experimentos es que ha mejorado mucho la percepción de la voz humana, puesto que ya no parecen robots como antiguamente, pero aún le queda un camino por recorrer para asemejarse al cien por cien a lo que son las voces humanas.

VALL-E es una tecnología que desgraciadamente no podemos probar, pero que sí que tenemos un buen número de demostraciones en GitHub.

ElevenLabs

Desde hace unas semanas podemos entrar en ElevenLabs y experimentar con un sistema que demuestra lo que se ha avanzado en las tecnologías para clonar la voz sirviéndose de la Inteligencia Artificial.

En este caso la compañía "saca pecho" con respecto al procesamiento de lo clips de audio que son capaces de generar.

En un principio no hay restricciones para probar el sistema, ni tampoco cortes por utilizarlo con comentarios poco apropiados, pero sí que es cierto que la empresa ha declarado que ha observado " un número creciente de casos de uso indebido de clonación de voz" por lo que se reservan tomar medidas.

Lo más importante de ElevenLabs es que se puede probar, por lo que resulta sumamente interesante.

Hay que advertir que, para funcionar con este sistema, debemos darnos de alta en la versión primera de pago (5 dólares al mes) que ofrece un primer mes gratuito, haciendo que podamos darnos de baja antes de cumpla para no pagar nada si el sistema no nos ha convencido.

Para ello vamos a realizar lo siguiente:

  • Lo primero es registrarse en la web de ElevenLabs, pulsando en Sign Up. Lo podremos hacer mediante un email o utilizando Google, además de Facebook.
  • Después veremos como existen distintos planes, desde uno gratuito, en el cual no funciona el clonado de voz, pasando por el Startet por 5 euros al mes, hasta llegar a uno para negocios que sobrepasa los 300 dólares mensuales.
  • Como ya te comentamos antes debemos suscribirnos en el plan Started que tiene un mes gratis para probar el clonado de voz.
  • Ahora pulsamos en Voice Lab y en el desplegable lo hacemos en Voice Cloning.
  • Es el momento de comenzar con nuestra primera voz pulsando en Add Instant Voice.
  • Podremos subir a la plataforma un audio con una grabación de voz (debe durar más de 1 minuto). 
Eleven Labs Voice Cloning
  • Después de cargar el archivo MP3 con la voz pulsamos Add Voice, poniendo antes un nombre para dicha voz en Name.
  • Ahora veremos como la voz aparece en la parte de abajo cargada.
  • En ese momento pulsamos en Edit y nos llevará a otra ventana donde debemos escribir el texto que queramos que reproduzca el sistema. 
  • Hemos de advertiros que, por ahora, está optimizado para el acento inglés estadounidense, por lo que puede darse el caso de que reconozcas tu voz a medias.
  • Evidentemente si estás acostumbrado a oírte en inglés puede probar a escribir el texto en la lengua de Shakespeare, sino te vas a oír como si hubieras nacido en la patria de las hamburguesas McDonald's.
ElevenLabs

Es una buena forma de tener nuestra voz clonada y que consigue decir lo que queramos.

Puedes contarnos que te han parecido los dos sistemas más punteros en cuanto a clonar voz por medio de la IA en nuestras redes sociales. Nos gustaría conocer tu opinión.

Descubre más sobre , autor/a de este artículo.

Conoce cómo trabajamos en Computerhoy.