Logo Computerhoy.com

Como crear subtítulos de cualquier anime, película o vídeo usando Whisper, la IA de OpenAI

Ya es posible convertir voz en texto gracias Whisper, una IA de Open AI que funciona en local, sin acceder a la nube.

Como crear subtítulos de cualquier anime, película o vídeo usando Whisper, la IA de OpenAI

Computer Hoy

Foto del redactor Juan Antonio Pascual Estapé

Redactor Colaborador

Decía Elon Musk hace unos años que sus hijos no aprendían idiomas porque una IA se encargaría de todo. Por supuesto, es una idea completamente equivocada en muchos aspectos, pero sí tenía razón en una cosa: ya podemos usar la IA para cosas impensables hace unos años, como subtitular un vídeo en cualquier idioma.

En este tutorial te enseñamos a convertir voz en texto usando una inteligencia artificial generativa, Whisper de OpenAI, y después a traducir esos subtítulos al idioma que tú quieras con otra IA, la de DeepL Translator. Es un proceso muy sencillo, con ayuda de una aplicación gratuita llamada Subtitle Edit.

Mucha gente usa este sistema para subtitular anime que no se emite en España, vídeos de YouTube o TikTok en otros idiomas, etc.

Cómo subtitular películas y vídeos con una IA

Hoy en día existen muchas IA para convertir voz a texto, pero una de las populares es Whisper de OpenAI, porque es gratuita, hace bien su trabajo, y funciona en local. Es decir, no accede a la nube para traducir, así que es más privada.

Debes tener en cuenta que esta traducción no va a ser perfecta. En primer lugar, depende mucho del audio. Si hay mucho ruido de fondo en el vídeo, efectos de sonido, música, o muchas personas hablando al mismo tiempo, la IA no entenderá algunos diálogos. Funciona mejor con diálogos entre dos personas, o monólogos, en donde no hay ruido de fondo.

También tendrás que enfrentarte a las "alucinaciones" de la IA, que a veces se inventa diálogos. Así que es posible que tengas que editar esos subtítulos. Pero en general, funciona muy bien.

Cómo descargar vídeos de Internet sin instalar programas y desde cualquier navegador web

Para convertir texto a voz con Whisper vamos a utilizar la aplicación gratuita Subtitle Edit, que puedes descargar desde GitHub. Instálala y, si no aparece en español, entra en el menú Options, toca en Choose Language, y después en Español, o el idioma quieras. Está también en catalán y vasco.

Lo mejor de Subtitle Edit es que descarga e instala las herramientas necesarias y los modelos de lenguaje de forma automática, así que no tienes que preocuparte de nada.

A modo de ejemplo, vamos a subtitular en español un anuncio comercial en japonés de Honda. Pero puedes usar cualquier vídeo en cualquier idioma, entre las docenas que reconoce Whisper.

Convertir texto a voz, con Whisper

Cómo convertir audio a texto, con Whisper

Computer Hoy

Pon en marcha la aplicación, entra en el menú Vídeo, y elige la opción Audio a texto (Whisper). Se abrirá una ventana que conviene maximizar, para que no se oculten algunas opciones.

Desde una única ventana vamos a dar todos los pasos necesarios para convertir el audio de un vídeo o película, en subtítulos en el mismo idioma.

Lo bueno que tiene Subtitle Edit es que no solo hace la conversión con Whisper, sino que además calcula los tiempos y crea los subtítulos automáticamente, para que se sincronicen con la voz.

Como crear subtítulos de cualquier anime, película o vídeo en cualquier idioma con Whisper

Computer Hoy

En primer lugar, debemos elegir el engine, el motor que se encarga de aplicar la IA, en la esquina superior derecha. El mejor y más rápido es Purfview Faster-Whisper, pero hay muchos otros. Si alguna traducción no te queda bien, prueba con otro, ya que unos van mejor con películas, otros con vídeos musicales, otros con mucho ruido de fondo, etc.

Al seleccionar Purfview Faster-Whisper, se descargará automáticamente el módulo de Whisper, con la última versión de la inteligencia artificial.

En el apartado Elige un idioma, seleccionamos el idioma original del vídeo. En nuestro ejemplo con el anuncio de Honda, elegimos Japanese, porque está en japonés.

TikTok

Una opción importante es Elige un modelo. Aquí debemos elegir el modelo de lenguaje que queremos usar. Como más grande sea, mejor traduce, pero requiere una tarjeta gráfica con mucha memoria VRAM, ya que todo el trabajo lo va a hacer la GPU, en su propia memoria.

Si tienes una tarjeta gráfica con 8 GB de VRAM o más, puedes probar con un modelo Large. Si tienes menos,  usa Small o Tiny. Quizá necesites hacer dos o tres pruebas para ver el modelo que mejor se ajusta a tu chip gráfico.

El tiempo de proceso dependerá de tu tarjeta gráfica. Si es potente convertirá voz a texto en unos minutos, pero sino, puede tardar horas. Es cuestión de paciencia... Pulsa en los tres puntos para elegir el modelo que quieres usar, y luego toca en Descarga para descargarlo:

Como crear subtítulos de cualquier anime, película o vídeo en cualquier idioma con Whisper

Computer Hoy

Justo debajo verás una serie de opciones: Traducir al inglés, Autoajustar tiempo, Utilizar el postprocesamiento, Configuración, etc.

Son funciones que supuestamente ajustan los subtítulos, pero a nosotros no nos han funcionado muy bien. Puedes probarlas, pero te recomendamos desactivarlas, al menos la primera vez.

A la derecha verá el botón Avanzado. Sirve para fijar ciertos parámetros de Whisper. Elige la opción Standard, pero si estás traduciendo un idioma asiático, como es nuestro ejemplo, selecciona Standard-Asia.

¡Ya casi está! Solo queda pulsar el botón Añadir para seleccionar el o los vídeos que queremos procesar, y tocar el botón Generar, abajo, para iniciar la conversión de audio a subtítulos. Dependiendo de tu tarjeta gráfica, y de la longitud el vídeo, tardará unos minutos, o unas horas.

Al terminar obtendrás un fichero SRT, el estándar para los subtítulos, con el mismo nombre que el video, y en su misma carpeta. En nuestro ejemplo es el fichero Honda.srt. Si lo abrimos con cualquier editor de texto, vemos esto:

Tutorial crear subtítulos con IA

Computer Hoy

Como puedes comprobar, Whisper ha convertido la voz en texto, y Subtitle Edit se ha encargado de numerar los diálogos y asignarles un fragmento de tiempo en el que aparecerán en pantalla, sincronizándolos con el vídeo.

Ya tenemos los subtítulos en el idioma original, en nuestro ejemplo, en japonés. Solo queda traducirlos al español, o el idioma que desees.

Hay muchas formas de hacer esto. Puedes pedírselo a ChatGPT o similares, usar el Traductor de Google o, como vamos a hacer, traducir con la IA de DeepL Translator, ya que es el mejor traductor de texto que existe. Está disponible en la web DeepL Translator.

Abre el fichero SRT con cualquier editor de texto, copia los subtítulos, y luego pégalos en DeepL Translator, para que los traduzca al español:

Traducción de subtítulos con DeepL

Computer Hoy

Solo queda copiar el texto en español, y pegarlo en el lugar del texto japonés del fichero SRT, asegurándote de que respetas las numeraciones, y todo queda igual. ¡Hemos terminado!

Ten en cuenta que la versión gratuita sin cuenta de DeepL Traslator, solo permite traducir 1.500 caracteres a la vez. Si tu vídeo tiene muchos subtítulos, tendrás que traducir por bloques de 1.500 caracteres.

Si creas una cuenta gratuita de DeepL te dan más caracteres, y con la de pago, no hay límite. Incluso traduce directamente el fichero, sin que tú tengas que copiar y pegar.

Antes de terminar, conviene leer los subtítulos para corregir frases mal traducidas, o alucinaciones de la IA. Guarda el fichero SRT, ponle el mismo nombre que el vídeo, en su misma carpeta, y usa un reproductor que acepte subtítulos, como VLC Player:

Vídeo subtitulado con IA

Computer Hoy

Como puedes ver, poner subtítulos en español a un vídeo en cualquier idioma, incluso en japonés, es muy sencillo. Además todas las herramientas son gratuitas.

La clave está en usar una tarjeta gráfica decente, ya que la IA emplea la GPU y su memoria VRAM, para convertir voz a texto. Si tienes una tarjeta lenta, hay que tener paciencia.

Con este tutorial hemos visto cómo poner subtítulos en español a cualquier anime, películas o vídeo en cualquier idioma. ¡Pruébalo!

Conoce cómo trabajamos en Computerhoy.

Etiquetas: Inteligencia artificial, Apps