Logo Computerhoy.com

Meta entrena su IA con la Biblia, y no es por motivos religiosos

La vida de Brian

Meta ha entrenado a su inteligencia artificial con la Biblia, el texto más traducido de la historia, y nada tiene que ver con las motivaciones religiosas, el objetivo es muy diferente: preservar idiomas en riesgo de desaparición.

Nuevos modelos de inteligencia artificial (IA) desarrollados por Meta, la empresa matriz de Facebook, han sido entrenados utilizando la Biblia para reconocer y hablar en más de 1.000 lenguas. Esta iniciativa tiene como objetivo ayudar a preservar lenguas que están en riesgo de desaparecer.

En la actualidad existen alrededor de 7.000 lenguas en todo el mundo. Para abordar el desafío de preservarlos, Meta ha puesto a disposición del público sus modelos lingüísticos a través de GitHub, un servicio de alojamiento de código. Esto permitirá a los desarrolladores trabajar en diferentes lenguas y crear nuevas aplicaciones de voz más variadas.

Los modelos fueron entrenados usando dos conjuntos de datos: uno que consistía en grabaciones de audio del Nuevo Testamento de la Biblia en 1.107 lenguas, Lo que ha proporcionado un promedio de 32 horas de datos por idioma, y otro que contenía grabaciones sin etiquetar tras lecturas religiosas cristianas en 3.809 lenguas. La Biblia es uno de los textos más traducidos del mundo.

Michael Auli, investigador científico de Meta involucrado en el proyecto, mencionó que “podemos emplear lo que aprendió ese modelo para construir rápidamente sistemas de habla con muy, muy pocos datos”.

Si bien, los investigadores afirman que los modelos son capaces de conversar en más de 1.000 lenguas y reconocen más de 4.000, admiten que todavía hay margen de mejora. A pesar de ello, en comparación con modelos de empresas competidoras como OpenAI Whisper, la versión de Meta presenta la mitad de tasa de error a pesar de abarcar 11 veces más idiomas.

Transcripciones erróneas y sesgo en comparación con otros modelos

Los científicos reconocen que los nuevos modelos pueden transcribir erróneamente algunas palabras o frases, y también producir un pequeño porcentaje adicional de palabras sesgadas en comparación con otros modelos, en concreto un 0,7 % más.

Chris Emezue, investigador de Masakhane, una organización dedicada al procesamiento del lenguaje natural en lenguas africanas, expresó su preocupación sobre el uso de textos religiosos para entrenar estos modelos. En este sentido, Emezue señaló que “la Biblia tiene muchos prejuicios y tergiversaciones”.

Meta tiene como objetivo ampliar en el futuro el número de idiomas que los modelos de habla multilingüe pueden soportar, incluyendo también dialectos, que por el momento no le son posibles de aprender.

Descubre más sobre , autor/a de este artículo.

Conoce cómo trabajamos en Computerhoy.