Skip to main content

MarIA, la inteligencia artificial experta en lengua española creada con el superordenador MareNostrum, gratis para todo el mundo

MarIA

BSC

31/07/2021 - 08:00

La lengua española ya tiene un modelo de IA masivo que todo el mundo puede utilizar. Pronto se aplicará al catalán, gallego, euskera, portugués y español de Hispanoamérica.

El Barcelona Supercomputing Center -Centro Nacional de Supercomputación (BSC), junto con la Biblioteca Nacional de España, han presentado MarIA, la inteligencia artificial de la lengua española más avanzada que existe.

MarIA es una IA experta en comprender y escribir en español y es capaz de entender, no sólo conceptos abstractos, sino también el contexto de los mismos.

Esta inteligencia artificial ha sido entrenada con 59.000 GB de textos procesados durante casi 7 millones de horas de cómputo por el superordenador MareMostrum del BSC, uno de los más potentes de Europa.

Al tratarse de un proyecto llevado a cabo por organismos públicos españoles, MarIA está disponible en forma de código abierto para todo aquel que quiera utilizarlo. Se puede descargar en GitHub.

Sus posibles aplicaciones van desde los correctores o predictores del lenguaje, hasta las aplicaciones de resúmenes automáticos, chatbots, búsquedas inteligentes, motores de traducción y subtitulación automática, entre otros.

Así se creó MarIA

El primer paso para crear un modelo de la lengua es elaborar un corpus de palabras y frases que será la base sobre la que se entrenará el sistema.

Para crear el corpus de MarIA se utilizaron 59 TB, es decir, 59.000 GB de textos provenientes del archivo web de la Biblioteca Nacional de España.

Estos textos se cribaron para eliminar todo lo que no sea lenguaje bien formado. Fueron necesarias casi 7 millones de horas de cómputo adicionales de los miles de procesadores del superordenador MareNostrum. Así se obtuvieron más de 200 millones de documentos que ocupan  550 GB de datos.

 Los investigadores del BSC-CNS utilizaron redes neuronales basadas en la arquitectura Transformer que se entrenaron con estos 200 millones de textos, para aprender a utilizar la lengua.

Estos entrenamientos emplean técnicas como presentar a la red neuronal  textos con palabras ocultas, para que aprenda a adivinar cuál es la palabra ocultada, según su contexto.

Para este entrenamiento han sido necesarias 184.000 horas de procesador y más de 18.000 horas de GPU.

El resultado es MarIA, una inteligencia artificial experta en lengua española, que todo el mundo puede utilizar. Ahora este proceso se aplicará al resto de las lenguas del estado español.

Estamos viviendo el inicio de una revolución, la de la inteligencia artificial, que solo acaba de empezar...