Logo Computerhoy.com

Investigadores utilizan IA para crear una herramienta que convierte lenguaje de señas en texto

Lenguaje de signos

Los investigadores utilizaron un modelo de aprendizaje automático similar al que se encuentra detrás de otras herramientas como ChatGPT.

Muchas personas con problemas de audición están utilizando tecnologías de reconocimiento de voz para conseguir una comunicación efectiva dentro del entorno digital.

Y ahora investigadores han utilizado inteligencia artificial para desarrollar una herramienta que convierte el lenguaje de señas en texto.

En concreto han sido investigadores del Barcelona Supercomputing Center y la Universidad Politécnica de Cataluña, quienes han utilizado inteligencia artificial para crear una herramienta capaz de mejorar la traducción de lenguaje de signos.

Gracias a la misma, se permitiría que las personas sordas o con problemas de audición interactúen con la tecnología alcanzando un mayor número de servicios digitales.

Investigadores utilizan IA para crear una herramienta que convierte lenguaje de señas en texto

Barcelona Supercomputing Center 

Básicamente, utilizaron un modelo de aprendizaje automático denominado Transformers, y lo bueno de este modelo es que es bueno para aprender cómo aplicar el contexto, y también permite un rendimiento mucho más rápido cuando se aprende de ejemplos de entrenamiento.

Luego, el conjunto de datos de capacitación provino de How2Sign, un conjunto de datos a gran escala y de múltiples vistas disponible de forma pública que comprende 80 horas de vídeos instructivos en lenguaje de señas estadounidense.

La nueva herramienta desarrollada es una extensión de una publicación anterior también del BSC y la UPC llamada How2Sign, donde se recopilan los datos necesarios para entrenar a los modelos (más de 80 horas de videos donde intérpretes de lengua de signos americana traducen videotutoriales como recetas de cocina o bricolaje”, dijo Laia Tarrés, autora principal del estudio. “Con estos datos ya disponibles, el equipo ha desarrollado un nuevo software de código abierto capaz de aprender el mapeo entre video y texto”.

Pero no lo tuvieran fácil, porque uno de los desafíos a los que se enfrentaron fue la variabilidad y la complejidad de los lenguajes de señas, algo que puede verse influenciado por cuestiones como los antecedentes y el contexto.

Para evitarlo, al procesar los datos utilizaron Inflated 3D Networks (I3D), un método de extracción de vídeo que aplica filtro 3D, lo que permite tomar información espacio temporal.

En términos generales, descubrieron que su modelo podía producir traducciones significativas, en todo caso, aún lo están mejorando, pero mostrando resultados prometedores.

Descubre más sobre , autor/a de este artículo.

Conoce cómo trabajamos en Computerhoy.