Un nuevo sistema permite que las máquinas te lean los labios

robot lee labios

Cuidado con lo que dices, porque es posible que muy pronto las máquinas puedan leerte los labios como lo hacía HAL, el malvado ordenador de la película de Stanley Kubrick "2001: Una odisea en el espacio".

Un equipo de investigadores de la Universidad de Anglia del Este de Reino Unido ha desarrollado un nuevo sistema de reconocimiento de voz visual. Esta herramienta permite que las máquinas puedan leer los labios de las personas para saber qué es lo que están diciendo mediante imágenes, sin necesidad de capturar ningún sonido.

Para efectuar la interpretación, el sistema registra las formas que hace la boca para identificar las palabras. Según los expertos, los labios pueden articular entre 10 y 14 formas diferentes, llamadas visemas, que se pueden relacionar con múltiples fonemas. Por este motivo, la técnica visual de lectura labial es más compleja que la interpretación del sonido.

No es la primera herramienta de estas características, pero sí la que ha demostrado una mayor precisión hasta el momento. Los científicos han desarrollado un nuevo algoritmo de aprendizaje que permite asignar un visema a un fonema particular de una forma más fiable. Gracias a esta técnica, el ordenador aprende a clasificar los fonemas que pueden corresponder a cada una de las expresiones faciales que hacemos de una manera óptima.

El algoritmo que han creado estos investigadores ha demostrado que puede identificar correctamente los sonidos el 25% de las ocasiones, lo que supone una gran mejora respecto a métodos anteriores. Además, el promedio de reconocimiento de palabras es un 5% mejor que los altavoces existentes hasta el momento.

Google pone su Inteligencia Artificial a disposición de todos los desarrolladores

"La lectura labial es uno de los problemas más desafiantes de la Inteligencia Artificial", explica Richard Harvey, uno de los miembros del equipo. "Este sistema de clasificación mejora los métodos de lectura de labios mediante un nuevo método de entrenamiento". 

Esta plataforma tiene muchas aplicaciones potenciales y podría resultar útil en diferentes ámbitos. Por un lado, la policía y las fuerzas de seguridad podrían emplearlo como herramienta de escucha en sus investigaciones. También resultaría interesante para desarrollar dispositivos de interpretación y reconocimiento de voz para los discapacitados, así como para comunicarse en ambientes muy ruidosos. 

[Fuente: IEEE Spectrum]