Logo Computerhoy.com

¿Podría el aprendizaje profundo ayudar con la lectura de labios?

Inés Pérez

IA ayudaría a resolver el problema de la lectura de labios

La lectura de labios no es cosa fácil.

Los resultados de las pruebas varían, pero en promedio, la mayoría de las personas reconocen sólo una de cada 10 palabras cuando observan los labios de alguien, y la precisión de los autoproclamados expertos tiende a variar.

Sin embargo, algunos investigadores afirman que las técnicas de IA como el aprendizaje profundo podrían ayudar a resolver este problema.

Investigadores del laboratorio de IA de la Universidad de Oxford han hecho una contribución prometedora -aunque crucialmente limitada- al campo, creando un nuevo programa de lectura de labios que utiliza el aprendizaje profundo.

Su software, llamado LipNet, fue capaz de superar a lectores de labios experimentados en un grado significativo, logrando el 93,4% de precisión en ciertas pruebas, en comparación con el 52,3% de precisión de los lectores de labios humanos.

Incluso en sus etapas iniciales, el software es extremadamente rápido: procesa el vídeo silencioso en transcripciones de texto en tiempo casi real.

Sin embargo, la investigación de Oxford tiene algunas limitaciones serias. Para empezar, el sistema fue entrenado y probado en un conjunto de datos de investigación conocido como GRID.

Esta es una colección de decenas de miles de vídeos cortos de 34 voluntarios que leen frases sin sentido, así como subtítulos. Cada clip tiene sólo tres segundos de duración, y cada oración sigue el patrón: comando, color, preposición, letra, dígito, adverbio. Por ejemplo, "poner azul por A cuatro por favor" y "colocar rojo en C cero de nuevo".

La inteligencia artificial de Google logra cifrar mensajes.

Incluso las palabras dentro de estos patrones son limitadas, con sólo cuatro comandos y colores diferentes utilizados. Esto ha llevado a algunos investigadores en el campo a sugerir que los hallazgos del documento han sido exagerados.

Hablando con The Verge, dos de los investigadores detrás del estudio, Yannis Assael y Brendan Shillingford, admitieron que estaban trabajando con "vocabulario y gramática restringida", pero dijeron que esto se debía a limitaciones en los datos disponibles.

"El conjunto de datos es pequeño, pero es una buena indicación de que podríamos desempeñar igual de bien con un conjunto de datos mucho más grande", dice Assael.

Ambos, Assael y Shillingford, también desean enfatizar que su trabajo no tiene aplicación en el mundo de la vigilancia, simplemente porque la lectura de labios requiere que se vea la lengua del sujeto, lo que significa que el vídeo tiene que ser recto y bien iluminado para obtener un buen resultado.

¿Vivimos atrapados en una realidad virtual como Matrix?

En cambio, los investigadores piensan que inteligencia artificial para la lectura de labios podría ayudar a las personas con discapacidad auditiva, especialmente en entornos ruidosos donde es difícil para las computadoras aislar el habla.

Por ejemplo, alguien que llevaba una cámara incorporada en un par de anteojos podría obtener imágenes claras y frontales de alguien con quien está hablando en una fiesta, y una versión de LipNet podría entonces transcribir la conversación en tiempo real, alimentándola al oído.

También menciona dictados silenciosos a Siri o Google Assistant como un posible uso.

Conoce cómo trabajamos en Computerhoy.