El algoritmo de Google que convierte fotos de Street View en vídeo

El algoritmo de deep learning de Google que convierte fotos de Street View en vídeo.

La programación, desde un punto de vista teórico, apenas ha cambiado en los últimos 20 o 30 años. Cambian las técnicas y los lenguajes, pero los principios de la programación, la metodología es básicamente la misma... hasta ahora.

En los últimos años la programación probabilística, el deep learning están ganando terreno, y producen resultados sorprendentes. Hablamos de diferentes formas de aplicar la inteligencia artificial a la programación.

Un programa clásico se compone de una sucesíón de órdenes que le dicen al ordenador todo lo que tiene que hacer, sin dejar ningún cabo suelto. Todas las excepciones, todas las situaciones condicionales son contempladas.

Los nuevos métodos de programación optan por aplicar la inteligencia artificial a la programación. No se le dice al ordenador cómo hacer las cosas, sino que se le dan una serie de datos para que aprenda a hacer cosas nuevas con ellos.

Un buen ejemplo de deep learning, también llamado aprendizaje automático es este algoritmo que distingue los chistes en un texto. Otra visión alternativa es DeepStereo, el algortimo de Google que convierte una sucesión de fotos de Street View en un vídeo, en donde no se nota ningún tipo de salto.

Observa este vídeo. En la esquina superior derecha puedes ver la secuencia de fotos desde la que se ha obtenido:

¿Cómo se consigue esta suavidad en el movimiento partiendo de fotos estáticas?

DeepStereo utiliza el Deep Learning o Aprendizaje Profundo para que el ordenador se invente los píxeles que faltan. Lo hace analizando la profundidad y el color de cada píxel en la imagen anterior y la siguiente, y en base a la información que tiene "rellena" las imágenes que faltan, para convertir una sucesión de fotografías en un vídeo, sin que se note el salto.

A veces el proceso no es perfecto, por ejemplo cuando dos objetos se tapan uno a otro y no hay forma de predecir el movimiento, por eso se ven algunos fragmentos difuminados esporádicos. Los propios autores reconocen que el algoritmo es mejorable, pues el proceso de invención de imágenes es lento, y no trabaja a mucha resolución.

Pero la posibilidad de convertir fotos estáticas en vídeo sin que apenas se note tiene innumerables aplicaciones en campos como el cine, la realidad virtual o las videoconferencias.

[Fuente: Motherboard]

Picture, el lenguaje de programación que convierte 1000 líneas de codigo en 50