Un ingeniero de Amazon ha tirado abajo medio Internet por accidente

Jakub Motyka

3 mar. 2017 9:25h.

Caída en los servidores de Amazon S3 por un error de un ingeniero

¿Recuerdas haber tenido esta semana problemas para navegar por Internet? Es muy probable que haya estado relacionado con la caída de los servidores de Amazon S3, que es una de las plataformas más populares entre las empresas que quieren alojar su página web en Internet. Lo más curioso del asunto es que ahora se ha sabido que toda la caída se debió a una errata en una línea de comando introducida por un ingeniero de Amazon.

Para ponernos en antecedentes, tenemos que recordar que a comienzos de esta misma semana se vivió una importante caída de buena parte de las páginas más populares de Internet. Páginas de la talla de Netflix, Reddit o incluso Yahoo! estuvieron mostrando durante horas diferentes mensajes de error por culpa de la caída de Amazon S3. Tal y como ha aclarado la propia Amazon en su blog oficial, resulta que el fallo se originó en el momento en que un ingeniero introdujo un comando equivocado en los servidores de Amazon Web Services (AWS).

Este ingeniero tenía asignada la tarea de eliminar algunos servidores prescindibles del sistema de facturación de Amazon S3, pero en el momento de introducir las líneas de comando necesarias para llevar a cabo esta orden se equivocó en una línea de código y, en lugar de cerrar servidores prescindibles del sistema facturación, lo que se llevó por delante fueron algunos de los servidores más importantes de la compañía.

Para que a ti no te pase lo mismo, aprende a programar con estos libros a buen precio en Amazon

Por supuesto, los servidores de Amazon están lo suficientemente protegidos como para que ni siquiera un error en una línea de código de un empleado autorizado pueda poner en peligro los datos de los usuarios. Cuando este ingeniero se equivocó en la línea de comando, lo que causó fue un reinicio de todos los servidores.

Para cuando los servidores terminaron de distribuir el pico de carga de tráfico que recibieron tras el error en el comando, Amazon ya había encontrado -y solucionado- la raíz del problema. Pese a que el problema solamente afectó a los servidores de la Costa Este americana (en Virginia), los efectos se hicieron notar prácticamente en todo el mundo.

Tal y como explica la empresa, en condiciones normales un error humano de este tipo no hubiera supuesto ningún inconveniente para el usuario. El problema es que los servidores del llamado Amazon Simple Storage Service (Amazon S3, abreviado) han experimentado un enorme crecimiento en los últimos años, y llevaban mucho tiempo sin ser reiniciados; al recibir de golpe la orden de reiniciarse después de tanto tiempo funcionando de forma ininterrumpida, el sistema simplemente se saturó.

Internet se caerá durante (al menos) 24 horas en 2017, y nadie sabe cuándo pasará

En cualquier caso, Amazon ya ha anunciado que tomará medidas para evitar que un problema de este tipo se pueda repetir en el futuro. Para empezar, lo que hará será limitar la capacidad de reiniciar el sistema de las herramientas a las que tienen acceso los ingenieros de la compañía.

Para tranquilidad de todo el mundo, esta caída no ha tenido nada que ver con Mirai, la famosa red de botnets que ha estado causando estragos por todo el mundo. Eso sí, precisamente esta botnet es la que en las últimas semanas ha aparecido de vuelta en forma de un troyano para Windows, por lo que no hay que descartar que de aquí a los próximos meses se pueda producir una nueva caída de Internet a gran escala.

Si aprendes estos lenguajes de programación siempre tendrás trabajo

[Fuente: Blog oficial de Amazon AWS]

Conoce cómo trabajamos en Computerhoy.