¿Por qué la falla de Amazon afectó a tanta gente?

Estos colosos son demasiado grandes y hay demasiada concentración, pero ese no sería el peor problema

11 de diciembre de 2021
00:00
9 minutos de lectura'

Circular, como mínimo: Amazon también sufrió por la falla en AWS. En la foto, conductores de la compañía esperan que todo vuelva a funcionar, en Rosemead, California, EE.UU

Cuando leas esto, tal vez ya se conozcan las razones del desperfecto en los servicios web de Amazon (mejor conocidos por sus siglas en ingles, AWS) que causó el martes gravísimos problemas en el funcionamiento de numerosas organizaciones, incluida LA NACION. O tal vez no. Tal vez lo que Amazon etiquetó como la causa principal no se conozca nunca; un medio especializado calificaba ayer el hecho de “un misterio”. O quizá se conozca cuando el asunto ya se haya enfriado. Lo único que salió a la superficie, en las últimas horas, dado a conocer por Business Insider, fue que varios dispositivos de Amazon habían recibido una cantidad de tráfico de datos inusual, y colapsaron (en la región afectada, llamada US-EAST 1).

Esto podría ser síntoma, sugiere el artículo de Business Insider, de un ataque de denegación de servicio distribuido (DDOS, por sus siglas en inglés). Lo que no cierra, en principio, es que Amazon tiene una vasta experiencia en repeler esta clase de ataques. Y que además esta clase de ataques son lo bastante costosos como para que vengan motivados por una razón de peso; normalmente, el lucro. En este caso, el único motivo más o menos claro para lanzar un DDOS contra AWS es ejercitar el músculo de la ciberguerra. De ser así, el incidente demostró un punto: un ataque de DDOS lo bastante complejo puede dejar a Occidente sin internet.

Pero hay más: en el caso de que sí se conozca la causa última del desastre del martes último, lo más probable es que los tecnicismos nos dejen con esa sensación de “Ajá, okay” que sigue a una explicación que parece muy elaborada pero que, francamente, no llegamos a entender. No es que nos falte cabeza.

Una parte del problema para comprender estos asuntos es que AWS les brinda servicios a más o menos un millón de compañías; es el principal proveedor de estos servicios en el mundo, con más de 24% del mercado. El grado de complejidad de cualquier infraestructura que le ofrece servicios de nube a un millón de clientes corporativos es, por fuerza, abrumador. Dicho más simple: es probable que tengamos que hacer un curso para entender qué fue lo que pasó. O que nos tengamos que quedar, como ocurrió con WhatsApp en octubre con que fue una actualización de software que salió mal y afectó el Border Gateway Protocol. (Perdón, ¿qué cosa?)

Pero todavía nos queda un asunto. ¿Cómo es posible que un problema de AWS termina afectando mi trabajo, si yo no tengo nada que ver con Amazon? Bienvenidos a la nube. AWS les da servicios web a un millón de compañías, pero esas compañías a su vez les dan servicios a otras, y así. Si la frase reacción en cadena les viene a la mente, tienen razón. Sáquenle los neutrones y estamos más o menos ante un escenario de esa clase.

Y todavía hay que apuntar una cosa más: ¿qué son los servicios en la nube? Cualquier cosa menos algo homogéneo. Ahí, en esas infraestructuras que están entre las más complejas creadas por la civilización, conviven desde el almacenamiento hasta la inteligencia artificial y las bases de datos. Así que no falla una cosa. Si falla la nube pueden fallar miles de cosas. Por ejemplo: la empresa A le contrata un servicio a la empresa B que a su vez tiene como proveedor a C. C es usa AWS para cierto servicio (pongamos, almacenamiento) y B lo usa para la base de datos (cualquer cosa que esto signifique en la práctica, que también es sumamente variado). En total, A, que no usa AWS, es golpeada en la línea de flotación porque está usando los servicios tercerizados de B y C, que sí son clientes de Amazon.

La grieta, once again

El párrafo anterior daría la impresión (ya me lo veo venir) de que soy anti nube. Bueno, no. La cuestión es que en esto de la tecnología, como hay montones de detalles técnicos que resultan indigestos, es fácil cometer una serie de pecados de comunicación. La palabra “nube” es uno de esos pecados. No hay nada nuboso en la nube. Son data centers, enrutadores, sistemas autónomos, software, cables. Se usa la metáfora de la nube porque internet se representaba antiguamente con el dibujo de una nube en los diagramas técnicos. Pero el dibujito de la nube en esos diagramas no se inspiraba en que internet fuera algo vaporoso e intangible, sino en que sus límites eran constantemente cambiantes. Así que de nube como las del cielo, cero.

El otro pecado es la grieta. De golpe, si tratás de echar un poco de luz sobre que la nube no es tan infalible como la pintan sus defensores, entonces sos anti nube. Fundamentalismo tecno, me encanta.

No, no soy anti nube. Es simple realismo, y es que estas cosas son más complicadas que blanco y negro (casi todo en la vida es más complicado que blanco y negro). A pesar de que las compañías que ofrecen servicios de nube hacen un esfuerzo admirable para mantenerse en línea –y no lo hacen porque quieran ganarse el Nobel a la Resiliencia, sino porque cada minuto offline les cuesta fortunas–, tarde o temprano toda cosa humana falla.

Está bien, es una regla del juego, de todo juego. ¿Pero no podrían tener un backup? ¿Apretar un botón y que todo pase a funcionar en otro data center? Sí, es como funciona, solo que sin el botón. Pero la otra regla del juego es que toda cosa humana tiene un techo operacional financiero. Amazon es una compañía pública que tiene que dar cuenta a sus inversionistas sobre cómo gasta el dinero. Si el director ejecutivo le plantea al directorio replicar toda la infraestructura de AWS para enfrentar contingencias como la del martes, posiblemente su siguiente escala sea en RR.HH.

Amazon-Español/ Español-Amazon

¿Qué sabemos hasta ahora? Lo que dijo Amazon: “Estamos observando un impacto en varias API de AWS en la región US-EAST-1. Este problema también está afectando a algunas de nuestras herramientas de monitorización y respuesta a incidentes, lo que está retrasando nuestra capacidad de proporcionar actualizaciones. Hemos identificado la causa principal y estamos trabajando activamente en la recuperación.”

Clarísimo, ¿no? (Ya vuelvo sobre esto). Una cosa que me dicen desde Amazon es que no se trató de un ataque. Un ataque es una de las dos posibilidades que barajó el miércoles Roberto Dhios, administrador de sistemas en el Departamento de Física de la UBA, cuando le consulté sobre este punto. La otra es alguna clase de problema técnico; resulta virtualmente imposible adivinarlo desde afuera. Cajas negras, ya saben. Amazon dice que lo tiene identificado. Pero hasta ahora no lo dio a conocer.

Ahora, en los hechos, qué significa el hermético mensaje “Estamos observando un impacto en varias API de AWS en la región US-EAST-1″. Me lo dice, con la generosidad de siempre, pese al feriado, Dhios: “La API es la puerta de acceso a los servicios que se ejecutan en los servidores dentro de la infraestructura [de Amazon]. Que falle la API es como se se rompa la cerradura de tu casa. Vos estás bien. El interior de la casa también. Pero no podes ingresar y usar tus cosas”.

En total, y hasta que sepamos más, a la nube de Amazon le falló la cerradura (API viene del inglés Application Programming Interface) y dejó a medio mundo afuera. Qué pasó puertas adentro todavía es un misterio.

La otra frase estratosférica es: “Este problema también está afectando a algunas de nuestras herramientas de monitorización y respuesta a incidentes, lo que está retrasando nuestra capacidad de proporcionar actualizaciones.” Dicho de una forma muy simple: el problema también estaba dejando afuera a los técnicos de Amazon, no podían saber qué pasaba (monitorear) ni arreglarlo (respuesta a incidentes), con lo que tampoco podían anticipar cómo seguía la historia (retrasando nuestra capacidad de proporcionar actualizaciones).

Concentrado de nube

Los que siguen estas columnas saben que vengo advirtiendo desde hace rato que el riesgo de la concentración que exhibe la industria de internet, controlada por un puñado de compañías, es que si falla, por dar un ejemplo, Amazon, entonces la pagamos todos. Lo del martes fue una prueba de concepto de esa afirmación, que sé que suena incómoda, pero es bien real. Cometeríamos un error todavía más grande, sin embargo, si creyéramos que la solución es simple: separamos Amazon de AWS; Facebook de WhatsApp e Instagram; Windows de Office y Azure, y listo, asunto resuelto.

Los reguladores hicieron la vista gorda con la concentración, especialmente en Estados Unidos, hasta estado de cosas actual, en el que se dan las siguientes condiciones. Primero, más allá del desastre del martes, para las compañías pequeñas y medianas (y para unas cuantas algo más que medianas), la nube es una bendición. Quedó claro el martes: casi nada de lo que hacemos en internet sería posible, si compañías como Amazon, Google, Microsoft y Oracle no ofrecieran estos servicios.

Segundo, internet siempre funcionó así, excepto por un detalle. Todo era interoperable. O casi. Que es lo que la Unión Europea le va a pedir a los gigantes de la Red, que sus mensajeros y apps sean interoperables. Si esto es conveniente para las compañías es harina de otro costal.

El caso es que no podemos esperar que ciertas organizaciones sean capaces de montar una infraestructura ciclópeas y a la vez que no haya concentración. Pero podemos pensar en soluciones para la otra condición inevitable: las fallas. Una de esas soluciones sería que cuando AWS se cae, sus competidores absorban la carga de trabajo. No gratis, se entiende.

OK, calma, ya sé lo que están pensando. Hoy plantear algo así es delirante. Me decían que el martes Amazon les pedía a sus clientes que pasaran de US-EAST 1 a US-EAST 2, pero eso tampoco funcionaba porque ambas regiones no son idénticas y no tenían todo replicado. Así que de momento, no siquiera Amazon puede absorber la carga ante sus propias fallas. Menos podríamos pedirle algo así a Google, Microsoft, Oracle y demás. Pero si pretendemos servicios en la nube (que nivelan la cancha), entonces hay que buscar una forma de que cuando uno de estos gigantes tropieza haya una forma, aunque sea más lenta y un poco más rudimentaria, de salir del paso. Cuarenta años de internet nos preceden, y se suponía que la Red estaba diseñada precisamente para soportar esta clase de contingencias.

Por Ariel Torres

Nota de Opinion GDA

Conforme a los criterios de