Dijo Werner Vogels, CTO de Amazon.com: “Todo falla todo el tiempo”. Aunque la nube permite lograr muy altos niveles de disponibilidad, es nuestra responsabilidad construir nuestras arquitecturas de un modo resiliente, como para que soporten fallas tales como una caída de un servicio en una zona de disponibilidad
Para ello, cuentan con el pilar de Reliability del AWS Well Architected Frammework:
Pero para estar más seguros que nuestra arquitectura podrá soportar condiciones turbulentas y caídas cuando sea necesario, una buena idea es simular caídas y ver como se comporta la arquitectura. Si funciona correctamente, mitigando el impacto al usuario, o falla y debemos ajustar la arquitectura. En esto consiste la ingeniería del Caos (Chaos Engineering)
Existen numerosas herramientas para esto, Chaos Monkey es una de ellas Opensource, creada por el equipo de Netflix: