Werner Vogels, CTO da Amazon.com disse: “Tudo falha o tempo todo.” Embora a nuvem possa atingir níveis muito altos de disponibilidade, é nossa responsabilidade construir nossas arquiteturas de forma resiliente, com suporte a falhas, e caso ocorra falha de um serviço em uma zona de disponibilidade.
Para fazer isso, eles têm o pilar de confiabilidade do AWS Well Architected Framework:
Mas para ter mais certeza de que nossa arquitetura será capaz de resistir a condições turbulentas e de queda quando necessário, uma boa ideia é simular quedas e ver como a arquitetura se comporta. Se funcionar corretamente, mitiga o impacto para o usuário, e se falhar significa que precisamos ajustar a arquitetura. Esta é a Engenharia do Caos (Chaos Engineering).
Existem inúmeras ferramentas para isso, Chaos Monkey é um deles Opensource, criado pela equipe da Netflix: