Companhia busca adotar postura transparente e dá detalhes sobre o que causou a pior indisponibilidade de sua história.
Redação da Computerworld-EUA
Publicada em 02 de maio de 2011 Ã s 12h42
REF: CIO UOL
Depois de enfrentar uma indisponibilidade, que deixou fora do ar alguns serviços importantes da web, a Amazon divulgou comunicado indicando a raiz do problema: um erro de configuração cometido durante uma atualização de rede.
Entre os serviços web afetados, estão alguns de grande destaque, como Foursquare, Reddit e Quora, razão pela qual o ocorrido reascendeu um debate sobre a maturidade dos serviços cloud.
De acordo com a nota, um redirecionamento de tráfego foi executado de forma incorreta durante a mudança de configuração na rede. A companhia explica que o tráfego deveria seguir para uma rede primária, mas acabou seguindo por outra de menor capacidade. O erro ocorreu às 12h47 do dia 21 de abril (quinta-feira) e gerou uma indisponibilidade parcial da plataforma.
O problema inicial foi seguido por um aumento subsequente de sobrecarga na rede, gerou uma série de problemas em cascata, incluindo uma “tempestade” de re-espelhamentos à medida que os sistemas procuravam continuamente por espaços de armazenamento.
No extenso documento divulgado, a Amazon discorreu sobre todos os detalhes da ocorrência, pediu desculpas a todos os usuários e ofereceu um crédito aos prejudicados, além de se comprometer a aprimorar sua comunicação com os clientes, que se mostrou deficiente durante o perÃodo de disponibilidade.
A Amazon não disse de forma explÃcita que o erro foi humano, mas é o que o documento dá a entender. O comunicado diz que a empresa está realizando auditoria e mudanças de processos para aumentar a abrangência da automação, evitando erros futuros. A companhia também disse que trabalha no desenvolvimento de software e serviços que possam sobreviver a falhas como essa.