| HT news
| GoogleGoogle Downtime: cosa succede quando manca energia nel data center?
di Stefano BellasioGoogle è tra le prime compagnie al mondo anche per la precisione e la trasparenza con cui spesso mostra i propri processi interni agli utenti, nel campo dei data center questo è altrettanto valido e Google lo ha dimostrato in questi giorni con la pubblicazione di un documento ufficiale sul downtime accaduto lo scorso 24 Febbraio in uno dei data center della compagnia: outage che ha portato al downtime del servizio AppEngine.
La parte interessante della vicenda è la tipologia di documentazione e di interventi previsti all'interno dei data center Google: il data center primario di AppEngine è rimasto senza elettricità, i server si sono poi riavviati ma hanno presentato dei problemi hardware da verificare. Cosa è accaduto? La documentazione di Google e gli ingegneri che sono intervenuti non erano preparati per un simile evento, in sostanza non era previsto un evento in cui solamente parte delle macchine fosse fuori uso e pertanto non hanno potuto decidere da subire se avviare o meno la procedura di disaster recovery. Gli ingegneri infine decidono di concentrare gli sforzi sul data center primario (quello colpito dal downtime) e ciò rallenta notevolmente le operazioni, con un downtime di 30 minuti, un tempo davvero troppo lungo per quelle che sono le tempistiche di Google.
Data center di Google in Belgio
Il problema principale è stata una documentazione obsoleta secondo Google, all'interno della quale non era documentato come agire in caso di simili eventi, una mancanza grave per la compagnia, dato che lo stesso AppEngine è un servizio di punta della compagnia.
La correzione alla documentazione, come segnalata ufficialmente da Google, dovrebbe ora consentire di ridurre il downtime da 2 ore totali a poco più di 10/20 minuti. Di seguito le modifiche introdotte da Google dopo l'evento:
- Introduce regular drills by all oncall staff of all of our
production procedures. This will include the rare and complicated
procedures, and all members of the team will be required to complete
the drills before joining the oncall rotation.
- Implement a regular bi-monthly audit of our operations docs to
ensure that all needed procedures are properly findable, and all out-
of-date docs are properly marked "Deprecated."
- Establish a clear policy framework to assist oncall staff to quickly
and decisively make decisions about taking intrusive, user-facing
actions during failures. This will allow them to act confidently and
without delay in emergency situations.