Downtime OVH: il provider annuncia nuovi investimenti

Venerdì 10 è stata una giornata difficile per il provider OVH che ha dovuto affrontare due guasti tecnici nell'arco di poche ore. I dettagli.

Il data center OVH SGB2 di Strasburgo

Il 10 Novembre sarò ricordato a lungo da OVH come una delle più complesse giornate degli ultimi anni, “the worst-case scenario that could have happened to us” riportando le parole del CEO Octave Klaba. Lo scorso fine settimana il provider ha dovuto affrontare infatti due inconvenienti tecnici che hanno compromesso la fruibilità dei servizi per diverse ore.

Il primo problema si è verificato intorno alle 7.23 lasciando senza energia elettrica il campus di Strasburgo ed i data center SBG1, SBG2 ed SBG4. In base alle dichiarazioni di Klaba il sistema di emergenza che, in caso di disservizi, doveva occuparsi di mettere in funzione i generatori di supporto non ha funzionato correttamente:

This morning, the motorized failover system did not work as expected. The command to start of the backup generators was not given by the NSM. It is an NSM (Normal-emergency motorised), provided by the supplier of the 20kV high voltage cells. We are in contact with the manufacture/suplier to understand the origin of this issue. However, this is a defect that should have been detected during periodic fault simulation tests on the external source. SBG’s latest test for backup recovery were at the end of May 2017. 

Il sito è rimasto senza corrente per circa 3 ore e mezza ovvero fino a quando il fornitore locale EDL non ha riparato il guasto ad uno dei due cavi collegati al campus OVH. Le macchine che non hanno mostrato problematiche sono tornate online intorno alle 16 mentre le altre hanno dovuto attendere l’arrivo delle parti di ricambio provenienti dal sito di Roubaix (17.30). Nella post di Klaba si legge che il sistema di emergenza era stato testato con successo nel mese di Maggio (8 ore di test senza alcun incidente).

Il secondo problema, un bug software, è avvenuto alle 8.01 presso il sito di Roubaix che ha perso improvvisamente il collegamento con 6 dei 33 POP del network OVH:

At 8:01, all the 100G links, 44x 100G, were lost in one go. Given that we have a redundancy system in place, the root of the problem could not be the physical shutdown of 6 optical fibres simultaneously. We could not do a remote diagnostic of the chassis because the management interfaces were not working. We had to intervene directly in the routing rooms themselves, to sort out the chassis: disconnect the cables between the chassis and restart the system and finally do the diagnostics with the equipment manufacturer. Attempts to reboot the system took a long time because each chassis needs 10 to 12 minutes to boot. This is the main reason that it the incident lasted such a long time.

La disconnessione ha avuto gravi ripercussioni sulla fruibilità dei servizi perchè gli optical link collegavano Roubaix agli importanti hub europei di Francoforte, Parigi, Amsterdam, Londra, Bruxelles.

Futuri piani di investimento per OVH

Il CEO ha ammesso le responsabilità della compagnia ed anticipato ingenti investimenti (2-3 milioni di euro). Per quanto riguarda Strasburgo ha promesso lo smantellamento di due data center container (SBG1 ed SBG4, scelta dettata dalla necessità di risparmiare tempo/denaro e soddisfare la crescente richiesta dell’area) ed il trasferimento di tutti i clienti su SBG3 (in fase di costruzione), oltre alla stretta applicazione dei propri standard interni sul sito che ad oggi era l’unico non a norma:

We did not make the SBG site compliant with internal standards which require 2 separate 20kV electrical feeds just like all our DC locations, which are equipped with dual electrical feeds. It is a major investment of about 2 to 3 million euros per electrical feed but we believe this is part of our internal standard. […] We built SBG2’s power grid by placing it on SBG1’s power grid instead of making them independent.

Il bug di Roubaix, sebbene non sia diretta responsabilità di OVH ma del vendor (il cui nome non è stato reso noto), poteva essere eventualmente evitato adottando un approccio più “paranoico”, incrementando quindi le verifiche ed i controlli sulla strumentazione – ha affermato il CEO.

Fonti: 1, 2

 

 

Facci sapere cosa ne pensi!

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *