Jump to content
Sign in to follow this  
Valeriano Manassero

The HT Big Black Out, la storia...

Recommended Posts

Dovevo farlo domani, ma sto finendo il download di una iso importante ed ho dieci minuti :D

Quando abbiamo ricevuto da Seflow la notizia che il server attuale era morto senza spiegazione apparente, sono volati giù i primi santi in Contech Lab.

Stiamo lavorando sulla nuova piattaforma e mancavano pochi giorni per le migrazioni, ovviamente Murphy ci ha messo del suo (come sempre).

Recuperiamo tutto l'hardware possibile per le riparazioni perché le informazioni che riceviamo sono troppo vaghe per farne una diagnostica a distanza (problema hardware può essere qualsiasi cosa).

Dico a Luca di assicurarsi che Seflow sia pronta ad accoglierci per capire la situazione. Non contento glielo ridico altre due volte per sicurezza. Luca mi dice che è d'accordo con Matteo che non sarà presente e ha quindi allertato I.Net.

Ci presentiamo di buon ora ed ovviamente la sicurezza I.net non sa un tubo, l'helpdesk di secondo livello non sa un tubo, l'helpdesk di primo livello non sa un tubo, la supervisione accessi sala non sa un tubo.

Comincio a tirar giù tutti i santi un'altra volta.

Parte la telefonata a Matteo ed il telefono è spento (altri santi), chiamiamo quindi il suo socio che giura di inviare subito la mail. Dopo un ulteriore quarto d'ora, due sigarette e trenta maledizioni rivolto alla farm come Davide contro Golia, riusciamo ad entrare.

Appena dentro ci rendiamo conto che il server si reboota di continuo e già immagino i dischi cotti come pere al forno.

Basta, però, mettere una mano sull'alimentatore (che sysadmin geniale che sono eh? :asd: ) per capire che le ventole sono completamente grippate e che quella è la causa di tutto il casino, Grissom non serviva...

Tiro via la macchina, la carico e la porto in Seeweb dove abbiamo attrezzature serie per testare i componenti visto che non sappiamo se l'alimentatore matto ha compromesso altro.

I test portano via un sacco di tempo provando ogni componente *singolarmente* (che du cojoni) ma alla fine, sembra che la macchina non sia stata pervasa da morbi strani.

La rimonto in ordine, la mettiamo in armadio, riconfiguriamo la rete e bootiamo con tutto incrociato, non solo le dita; il filesystem potrebbe essere andato al creatore e tirare su backup ora significherebbe perdere ulteriore tempo (cosa che prevede un altra fila di santi ammazzati). A questo punto faccio ogni tipo di fsck , check della ram dettagliato e controllo manuale di tutto ciò che mi viene a mente, risultato: la macchina sembra ok.

Giriamo i dns al volo e cominciamo a monitorare.

Arrivato in ufficio (dove sono ancora ora) vedo che i check sono tutti ok, e che la macchina si comporta bene.

Adesso vado a nanna che ho due maroni che fanno il giro del globo... :cartello_lol:

Share this post


Link to post
Share on other sites

beh tutto questo per dire, che il down avrebbe potuto essere sicuramente inferiore, ci scusiamo per l'enorme disagio, ma la sfortuna ci ha preso alla sprovvista, penso proprio non capiterà più :)

Share this post


Link to post
Share on other sites
Tiro via la macchina, la carico e la porto in Seeweb dove abbiamo attrezzature serie per testare i componenti visto che non sappiamo se l'alimentatore matto ha compromesso altro.

 

O.o di cosa hai bisogno per testare i componenti?

 

Basta, però, mettere una mano sull'alimentatore (che sysadmin geniale che sono eh? :asd: ) per capire che le ventole sono completamente grippate e che quella è la causa di tutto il casino, Grissom non serviva...

 

come al solito un granello di polvere ci (anzi, più VI) mette in mutande...

Share this post


Link to post
Share on other sites
O.o di cosa hai bisogno per testare i componenti?

tanta pazienza, e un'area di lavoro ampia.. non eravamo nella sala nuova di seflow (che ha un tavolo dove lavorare) e quindi lavorare li sarebbe risultato difficile...

le farm ottimizzano gli spazi... non sono fatte per lavorare :)

Share this post


Link to post
Share on other sites
O.o di cosa hai bisogno per testare i componenti?

 

Molto banalmente non avevo un serve di scorta su cui montare un pezzo alla volta per vedere se succedevano disastri e poi non mi sembrava per nulla bello lavorare in una sala non mia, quindi ho cercato di non approfittare della gentilezza di Seflow in tal senso.

Share this post


Link to post
Share on other sites

Se vi può consolare abbiamo avuto un episodio simile anche se, per fortuna senza conseguenze.

 

Un cliente disdice un server dedicato e gli confermiamo che l'1 ottobre glielo disattiviamo.

Domenica 30 settembre dò disposizioni a chi di dovere all'interno dello staff per la disattivazione precisando che avrebbe dovuto aver luogo il giorno dopo, ma dopo 1 ora circa il server risulta inaccessibile. Allora penso: "vabbè... non mi sono spiegato bene, fa niente, tanto per il cliente andava bene disattivarlo anche subito".

 

L'indomani scopro che il server si era disattivato... da solo! Scheda di rete partita...

 

La verità è che Murphy si diverte alle nostre spalle...

Share this post


Link to post
Share on other sites
Sign in to follow this  

×