Jump to content
Sign in to follow this  
hittolo

Seflow - Tutto down

Recommended Posts

Io non entro nel merito tecnico della cosa ma mi permetto di dire che leggendo al volo il comunicato la cosa che mi è saltata subito all'occhio è stata: "Abbiamo deciso di attivare la penale a tutti i clienti".

Poi si capisce cosa si intendeva: una penale di Seflow, un rimborso verso i clienti, ma sembra tutt'altro. Mi rendo anche conto dell'urgenza di uscire con qualche comunicazione, ma se posso permettermi, se è possibile, suggerirei di cambiare quella frase con qualcosa tipo: "Abbiamo deciso di corrispondere una penale a tutti i clienti" o qualcosa del genere, forse meglio: "abbiamo deciso di corrispondere un rimborso..."

Share this post


Link to post
Share on other sites
Io non entro nel merito tecnico della cosa ma mi permetto di dire che leggendo al volo il comunicato la cosa che mi è saltata subito all'occhio è stata: "Abbiamo deciso di attivare la penale a tutti i clienti".

Poi si capisce cosa si intendeva: una penale di Seflow, un rimborso verso i clienti, ma sembra tutt'altro. Mi rendo anche conto dell'urgenza di uscire con qualche comunicazione, ma se posso permettermi, se è possibile, suggerirei di cambiare quella frase con qualcosa tipo: "Abbiamo deciso di corrispondere una penale a tutti i clienti" o qualcosa del genere.

 

a me sembrava chiaro :D

non è che fanno pagare una penale ai clienti :D :D

Share this post


Link to post
Share on other sites

Vorrei aggiungere che il down non è stato in totale di 6 ore e mezzo.

 

Anche qui chi sa viene disturbato da questo vostro comportamento.

 

Ma comunque l'azienda è vostra, decidete voi come farvi odiare.

 

21A9W.png

Share this post


Link to post
Share on other sites
C'è la via di mezzo di "datacenter con uptime di rete garantito al 99.999 con penale".

 

vabbè se salta l'elettricità dei server, per dire, il sito/servizio non sarà raggiungibile lo stesso anche se l'uptime di rete non ne sarà intaccato... non mi sembra risolvi il problema...

Share this post


Link to post
Share on other sites
C'è la via di mezzo di "datacenter con uptime di rete garantito al 99.999 con penale".

 

Che non costa molto di più, anzi. In colocation leaseweb costa pure ordini di grandezza meno rispetto all'Italia.

 

Vorrei precisare che pure noi abbiamo la penale, ma questo non significa che i problemi non possano succedere.

 

Abbiamo avuto un disservizio e avendo creato 6 ore e trenta di downtime in una giornata abbiamo ignorato il contratto e deciso di moltiplicare per tre la penale contrattuale, credo sia un buon modo per ripagare i clienti.

 

Ho scritto connettività a singhiozzo perchè il owntime è stato in due fasi e non uno prolungato.

 

Nell' email inviata abbiamo fatto subito una premessa, ossia trasparenza. Niente formalismi, niente giri di parole, solo la nuda e cruda verità. I clienti hanno apprezzato questo gesto, credo sintomo di trasparenza.

 

Uno per la puntualizzazione hai ragione e ti ringrazio, comunque i clienti hanno capito :)

 

L' email non è perfetta, ci mancherebbe, ma c'è anche da capire che non abbiamo voluto attendere, appena risolto tutto e monitorato che la situazione era tornata stabile, alle 2 di notte siamo usciti con la comunicazione ed è stata scritta con alle spalle ore di lavoro e di tensione.

 

@superjeff come avresti voluto ricevere la mail? (te lo chiedo così da vedere cosa si aspettano i clienti)

Share this post


Link to post
Share on other sites
Beh quelle sono considerazioni che devi far tu su quanto vale la roba che hai da solo e sulla possibilità di passarla su servizio diverso, io parlavo solo dei telefoni spenti che spesso non sono una colpa ma un merito: premesso che ovviamente non possono assumere 200 persone per un down, preferiresti sapere che stanno lavorando e che qualcuno spende 30 secondi ogni 10 minuti per scriver su twitter o che metà del team è lì davanti al telefono?

 

 

Giorgio, mi sarò espresso male ma il mio appunto è:

passi per ieri che è stata una giornata infernale per tutti (anche per seeflow, ci mancherebbe) ed è encomiabile (!) (E nemmeno lo giustifico, a quel punto una bella segreteria telefonica per coloro che non possono seguire chat/twit)

ma tutta la settimana ?!?!?! Devo dedurre che per tanti miei tentativi telefonici ci sono stati altrettanti problemi ?

 

Oppure scrivere a caratteri cubitali: il numero telefonico è xxx.xxx.xxx.xxxx ma non lo usate, siate empatici o andate a Lourdes.

Share this post


Link to post
Share on other sites
Giorgio, mi sarò espresso male ma il mio appunto è:

passi per ieri che è stata una giornata infernale per tutti (anche per seeflow, ci mancherebbe) ed è encomiabile (!) (E nemmeno lo giustifico, a quel punto una bella segreteria telefonica per coloro che non possono seguire chat/twit)

ma tutta la settimana ?!?!?! Devo dedurre che per tanti miei tentativi telefonici ci sono stati altrettanti problemi ?

 

Oppure scrivere a caratteri cubitali: il numero telefonico è xxx.xxx.xxx.xxxx ma non lo usate, siate empatici o andate a Lourdes.

 

scusami ma di che numero telefonico stai parlando? Non offriamo e non abbiamo mai offerto supporto telefonico...

Share this post


Link to post
Share on other sites
vabbè se salta l'elettricità dei server, per dire, il sito/servizio non sarà raggiungibile lo stesso anche se l'uptime di rete non ne sarà intaccato... non mi sembra risolvi il problema...

99.99999 di uptime in 2N dal 2007, quindi si può considerare che la rete elettrica non salti. Io ho due alimentatori ridondanti, quindi al massimo in 5 anni avrò un riavvio. Ma ne dubito.

Il problema riappare se mi si fulmina la scheda madre, che è una cosa che non ho mai visto, ma per sicurezza ho comprato una scheda madre di riserva e l'ho fatta mettere nel magazzino del datacenter, quindi nel peggiore dei casi dovrò preoccuparmi del costo delle mani remote. Anzi, delle intelligenti mani remote.

Il backplane è ridondato, se si fulmina una CPU ho ancora l'altra... Direi che il problema, almeno ai miei livelli, è abbondantemente risolto!

In secondo luogo penso che otterrò un uptime migliore con questa configurazione che con una configurazione cloud distribuita, dove c'è sempre in agguato il problema di una configurazione tecnica.

 

@superjeff come avresti voluto ricevere la mail? (te lo chiedo così da vedere cosa si aspettano i clienti)

 

Questa è una domanda a cui rispondo con immenso piacere. Considera che io non sono stato danneggiato dal tuo down, intendo, si, ma non me ne sbatte nulla.

 

Però quello che avrei voluto leggere sarebbe stato questo:

 

1) la nostra configurazione di rete ha un problema strutturale di cui non ci eravamo mai accorti

2) spiegazione superdettagliata del disastro

3) 8 ore di down e non 6:30

4) che avete deciso di mettervi a tavolino e capire cosa fare per fare in modo che un evento del genere non succeda mai più, magari dite che avete assunto un consulente esterno che vi aiuti in questa cosa, non so.

5) che farete degli interventi di upgrade in seguito a queste decisioni, che in seguito a questi interventi la vostra rete sarà a prova di bomba e che questi interventi comporteranno ulteriori downtime

6) che avete intenzione di regalare TRE mesi gratis ad ogni utente, tutti, indiscriminatamente (eccetto me, così vi dimostro la mia buona fede)

7) le vostre più sentite e cordiali scuse con l'augurio di poter continuare una proficua collaborazione assieme (magari questo l'ho letto, non so)

8) nessun cenno a cose del tipo "le ciabatte non erano quelle casalinghe", che mi fa pensare che una cosa del genere vi potesse seriamente passare per la testa.

Share this post


Link to post
Share on other sites
99.99999 di uptime in 2N dal 2007, quindi si può considerare che la rete elettrica non salti. Io ho due alimentatori ridondanti, quindi al massimo in 5 anni avrò un riavvio. Ma ne dubito.

Il problema riappare se mi si fulmina la scheda madre, che è una cosa che non ho mai visto, ma per sicurezza ho comprato una scheda madre di riserva e l'ho fatta mettere nel magazzino del datacenter, quindi nel peggiore dei casi dovrò preoccuparmi del costo delle mani remote. Anzi, delle intelligenti mani remote.

Il backplane è ridondato, se si fulmina una CPU ho ancora l'altra... Direi che il problema, almeno ai miei livelli, è abbondantemente risolto!

In secondo luogo penso che otterrò un uptime migliore con questa configurazione che con una configurazione cloud distribuita, dove c'è sempre in agguato il problema di una configurazione tecnica.

 

 

 

Questa è una domanda a cui rispondo con immenso piacere. Considera che io non sono stato danneggiato dal tuo down, intendo, si, ma non me ne sbatte nulla.

 

Però quello che avrei voluto leggere sarebbe stato questo:

 

1) la nostra configurazione di rete ha un problema strutturale di cui non ci eravamo mai accorti

2) spiegazione superdettagliata del disastro

3) 8 ore di down e non 6:30

4) che avete deciso di mettervi a tavolino e capire cosa fare per fare in modo che un evento del genere non succeda mai più, magari dite che avete assunto un consulente esterno che vi aiuti in questa cosa, non so.

5) che farete degli interventi di upgrade in seguito a queste decisioni, che in seguito a questi interventi la vostra rete sarà a prova di bomba e che questi interventi comporteranno ulteriori downtime

6) che avete intenzione di regalare TRE mesi gratis ad ogni utente, tutti, indiscriminatamente (eccetto me, così vi dimostro la mia buona fede)

7) le vostre più sentite e cordiali scuse con l'augurio di poter continuare una proficua collaborazione assieme (magari questo l'ho letto, non so)

8) nessun cenno a cose del tipo "le ciabatte non erano quelle casalinghe", che mi fa pensare che una cosa del genere vi potesse seriamente passare per la testa.

 

ma scusami, l' email l' hai letta veramente tutta o a pezzi?

 

primo punto:

1) la nostra configurazione di rete ha un problema strutturale di cui non ci eravamo mai accorti

 

coperto da:

Sfortuna vuole che gli apparati fossero collegati entrambi alla stessa ciabatta in quanto inizialmente il DC2 non aveva previsto la doppia alimentazione anche sugli switch. Col lancio del cloud abbiamo adibito i rack all' alimentazione ridondata, ma per non abbassare il downtime volevamo attendere lo spostamento della corrente sugli switch al prossimo upgrade che sarebbe dovuto svolgersi a fine giugno.

2) spiegazione superdettagliata del disastro

 

Alle 10.50 riceviamo notifica dal nostro monitoring che la rete DC2 è irraggiungibile. Un nostro tecnico in loco ha appurato che la ciabatta avocent adibita a fornire corrente ai due switch punto stella si era guastata spegnendo tutti gli apparati ad essa collegati. Sfortuna vuole che gli apparati fossero collegati entrambi alla stessa ciabatta in quanto inizialmente il DC2 non aveva previsto la doppia alimentazione anche sugli switch. Col lancio del cloud abbiamo adibito i rack all' alimentazione ridondata, ma per non abbassare il downtime volevamo attendere lo spostamento della corrente sugli switch al prossimo upgrade che sarebbe dovuto svolgersi a fine giugno.

Come da comunicazione su twitter, ci siamo immediatamente attivati per la sostituzione della ciabatta. Vorrei sottolineare che non si tratta di ciabatte casalinghe, ma bensì di ciabatte avocent (per la precisione:

http://www.avocent.it/uploadedImages...1000_f_415.jpg

). Sostituita in pochi minuti, ci siamo accorti che il guasto aveva danneggiato tutti gli apparati ad essa collegati (circa 6 switch), cosa di per se molto strana viste le protezioni interne. Di fatto in pochi istanti abbiamo trovato 6 switch inutilizzati. Due di questi sono i nostri routing switch modello cisco 4948 10GE (

Cisco Catalyst 4948 10 Gigabit Ethernet Switch - Cisco Systems

).

Abbiamo quindi sostituito i due switch con un'altro dello stesso modello, che tenevamo di scorta e alle 12.10 i servizi sono tornati online e tutto sembrava risolto. Sembrava perchè alle 15.30 circa riceviamo ulteriore segnalazione che anche il terzo switch (collegato singolarmente in attesa di altri due switch già ordinati e in arrivo per lunedì) dava evidenti segnali di instabilità. Dopo qualche altro minuto lo switch si è spento non dando più alcun segnale. A questo punto ci siamo trovati in difficoltà vedendo 3 switch rompersi nel giro di 3 ore. Parliamo di switch con alimentazione ridondata e studiati per uso intensivo.

Davanti all'impensabile abbiamo immediatamente contattato un nostro fornitore (sempre di milano) e un nostro incaricato ha raggiunto il magazzino per prelevare un nuovo switch. Purtroppo oggi milano (per chi è di Milano conosce il disagio) oggi era previsto l' arrivo del papa per la visita di domani. Molte strade erano quindi chiuse al traffico e le poche aperte erano completamente congestionate. Di fatto il tempo di trasporto si è quadruplicato allungando notevolmente i tempi di ritorno alla normale attività. Viste le ipotesi avute anche da voi clienti su possibili problemi elettrici, il nuovo switch è stato collegato usando le prese dei due rack vicini e indicativamente

alle 20

tutto è tornato alla normalità.

3) 8 ore di down e non 6:30

 

Questa è una tua opinione, noi ci basiamo sulle segnalazioni inviate dal nostro icinga relativi al gateway di rete. Ricordo anche che ad un certo punto, per velocizzare le operazioni di rimessa online abbiamo consigliato di riavviare, probabilmente non lo hai fatto e infatti sei arrivato lungo la sera dovendo aspettare il nostro intervento.

 

 

4) che avete deciso di mettervi a tavolino e capire cosa fare per fare in modo che un evento del genere non succeda mai più, magari dite che avete assunto un consulente esterno che vi aiuti in questa cosa, non so.

 

5) che farete degli interventi di upgrade in seguito a queste decisioni, che in seguito a questi interventi la vostra rete sarà a prova di bomba e che questi interventi comporteranno ulteriori downtime

 

Vogliate accettare le nostre più sincere scuse per l' accaduto. Stiamo studiando un nuovo sistema di erogazione dell'elettricità per gli apparati sensibili che dovrebbe abbassare notevolmente la percentuale di rischio che il problema si possa ripresentare.

 

Gli switch saranno inviati per sostituzione e abbiamo chiesto di analizzare le reali cause che hanno portato sistemi così importanti ad una rottura con una percentuale prossima al 100%.

6) che avete intenzione di regalare TRE mesi gratis ad ogni utente, tutti, indiscriminatamente (eccetto me, così vi dimostro la mia buona fede)

 

Non credi sia un pò esagerato per 6 ore e mezza di downtime? Credo che l' aver moltiplicato per tre il rimborso incluso nel contratto sia già sintomo di rispetto per i nostri clienti e il loro business. Inoltre non ci siamo attaccati a nessun cavillo, abbiamo detto a TUTTI i clienti, anche quelli senza sla, vi rimborsiamo.

 

 

7) le vostre più sentite e cordiali scuse con l'augurio di poter continuare una proficua collaborazione assieme (magari questo l'ho letto, non so)

 

Vogliate accettare le nostre più sincere scuse per l' accaduto.

e:

voglio prima di tutto ringraziarvi per la pazienza e la professionalità con cui oggi, anche in momenti di forte pressione, ci avete permesso di lavorare e giungere alla risoluzione del problema.

 

 

8) nessun cenno a cose del tipo "le ciabatte non erano quelle casalinghe", che mi fa pensare che una cosa del genere vi potesse seriamente passare per la testa.

 

Questo è dovuto al fatto che su twitter alcuni clienti han chiesto il modello di ciabatta e se avevano il fusibile come quelle di casa, quindi lo abbiamo incluso nell' email con il modello esatto, così come gli switch.

 

 

Per quanto riguarda il tuo discorso ridondanza:

 

99.99999 di uptime in 2N dal 2007, quindi si può considerare che la rete elettrica non salti. Io ho due alimentatori ridondanti, quindi al massimo in 5 anni avrò un riavvio. Ma ne dubito.

 

E se succede che la presa brucia e si porta dietro tutti gli apparati ad essa collegati? Puoi avere anche un apparato stramegaridondato, ma se te lo brucia tu rimani a piedi lo stesso :approved:

 

Saluti

Edited by SeFlow

Share this post


Link to post
Share on other sites

Ok, allora perdonami, l'ho letta di fretta, come tutti gli altri tuoi clienti suppongo. Quindi penso molti avranno i miei stessi dubbi/problemi.

No, non è stato quello il caso, sono tornato up qualche istante prima che i primi utenti di twitter dicessero "up". 8 ore per quanto mi riguarda.

Share this post


Link to post
Share on other sites

Please sign in to comment

You will be able to leave a comment after signing in



Sign In Now
Sign in to follow this  

×