Jump to content
Sign in to follow this  
bigstefanino

Web4web... server down da diverse ore...

Recommended Posts

non ho detto che sei un bugiardo, semplicemente in caso di problemi ( e down di 40 minuti non sono problemi di poco conto) bisognerebbe aprire quantomeno dei ticket.

siamo in 10, questo forum invece lo controllo solo io ed alex.

 

tornando a noi, io non ho idea che monitoraggio sia quello dato che ha in media 600ms di latenza, nemmeno dall'australia si pinga così alto.

bisogna poi verificare la frequenza di monitoraggio perché come stavo verificando con frk, directadmin ha un bug ovvero ad ogni minimo intervento sul server ricarica intoto apache e se il monitoraggio becca proprio quei 2 secondi in cui la configurazione viene ricarica te lo segna come down per una durata pari all'intervallo tra i check.

 

la nuova versione di directadmin (dietro nostra specifica richiesta) ha cambiato questa modalità di funzionamento e dovrebbe risolvere il problema delle microdisconnessioni che fanno scattare gli allarmi ma che son trasparenti agli utenti che quindi non aprono alcun ticket.

stiamo testando la nuova versione da ieri, attendiamo qualche giorno per vedere gli sviluppi e riportare i risultati anche a directadmin stessa.

 

fattore concorrenza: come mai con altri lo stesso monitor non invia allarmi? probabilmente per il problema di directadmin appena esposto che sommato ai nostri pacchetti con domini illimitati (sono quasi tutti multidominio) portano in media ad un reload di apache a non più di 6-7 minuti l'uno dall'altro. tutto il giorno, tutti i giorni. per la gioia dei monitoraggi che al primo test trovano un down ( di 1 secondo) e poi al test successivo probabilmente ne trovano un secondo (sempre di 1 secondo)

 

non so, semplicemente avemmo gradito che aprissi un ticket prima di postare qui parlando al forum senza interpellare i diretti interessati.

 

hai detto che non è un problema grave, mi sembra ironico, 600ms (che ripeto, non ci sono nemmeno dall'australia) di latenza media e down da 40 minuti non sono gravi? (io ne vedo solo 3 di down veri , non uno ogni 2 giorni, e quei tre probabilmente sono stati generati da me per arginare il problema di cui sopra)

 

se mi contatti con un ticket vediamo di far luce anche sul tuo sistema di monitoraggio proprio come ho fatto con quello di frk che dava falsipositivi 20 volte al giorno (al limite manda un pm ma poi il ticket mi serve ugualmente)

 

comunque sia, non volevo urtare la tua sensibilità, ne darti del bugiardo ma preferiremmo, per le prossime volte, che venga aperto quantomeno un ticket, magari è una problematica alla quale stiamo già lavorando e non avrebbe senso far circolare informazioni mendaci su internet. se posti qui magari me ne accorgo solo dopo alcune ore sopratutto se sono impegnato a risolvere un problema.

altri utenti leggono, google indicizzati, bla bla bla... meglio evitare insomma.

Share this post


Link to post
Share on other sites

gughi quel dato del 97.29% viene su un ping a latenza di 1014 ms ... ste latenze non c'erano neppure quando si andava coi modem 56k ... come puoi affidarti a dei dati così, chi ti dice che il down sia di guest e non del tuo sistema di monitoraggio? (la macchina monitor down a livello di rete pinga a vuoto e vede il tuo target down)

Share this post


Link to post
Share on other sites
gughi quel dato del 97.29% viene su un ping a latenza di 1014 ms ... ste latenze non c'erano neppure quando si andava coi modem 56k ... come puoi affidarti a dei dati così, chi ti dice che il down sia di guest e non del tuo sistema di monitoraggio? (la macchina monitor down a livello di rete pinga a vuoto e vede il tuo target down)

Alex, il sistema pinga da varie parti del globo, quindi la latenza alta potrebbe essere dovuta anche a questo.

 

Poi i down sono confermati anche da altri sistemi agli stessi orari. Non credo che tutti i sistemi di monitoraggio cadano in contemporanea alla stessa ora :062802drink_prv:

 

Altra cosa: quando mi arriva l'alert via email provo a raggiungere il sito dalla mia postazione ed il sito è sempre irraggiungibile. Quindi, il sistema funziona.

Share this post


Link to post
Share on other sites

Posso avere nel dettaglio gli alert?

Quelli di 2-3 minuti non li prendo in considerazione per i motivi di cui sopra.

E' impossibile per chiunque, offrire il 100% di uptime se non tramite cluster in bilanciamento, ed ovviamente non su un lowcost.

Anche i cluster active-standby non offrono il 100% di uptime, hanno infatti un tempo di convergenza necessario a far partire il server in standby, può essere 2 secondi come 2 minuti, ma non è comunque il 100%.

 

Inoltre, facciamo manutenzione costante agli apparati (come è giusto che sia), se devo riattivare una configurazione di apache il tuo monitor potrebbe "beccare" il momento in cui apache riparte. O più semplicemente un riavvio del kernel o un upgrade di qualche libreria che richiede il riavvio della macchina o di qualche servizio automaticamente fanno scattare alert per una durata pari alla frequenza di intervallo (che mi pare sia 2 minuti nel tuo caso, dato che il down minimo è 2 minuti) del monitoraggio.

 

Ieri abbiamo aggiornato DirectAdmin ad una versione sperimentale che non dovrebbe più effettuare il reload del server ad ogni cambio di configurazione (che come ho già detto, avviene, nel nostro caso, ogni 5-6-10 minuti massimo) ma dovrebbe effettuare un meno invasivo graceful.

 

Però, ripeto: apri un ticket che vediamo di venirci a capo, se non apri un ticket e/o non mi dai ulteriori dettagli sui quali lavorare (nome del monitoraggio, frequenza, dettaglio con le interruzioni e tutto il resto) è per noi impossibile risolvere eventuali errori.

 

 

EDIT: dubito fortemente che il sistema funzioni regolarmente perchè durante i down indicati dal tuo programma, compreso quelli da 20 minuti o più io ho i grafici del traffico che indicano un flusso costante.

Inoltre, 600ms è impossibile ottenerli, guarda un traceroute proveniente da Australia (che credo sia la destinazione più lontana da noi, dato che devi transitare tutta l'Europa occidentale, l'Atlantico, tutti gli USA da costa a costa e tutto il Pacifico), più precisamente Telstra.

E guarda anche un ping da noi verso di loro.

 

traceroute to 77.95.175.42 (77.95.175.42), 30 hops max, 40 byte packets
1  vlan250.lon-service6.Melbourne.telstra.net (203.50.2.177)  0.388 ms  0.33 ms  0.175 ms
2  TenGigabitEthernet0-12-0-2.exi-core1.Melbourne.telstra.net (203.50.80.1)  0.421 ms  0.667 ms  0.473 ms
3  Bundle-POS1.chw-core2.Sydney.telstra.net (203.50.6.13)  15.046 ms  14.861 ms  14.951 ms
4  Bundle-Ether1.oxf-gw2.Sydney.telstra.net (203.50.6.90)  14.901 ms  14.871 ms  14.95 ms
5  TenGigabitEthernet14-0.sydo-core01.Sydney.reach.com (203.50.13.42)  15.193 ms  15.315 ms  15.243 ms
6  i-3-1-0.sydp-core02.bi.reach.com (202.84.144.249)  15.195 ms  15.32 ms  15.245 ms
7  i-2-1-1.wil-core02.bx.reach.com (202.84.140.38)  164.519 ms  164.352 ms  164.261 ms
8  i-1-2.tlot03.bi.reach.com (202.84.251.238)  164.356 ms  164.375 ms  165.483 ms
9  pccwglobal-peer.tlot03.pr.reach.com (134.159.62.194)  164.938 ms  164.679 ms  164.481 ms
10  wind.pos2-2.cr01.mil01.pccwbtn.net (63.218.37.6)  368.669 ms  368.713 ms  368.859 ms
11  217.19.145.11 (217.19.145.11)  368.948 ms  368.907 ms  368.838 ms
12  eth2-gw01r0135.guest.retelit.it (217.19.148.218)  382.403 ms  382.515 ms  382.297 ms
13  b1-fw02r0130.farm.guest.it (77.95.175.12)  345.712 ms  346.589 ms  345.607 ms



$ ping www.telstra.net -c 10
PING www.telstra.net (203.50.5.178) 56(84) bytes of data.
64 bytes from www.telstra.net (203.50.5.178): icmp_seq=1 ttl=50 time=346 ms
64 bytes from www.telstra.net (203.50.5.178): icmp_seq=2 ttl=50 time=349 ms
64 bytes from www.telstra.net (203.50.5.178): icmp_seq=3 ttl=50 time=356 ms
64 bytes from www.telstra.net (203.50.5.178): icmp_seq=4 ttl=50 time=345 ms
64 bytes from www.telstra.net (203.50.5.178): icmp_seq=5 ttl=50 time=345 ms
64 bytes from www.telstra.net (203.50.5.178): icmp_seq=6 ttl=50 time=345 ms
64 bytes from www.telstra.net (203.50.5.178): icmp_seq=7 ttl=50 time=345 ms
64 bytes from www.telstra.net (203.50.5.178): icmp_seq=8 ttl=50 time=350 ms
64 bytes from www.telstra.net (203.50.5.178): icmp_seq=9 ttl=50 time=357 ms
64 bytes from www.telstra.net (203.50.5.178): icmp_seq=10 ttl=50 time=350 ms

--- www.telstra.net ping statistics ---
10 packets transmitted, 10 received, 0% packet loss, time 9001ms
rtt min/avg/max/mdev = 345.767/349.384/357.049/4.149 ms

 

Siamo sui 300ms, il tuo monitor indica valori, nel migliore dei casi, quasi doppi.

Edited by guest

Share this post


Link to post
Share on other sites

A parziale difesa di gughi, devo però dire che i down prolungati risultano anche a me... solo che so che state lavorando e, avendo già ticket aperti non vengo a rompere le scatole ulteriormente!

 

Esempio pratico: ieri sera ce ne è stato uno di almeno mezz'ora tra le 20.20 e le 20.50, vi risulta??? Mi ero messo a lavorare sul forum e dopo un pò ho lasciato stare e sono uscito, bon. Poi ho avuto conferma anche dal monitoraggio (non quello che invia falsi positivi).

 

Lo dico qui giusto per chiarirsi, se non vi risulta nemmeno quello di ieri sera vuol dire che c'è qualcosa che non va...

Share this post


Link to post
Share on other sites

Si, ci risulta, non di 30 minuti ma più breve (circa 15, massimo 20) però ci risulta e non nego a dire la motivazione: load altissimo, simile al problema avuto in precedenza con load di 986.

 

Dopo quella problematica abbiamo inserito uno script di monitoraggio che in caso di load anomalo riavvia la macchina.

Ecco, ha funzionato in parte, ha identificato il load ma non ha avuto tempo di riavviare. Ora, dopo il problema di ieri, abbiamo abbassato ulteriormente la soglia di sensibilità (dovrebbe 'scattare' prima e quindi dovrebbe avere più tempo per fare un reboot) e riveduto al ribasso alcune configurazioni di apache.

A quanto pare un sito (ancora non sappiamo quale) in determinati orari sviluppa una mole di traffico non indifferente da far collassare nel giro di pochi minuti (ecco il perchè non ha avuto tempo di riavviare la macchina, ha iniziato la procedura di reboot ma si è bloccato senza portarla a termine per carenza di risorse) un QuadCore abbastanza spinto come hardware.

Per di più ora il reboot lo fa "brutalmente" bypassando la procedura di shutdown che potrebbe non andare a termine. Ora riavvia e basta.

Dovrebbe tutelarci in caso di load anomali (di cui stiamo cercando di capire le cause perchè una soluzione con reboot di emergenza non è una soluzione ma una pezza). Se non dovesse bastare, faremo fare il reboot direttamente agli alimentatori o all'hardware.

 

Noi non neghiamo i problemi che abbiamo avuto, non l'abbiamo mai fatto.

Quello che però non è corretto dire è down da 20 o 40 minuti ogni 2 giorni perchè non è affatto vero. (men che meno senza informare i diretti interessati tramite i canali ufficiali, HT non è un helpdesk, io per primo ho usato questo canale come mezzo di comunicazione con i clienti, ma perchè non avevamo altro modo essendo senza connettività. In condizioni normali, abbiamo i nostri canali. Se poi si vuol scrivere anche su HT nessun problema, ma almeno aprire un ticket ed informare l'azienda interessata sarebbe più corretto, secondo noi)

Share this post


Link to post
Share on other sites

Alessandro, credo che ci stiamo incartando nel discorso.

 

Non era mia intenzione sporcare l'immagine della vostra azienda. So benissimo quanto impegno ci mettiate e quanto siete presenti, sia qui che nei canali ufficiali.

 

Nè pretendo che un servizio dai costi bassissimi possa garantire prestazioni ottenibili solo spendendo 10-20 volte tanto.

 

Mi dispiace che il mio intervento abbia creato problemi. E' stato fatto in buona fede. Se potessi editerei il post.

 

La prossima volta aprirò un ticket sicuramente e non ripeterò l'errore.

 

Ecco il dettaglio di ieri sera:

 

primo sistema (mi sa che è quello che dà qualche falso positivo :emoticons_dent2020:

 

web4web.th.jpg

 

secondo sistema

 

web4web2.th.jpg

 

Edit: il 16 mi risultano 20 minuti di down dalle 17,23 alle 17,43

Share this post


Link to post
Share on other sites

Quello di ieri si, confermiamo. In realtà è stato più breve, essendo un problema di load troppo elevato non da tutti viene visto come un down dall'ora X all'ora Y perchè non è detto che tutti non riescano ad accedere negli stessi identici orari.

Ad esempio da casa mia son riuscito a collegarmi perfettamente in ssh, era solamente molto elevata la latenza. Lo stesso dicasi per apache.

Il problema vero nasce quando il load aumenta oltre i limiti, ma di certo non passa da 0 a 90 in un secondo. Ci vogliono svariati minuti, durante il quale il server funziona, sempre più lentamente ma funziona.

 

Mi puoi mandare anche gli estremi di tutti gli altri? Compreso quelli da 2-3 minuti, per vedere cosa può essere a far scattare il tuo monitoraggio.

 

Ma son pronto a scommettere che sono i cambi di configurazione.

 

Inoltre, che servizio di monitoraggio è?

 

(apri un ticket, altrimenti Ste tra un po ci mena, non è un helpdesk)

Share this post


Link to post
Share on other sites
E' questo il problema. Visto che sei sempre qui mi è sembrato naturale postare qui :sisi:

 

Si ma eravamo senza connettività, non era un problema limitato ad un singolo server e non avevamo alcun modo di comunicare con i clienti.

Share this post


Link to post
Share on other sites
Guest
This topic is now closed to further replies.
Sign in to follow this  

×