Jump to content
Sign in to follow this  
bigstefanino

Web4web... server down da diverse ore...

Recommended Posts

Si, ora sembra tutto nella normalità.

Il problema è stato causato un numero spropositato di semafori lasciati aperti da apache che han saturato i valori di tolleranza da noi impostati. Dopo un aggiornamento fatto pochi secondi prima del down, si è reso necessario il riavvio di apache che non è più ripartito correttamente.

Share this post


Link to post
Share on other sites
Tutto a posto! Rapidissimi come sempre! :approved:

 

Ciò non toglie che seguirà una comunicazione di un down programmato per risolvere (si spera in maniera definitiva) questo problema.

 

 

Alessandro.

Share this post


Link to post
Share on other sites

quelle faccine chi?

quelle nel disegno? se ti riferisci a quelle erano il mio messaggio di attesa: "presto torneremo online", poi sono passati i fatidici 14 giorni (dal 14 al 28 se non erro) e allora quella è rimasta l'unica cosa a cui i miei utenti facevano affidamento...credo che la mattina si collegassero e dicessero una preghierina per il sito -.-

 

cmq se dovete fare una chiusura programmata, potreste farla di mattina? è il momento in cui tutti i miei utenti sono a scuola o al lavoro :D

Share this post


Link to post
Share on other sites
quelle faccine chi?

quelle nel disegno? se ti riferisci a quelle erano il mio messaggio di attesa: "presto torneremo online", poi sono passati i fatidici 14 giorni (dal 14 al 28 se non erro) e allora quella è rimasta l'unica cosa a cui i miei utenti facevano affidamento...credo che la mattina si collegassero e dicessero una preghierina per il sito -.-

 

Intendevo i personaggi del tuo sito ma poi ho visto che si tratta di Warcraft :D

 

cmq se dovete fare una chiusura programmata, potreste farla di mattina? è il momento in cui tutti i miei utenti sono a scuola o al lavoro :D

 

Vedremo, se possibile lo facciamo di notte, come di consueto. Dipende da vari fattori, perchè ne approfitteremo per fare anche altri interventi e bisogna vedere in che modo riusciamo ad incastrare il tutto per evitare disagi il più possibile. Comunque, si tratterà di pochi minuti, 10 o 15 massimo, salvo imprevisti.

 

(ma qui non è il luogo adatto, HT non è un helpdesk :cartello_lol: )

Share this post


Link to post
Share on other sites

Ora dovrebbe essere su.

Poi arriverà la spiegazione, come sempre.

Abbiamo avuto un grosso problema. Adesso finisco di fare i controlli del caso, intanto scusate.

 

EDIT:

un problema a livello di BGP, non di server.

Share this post


Link to post
Share on other sites

Ora sembra funzionare tutto correttamente.

Il problema, che ha tenuto la nostra rete non visibile per circa mezzora, è stato causato da un aggiornamento delle route che importiamo via BGP. Tale aggiornamento ha fatto crashare tutti e quattro (si, ne abbiamo quattro di router bgp) i router bgp (route e firewall in full-mesh) isolando la nostra rete.

 

Attualmente non siamo in grado di identificare l'upgrade che fa crashare il BGP pertanto ci siamo coordinati con il noc di retelit per importare solo la default route anzichè la full-route con tutti i prefissi mondiali. Così facendo, non dovremmo essere più soggetti ad update malformati che fanno crashare i server.

 

La situazione è temporanea, appena risolto il problema torneremo in full-mesh con la full routing table.

Share this post


Link to post
Share on other sites

[ motivazione tecnica ON ]

Più precisamente il problema sembra scaturire da dei prefissi con più di 4 ASN a 32bit che fanno crashare il server BGP.

Esiste già una patch sulla quale stiamo lavorando.

[ motivazione tecnica OFF ]

Share this post


Link to post
Share on other sites
Guest
This topic is now closed to further replies.
Sign in to follow this  

×