PREMETTO: THREAD LUNGHISSIMO!!!
Ciao a tutti,
Mi trovo in una situazione quantomeno ridicola con un hosting provider presso il quale ho un server dedicato. Per correttezza non ho intenzione di fare nomi, almeno per ora.
Il server in questione ha debian [stable], un controller 3ware 8000 e directadmin (ehsì, per una volta mi sono affidato a un pannello)
Mi sono affidato a directadmin proprio per evitare di rompermi le palle con versioni di software, configurazioni, incompatibilità eccetera (in quanto è un server di produzione)
Puntualmente, circa 1 volta al mese, si PIANTA. Rimonta il filesystem in read-only [i dischi sono da 160 SATA in RAID 1] e lì resta.
Controllando da tw_cli [l'interfaccia CLI per l'hardware treeware] il risultato è il seguente
Ora.Codice:[root@lexotan][/var/log]# tw_cli //lexotan> /c0 show Unit UnitType Status %Cmpl Stripe Size(GB) Cache AVerify IgnECC ------------------------------------------------------------------------------ u0 RAID-1 DEGRADED - - 189.922 ON - - Port Status Unit Size Blocks Serial --------------------------------------------------------------- p0 OK u0 189.92 GB 398297088 V40DEMZG p1 DEGRADED u0 189.92 GB 398297088 V40B16WG //lexotan>
Il mio hoster dice che non è un suo problema in quanto i lserver è unmanaged.
E che il problema è di tipo SISTEMISTICO.
Io non ho di certo 20 anni di esperienza con linux ma CAZZO, un array che mi viene segnalato come DEGRADED e che si monta in read only, può davvero trattarsi di un problema sistemistico?!
Il kernel è quello di default di debian, che è stato installato insieme alla macchina. Non ho toccato una virgola.
Per quella che è la mia esperienza, considero che un problema del genere possa essere O a livello hardware oppure a livello basso [vedi kernel o modulo 3w_xxxx]
secondo voi?
La prima volta che si è presentato questo problema, la risposta è stata "si è trattato di un attacco SSH, il server è stato riavviato, verifichi i log di sistema"
Poteva anche starci.. l'avevo tirato su da poco ed effettivamente non avevo ancora cambiato la porta di default di SSH (mea culpa)
Ovviamente dopo il riavvio ho verificato i log ma nulla, il server sembrava morto tutto ad un tratto (e non c'era NESSUN tentativo di bruteforce su SSH)
Al secondo ticket aperto presso l'hoster, abbiamo avuto questo scambio di risposte:
Hoster:
Io:Salve, ha un account di tipo unamanged, per tale ragione non possiamo controllare quale problema a livello sistemistico può avere. In caso chieda un intervento sistemistico ci autorizzi aggiornando il ticket autorizzando anche un intervento soggetto a tariffazione al costo di eur40+iva/ora.
Cordiali Saluti
Hoster:Da quand'è che un device che si rimonta read-only si tratta di un problema sistemistico?
Io:Salve, qualsiasi richiesta che richieda un intervento al suo server ad eccezione dei riavvii e di sostituzioni hardware è da considerarsi soggetta a tariffazione. Cordiali Saluti
Hoster:allora è sufficiente un riavvio, per il resto ci darò un occhio io. grazie
A questo punto decido che la soluzione migliore e la più sicura è quella di autorizzare questo fantomatico "intervento sistemistico" per risolvere il problema (?)Salve, in caso il riavvio non dovesse mandare up il server deve autorizzarci all' intervento a tariffazione per il ripristino dello stesso. Attendiamo tale autorizzazione e procederemo prima al riavvio (compreso nell' account). Cordiali Saluti
Mi viene richiesta la password di root (che puntualmente ho dato) ma non viene effettuato nessun intervento sistemistico (o quantomeno a me non è giunta nessuna fattura), ma ricevo questa risposta dall'hoster:
Già qui la situazione è paradossale, prima si parla di errore nella gestione del controller 3ware, e poi si parla di guasto hardware.Salve, sembrava esserci un errore nella gestione del controller 3ware usato per il raid. è sicuro che il modulo che ha caricato di debian non crei conflitti? Per sicurezza ho comunque sostituito uno dei due hard disk (il primario) e il controller raid mettendone uno nuovo. In server è tornato operativo alle 17.52 ed ha quasi terminato il rebuild completo dell' array (operazione fa comunque a caldo). Nessun costo per l' operazione le verrà addebitato in quanto (non ne sono certo) ma si sospetta un guasto hardware. Cordiali Saluti
Io ovviamente, ripeto per la 23148312 esima volta, non ho (e NON avrei mai) cambiato/modificato/riconfigurato kernel e/o moduli, il server l'ho lasciato come mi è stato consegnato (sarei scemo a mettermi a smanettare sui moduli di un server in produzione).
Passa circa un mese, e lo stesso problema si ripresenta. Nuovo scambio di ticket:
Io:
Hoster:.. siamo sicuri non si tratti di un problema di driver? mi sembra strano che si sia scassato DI NUOVO un disco, tra l'altro è proprio quello sostituito la volta scorsa (se non erro) ho provato a rilanciare un rebuild manuale ma non me lo lascia fare. Mi sa che in questa situazione si può solo da BIOS
Hoster nuovamente, dopo aver ricevuto la psw:salve, può consegnarci la password di accesso dell' utente root? nella giornata di domani un nostro sistemista effettuerà le opportune modifiche. Cordiali Saluti
E qui già stiamo cadendo sul ridicolo, secondo me.Salve, ho verificato l' hardware (smartd degli hdd) e un check al controller stesso, ma non han segnato errori. Ho ntato però beh "basta" togliere e rimettere la corrente affinchè il sistema operativo ricominci a vedere i due dischi (da bios del controller li vede entrambi). Presumo quindi sia un qualche errore nei driver del sistema operativo. Cordiali Saluti
Io:
Hoster:Grazie dei test ma.. quindi? nel senso, ce lo teniamo così?
Io:ora li vede Intanto cerco se trovo qualcosa in giro. Purtroppo non posso cambiarle scheda raid altrimenti perderebbe tutti i dati. Per lo più se ricapita ci avverte e facciamo un semplice reboot (con stacco della corrente notturno) nel frattempo che si studia una soluzione. Saluti
Hoster:grazie.. vedrò di fare altrettanto nei limiti di ciò che mi è possibile saluti
Qui la discussione finisce. Il servere lavora ottimamente per ancora un mese, e poi si ripresenta il problema.OK, comunque consideri che ora non è scoperto, nel senso che il raid sta funzionando correttamente. Il disagio diciamo che sarebbe quel riavvio notturno una volta al mese se proprio non si trova una soluzione. Ma essendo una scheda raid (3ware 8000) molto utilizzata penso che il problema se non è già fixato venga corretto presto.
Stufo di questa situazione contatto telefonicamente l'hoster, rispiegando il tutto.
E qui torniamo alla situazione riportata all'inizio del post... insomma: è colpa MIA.
Allora richiedo un intervento sistemistico per risolvere il problema, mi viene detto che non si può fare perchè il server non è managed, neanche a pagamento. ???? Ma qualche ticket fa non si discuteva di interventi sistemistici???
La soluzione proposta dall'hoster è ovviamente quella di passare al servizio Managed senza accesso root, chiaramente, e con un costo di quasi 50€ in più al mese se non erro.. cosa che di per se non è un grosso problema, ma non è ciò che si era preventivato.
Permettetemi il termine, mi sento preso per il culo.
Vorrei avere una vostra opinione.
P.S.
Probabilmente ci vuole poco a capire di chi sto parlando, vuoi perchè l'ho scritto magari su altri post, vuoi perchè basta un traceroute, vuoi perchè...
Gradirei però non si facesse nessun nome o domanda in merito almeno per ora.., piuttosto datemi una mano a risolvere o a capire![]()


LinkBack URL
About LinkBacks



Rispondi Citando


Segnalibri