Loading

| HT news

| Internet

I dettagli dell'infrastruttura di Wikipedia

di Stefano Bellasio
wikipedia.jpg

WikipediaPer chi lavora nel settore si tratta sicuramente di domande "interessanti" da porsi per capire come un gigante del web possa organizzare la propria struttura. La gestione dell'infrastruttura di Wikipedia non è proprio conforme alle norme che possiamo riscontrare nelle altre grandi infrastrutture delle aziende e dei portali che operano nel web.

Domas Mituzas, performance engineer dell'enciclopedia libera, scherza sull'infrastruttura: "i downtimes sono gli avvenimenti per noi più remunerativi", affermazione curiosa, ma con un senso compiuto se si tiene conto che durante i downtimes di Wikipedia appare spesso, al posto della homepage, una pagina dedicata alle donazioni con la richiesta di offerte per l'acquisto di nuove macchine per Wikipedia. Dopo aver approfondito la struttura che consente a Google di essere "infallibile" sul fronte dell'uptime, affrontare la situazione di Wikipedia vuol dire mettersi di fronte ad una realtà insolita data la vastità delle informazioni divulgate e la fama di Wikipedia.

Mituzas, che ha parlato della struttura di Wikipedia in occasione della già citata conferenza di O'Reilly, Velocity Conference, ha spiegato come la struttura di Wikipedia vada vista sotto un'ottica diversa da quella utilizzata per altre infrastrutture: "L'approccio classico per la garanzia di un uptime sicuro non è proprio la strada che seguiamo su Wikipedia. Ovviamente non vi chiedo di fare quello che facciamo noi, ma perdere qualche minuto di aggiornamenti non distrugge il nostro business. Fino a che un crash non si trasforma in un disastro, diciamo che non avviamo una caccia alle streghe" ha dichiarato l'ingegnere nel corso della presentazione.

Le affermazioni non devono far pensare al team di Wikipedia come una squadra poco seria, gli ingegneri sono impegnati costantemente nel cercare di mantenere le prestazioni del sito stabili e al meglio: il discorso relativo alla poca preoccupazione sull'uptime e sui piccoli downtime è riconducibile al fatto che il sito non ha, come noto, alcuna campagna pubblicitaria attiva e viene finanziato solamente dalle donazioni degli utenti, non subisce pertanto "pressioni" nel caso di disservizi, anche lievi. Nonostante ciò, l'uptime e le performance della piattaforma sono molto al di sopra del 99%.

Mituzas, nel passato impiegato come Support MySQL Engineer, ha rilasciato anche alcuni dati relativi alle interrogazioni sul database dell'enciclopedia e al numero di visualizzazioni:

- 50,000 richieste http al secondo

- 80,000 queries SQL al secondo

- 7 Milioni di utenti registrati

- 18 Milioni di pagine presenti solo nella versione in Inglese

- 220 Milioni di revisioni

- 1.5 terabyte di dati compressi

Quando il servizio nasce nel 2001 si appoggia inizialmente ad uno script Perl/CGI in esecuzione su una sola macchina. Ad oggi la piattaforma utilizza circa 200 application servers, 20 macchine dedicate al database, e infine 70 Squid cache servers.

Il software sviluppato per il funzionamento di Wikipedia, MediaWiki, è oggi rilasciato liberamente e rappresenta uno dei principali cardini del software dedicato alla creazione di wiki online. Oltre a Squid, Wikipedia fa ampio uso di un altro sistema di cache, Memcached e del load balancer Linux Virtual Server.

Altre informazioni, più dettagliate, sulla struttura di Wikipedia, sono disponibili in un pdf rilasciato nel 2007 dallo stesso Mituzas.

Commenti

ERRORE: I commenti sono disabilitati.
Effettua il login per poter commentare.




Caricamento Login Form in corso, attendere prego...

Chiudi




Logout in corso, attendere prego...

Chiudi




Caricamento Login Form in corso, attendere prego...

Chiudi

Thursday 26 June 2008