30 Petabyte da spostare tra i data center, la sfida di Facebook
30 Petabyte di dati da spostare, tutti ospitati su un cluster Hadoop che non può più crescere perchè non c'è spazio ed energia nel data center. La sfida che si sono trovati di fronte gli ingegneri di Facebook è stata questa. Muovere un vero e proprio elefante in un nuovo data center, con la possibilità di farlo o in maniera fisica, prendendo i server e portandoli nel nuovo data center, oppure tramite replica dei dati tra i due data center.
Un minimo di introduzione è necessaria. Hadoop è un sistema di calcolo distribuito (basato sul paradigma funzionale MapReduce) che utilizza un file system distribuito (HDFS). Facebook fa un grandissimo uso di questo software per lo storage dei dati, e salva quindi al suo interno milioni di oggetti e informazioni, tutti appartententi agli utenti di Facebook. Ovviamente questo cluster cresce ad un tasso altissimo, e necessita di continua aggiunta di hardware. Gli ingegneri di Facebook si trovano davanti ad un problema simile a quello di voi lettori quando dovete spostare il vostro sito web presso un nuovo webhosting provider, magari con migliaia di foto da trasferire, ma nel loro caso due sono le complicanze: le dimensioni del cluster (30 Petabyte) e la necessità di farlo nel minor tempo possibile per non creare downtime nel servizio online.
Gli ingegneri hanno scritto una applicazione in grado di effettuare la replica dei dati, mantenendo solamente una minima latenza, un successo che è anche di Hadoop, poco considerato spesso come sistema in grado di fornire soluzioni per il disaster recovery. Facebook ha dettagliato tutto il processo direttamente in un articolo.

