| HT news
| Cloud StorageBig Data: il web cresce velocemente e ha fame di storage
di Stefano BellasioIl web cresce ad un ritmo vertiginoso, e sul fronte dei servizi Internet c'è un fattore comune che unisce tutti: il consumo di storage è in fortissima crescita, tale da costringere molte aziende a fare dei piani per i prossimi anni su come organizzare le loro infrastrutture per la gestione dello storage. Del tutto normale in fondo che la quantità di dati continui a crescere a livelli esponenziali, basti pensare al numero di tweets prodotti ogni giorni, alla base di informazioni di Facebook e a tutto il traffico che solamente questi due colossi muovono nel resto del web.
Foto di Annopieterse@flickr
Ma quando si parla di Big Data bisogna avere uno sguardo più globale su quella che potremmo definire una nuova economia dell'informazione. Si parte banalmente dalla capacità dei nostri hard disk, Samsung ha annunciato due giorni fa di riuscire a produrre hd fino a 4 TB di spazio disponibile: inevitabilmente questo spazio viene occupato molto rapidamente sia sul fronte dell'utilizzo domestico, quindi da chi utilizza il PC per svago e lavoro, sia sul fronte dei server, dove con il calare del costo della banda, aumenta anche la possibilità di distribuire grandissime quantità di dati in rete. L'impatto è notevole sui servizi online perchè oggi la maggiore dei PC nel mondo è collegata in rete e qui riversa tutte le informazioni, dalla posta elettronica fino ai propri documenti, aumentando a dismisura il consumo di spazio anche in quella che noi chiamiamo "cloud". Pensate per esempio a quale sia l'impatto nell'aumentare dello storage locale su servizi di backup online come Mozy di EMC o Backblaze e tanti altri. Questi servizi si trovano di fronte ad una crescita continua dei loro archivi e alla necessità di continuare a gestire questi dati in modo sicuro, provvedendo quindi ad un backup degli stessi.
Nell'ultimo periodo sono state diverse le start-up che lavorano nel settore dello storage e delle soluzioni per la sua gestione ad essere finanziate o acquisite, si parte da Scality, che ha appena ricevuto 7 milioni di dollari per la sua tecnologia proprietaria Ring, fino a Egnyte, che ne ha invece ricevuti 10 di milioni, e RightScale che si è interessata al filesystem Gluster per la sua soluzione di cloud storage. Tutte queste realtà hanno in comune la realizzazione di software o sistemi che riescono a gestire grandi quantità di dati su infrastrutture distribuite, perchè ovviamente risulta impensabile poter gestire con poche decine di macchine, nello stesso data center, una base di informazioni sempre crescente, che sfiora spesso l'unità di grandezza del petabyte.
Ma se i dati che noi inseriamo e "consumiamo" sul web sono in continua crescita, c'è tutto un filone di problematiche annesse che riguarda la loro analisi: come si fa ad estrarre informazione da migliaia di petabyte di dati che contengono logs o informazioni poco o per nulla strutturate? Impensabile utilizzare delle query SQL come si farebbe su un database relazionale, bisogna ricorrere a strumenti che, sempre sfruttando il calcolo distribuito, analizzano queste basi di dati. Uno di questi è Hadoop, grazie al paradigma MapReduce, e non a caso è una delle tecnologie in forte crescita di questo periodo.
Sul fronte dei servizi web questa ondata di dati ha come effetto una maggiore richiesta di spazio per i servizi: se guardiamo alla crescita dello spazio disco dei piani shared hosting, ci accorgiamo che negli ultimi 2 anni si è passati dai canonici 200/500 MB di spazio ad un minimo di 2 GB o più per i piani di basso livello, un incremento che deve far riflettere su come anche il consumo in termini di GB mensili sia in fortissima crescita. Le aziende che stanno entrando nel settore dei servizi backup e di cloud storage devono quindi affrontare investimenti corposi tanto sul fronte della soluzione hardware da adottare, ricordando che oggi molti si spingono verso sistemi con commodity hardware, tanto nel comparto software, dove avere una soluzione ridondata che permetta di gestire tutto il proprio storage è il minimo per evitare gravi problemi nel servizio.





