Google abbandona MapReduce: quale futuro per Hadoop?

Nel recente Google I/O 2014, Urs Hölzle ha ufficialmente "pensionato" MapReduce. Quale futuro attende la sua "variante" open source Hadoop?

Circa 10 anni fa Google presentava un progetto in cui venivano delineate le linee guida di un modello per la distribuzione di ingenti quantità di dati su più cluster di server: era nato MapReduce.

In seguito ai recenti annunci di Urs Hölzle al Google I/O 2014, nel quale è stata reso noto l’abbandono di MapReduce in favore del nuovo e più efficiente Cloud Dataflow, gli addetti ai lavori hanno iniziato a chiedersi se l’avvenimento non significasse, indirettamente, anche “l’inizio della fine” per Hadoop, ovvero la variante open source del modello Google.

Questo perchè, dal 2004 ad oggi, Hadoop è riuscito a conquistare un ruolo di primaria importanza nel settore enterprise ansioso, ai tempi, di trarre benefici dall’immane quantità di dati prodotta dalle stesse aziende e dai clienti: che fine farà allora l’intero ecosistema sviluppatosi negli ultimi 10 anni?

Secondo Yevgeniy  Sverdlik (collaboratore di Data Center Knowledge) l’ecosistema Hadoop è troppo esteso e ramificato per essere destinato ad una rapida fine prematura. Le stesse novità introdotte nella seconda generazione del modello di elaborazione lasciano intuire il contrario: l’asso nella manica di Hadoop 2 si chiama YARN (Yet Another Resource Negotiator) e consente, per la prima volta, di ottenere la piena “l’indipendenza” da  MapReduce permettendo a modelli di terze parti di essere applicati ai dati presenti nei cluster Hadoop.

Steam processing, un’altra carta vincente di Hadoop 2

Un altro punto di forza per Hadoop 2 e Yarn è sicuramente la capacità di elaborare dati in tempo reale (stream processing) a differenza del “fratello” MapReduce limitato esclusivamente al batch processing. E proprio le mutate necessità dell’utenza, le cui esigenze di stream processing sono aumentate sensibilmente negli ultimi tempi, avrebbero portato Google all’abbandono di MapReduce in favore di Cloud Dataflow (in grado di combinare stream e batch processing).

A fronte dei punti appena elencati, per Sverdlik il capolinea del treno Hadoop è ancora lontano. Nel mercato si prospetta invece un allargamento della scelta a beneficio dei clienti e delle aziende: ogni modello (da MapReduce ad Hadoop e non solo) comporterà infatti dei pro e contro (es: Dataflow è ad esempio utilizzabile esclusivamente all’interno dell’ecosistema Google) e saranno i customer stessi a scegliere quello più adatto alle prorie esigenze.