Alluxio: l’alternativa a Spark SQL?

Alluxio è un progetto opensource che ha attirato l'attenzione di aziende come Google e Baidu perchè in grado di velocizzare l'esecuzione delle query

Alluxio e Spark SQL

 

Alluxioprogetto opensource sviluppato da AMPLab che agisce come un’interfaccia programmabile tra applicazioni big data ed i sistemi di storage sottostanti, ha attirato l’attenzione di brand d’alto profilo come Alibaba, Google, Barclays (banca internazionale), IBM, Intel, Baidu.

Ed è proprio la compagnia cinese, nota ai più per essere la controparte “orientale” del motore di ricerca di Mountain View, ad averlo “scoperto” nel corso di una delle tante operazioni di “scouting tecnologico”: l’interesse dell’azienda, come del resto altri importanti esponenti dell’industria hightech, non è infatti relegato esclusivamente al Web ma spazia liberamente tra network neurali, machine learning, riconoscimento delle immagini – solo per citarne alcuni.

La gestione delle operazioni legate all’analisi di consistenti volumi di dati (si parte solitamente dai terabyte come unità base per giungere tranquillamente ai petabyte) è quindi cruciale. Il portale ReadWrite ha intervistato a tal proposito Shaoshan Liu, Senior Architect presso Baidu che ha avuto modo di testare Alluxio direttamente in produzione. Di seguito riportiamo in traduzione alcuni dei passaggi più importanti, per l’intevista completa vi rimandiamo alla nostra fonte (indicata a fondo pagina).

Alluxio, estratto dell’intervista

ReadWrite (RW): Quale problematica stavate tentando di risolvere quando avete deciso di optare per Alluxio?

Shaoshan Liu (SL): La gestione [della mole di dati che “muoviamo”] e la rapida estrapolazione delle informazioni importanti è da sempre una sfida per noi. Volevamo incrementare notevolmente le prestazioni throughpout per alcune query critiche […] – per via del considerevole volume di dati, ciascuna query impiegava decine di minuti, anche ore, per essere portata a termine. […] Circa un anno fa abbiamo capito che necessitavamo di un query engine “su misura”. Per iniziare [abbiamo volutato meglio il tutto stabilendo che] l’engine avrebbe avuto bisogno di gestire petabyte di dati e terminare il 95% delle query entro 30 secondi.

Siamo passati quindi a Spark SQL. Diversi casi di utilizzo hanno dimostrato la sua superiorità, in termini di latenza, rispetto ad Hadoop e MapReduce. Eravamo entusiasti e ci aspettavamo di ridurre il tempo medio delle operazioni nell’ordine di pochi minuti. […][Tuttavia, nonostante l’incremento ottenuto], ciascuna query impiegava ancora una decina di minuti per essere completata.

[Dopo un’attenta analisi siamo venuti a capo del problema: il ritardo era causato essenzialmente dalla Rete e dal tempo impiegato dai dati per passare da un data center remoto prima ad un centro computazionale poi].Si trattava quindi di un problema di network. E la soluzione non era semplicemente quella di “avvicinare” i nodi computazionali ai data center.

(RW): Qual è stata la svolta?

(SL):  Necessitavamo di un memory-centric layer altamente performante ed affidabile ed in grado di gestire petabyte di dati. Abbiamo sviluppato un sistema di query che utilizza Spark SQL come engine computazionale ed Alluxio come memory-centric layer di storage. […] Le prestazioni sono state incredibili. Con il solo Spark SQL, abbiamo impiegato 100-150 secondi per portare a termine una query; utilizzando Alluxio […] circa 10-15 secondi.

Link all’intervista completa (in inglese).

 

Facci sapere cosa ne pensi!

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *