Cloudera Hadoop: una ricerca per tutti!

La nuova caratteristica di ricerca sui petabyte gestiti da Hadoop consentirà di effettuare attività di searching senza l'uso del linguaggio SQL e con la sola digitazione delle parole chiavi di ricerca. La funzionalità è basata sul progetto Apache Solr

Cloudera Hadoop ricerca full-text con SolrUna novità non da poco: Cloudera ha annunciato di aver provveduto ad integrare la piattaforma Hadoop con un sistema di ricerca full-text.

L’idea generale che soggiace a questa scelta è da individuare nella volontà di mettere a disposizione di tutti la possibilità di effettuare ricerche all’interno di un cluster Hadoop senza per forza utilizzare il linguaggio SQL.

In pratica, questo sistema di ricerca full-text consente anche ai non esperti di effetuare le ricerche di cui hanno necessità in un modo più familiare, semplicemente digitando in un box le parole chiavi della ricerca che si intende effettuare.

Un’idea non da poco, soprattutto nei casi in cui le attività di searching dovessero essere effettuate su cluster di grandi dimensioni (ricordiamo che Hadoop gestisce dati da terabyte e petabyte), anche se c’è qualcuno che ha malignato affermando che per quanto il sistema full-text sia più semplice del linguaggio SQL, non accadrà comunque di certo che un normale impiegato front-end si metta a rovistare in Hadoop alla ricerca di dati.

Questi commenti sembrano comunque essere alquanto fuori posto, di fronte agli esempi di utilizzo suggeriti dal CEO di Cloudera, Mike Olson, e tratti da attività effettivamente svolte dagli utenti Hadoop durante la beta privata di questa nuova funzionalità, attualmente disponibile in beta pubblica, per un rilascio definitivo a partire dal terzo trimestre di quest’anno.

Gli esempi, alquanto calzanti, riguardano Monsanto, un’azienda del settore agricolo e delle biotecnologie, che ha utilizzato la nuova forma di ricerca per individuare nella sua collezione dati le immagini che tracciano il mutare delle caratteristiche delle piante durante il loro ciclo di vita, semplificando così un lavoro che avrebbe richiesto un notevole intervento manuale su un database che non fosse pensato per gestire immagini e metadati.

Allo stesso tempo, un cliente del settore healthcare, Exlorys, è riuscito ad usare il nuovo strumento di ricerca per individuare e consolidare i log dei suoi server, in modo da tracciare i problemi di down IT e mantenere un elevato livello di SLA per le sue applicazioni.

Questa nuova funzionalità offerta da Cloudera è basata sul progetto Apache Solr, basato, guarda caso, su Apache Lucene, progetto che Doug Cutting, Chief Architect di Cloudera, ha fondato prima di dedicarsi completamente a Cloudera. Per questo motivo, non ci sarebbe stata persona migliore di Cutting, per integrare la funzionalità in Hadoop.

Comunque, c’è anche da notare che Cloudera non è il primo distributore commerciale di Hadoop o il primo fornitore di un sistema di data storage NoSQL ad adottare Solr come sistema di ricerca per i dati non strutturati. Ad esempio, DataStax ha aggiunto Solr a Cassandra (il datastorage creato in origine per Facebook) nel Marzo del 2012, mentre MapR Technologies ha aggiunto Solr nella sua distribuzione M7 Hadoop proprio il mese scorso, ma come nel caso di Cloudera, anche per MapR questa funzionalità è ancora in fase di beta.