6 ragioni per cui Apache Spark non fallirà

Apache Spark rappresenta una nuova e promettente tecnologia nell'ambito dei big data. Ne è convinto il vice presidente di Platfora

6 ragioni per cui Apache Spark non fallirà

Su Readwrite recentemente è stata pubblicata una intervista al vice presidente di Platfora, che spiega come mai la sua azienda, seppur giovane, abbia scelto di affidarsi ad Apache Spark per la gestione dei big data.

Nel corso degli ultimi anni l’interesse delle aziende verso i big data è cresciuto sempre più. Questi infatti rappresentano oramai un elemento fondamentale per la crescita del business aziendale. Le aziende hanno bisogno di infrastrutture e processi analitici che possano trovare delle risposte alle proprie domande. In particolare hanno necessità di poter gestire i processi che riguardano la preparazione dei dati, l’analisi descrittiva, la ricerca e le funzionalità avanzate come il machine learning e l’elaborazione  dei grafici.

A tal proposito nell’ultimo periodo si è assistito all’esplosione di Hadoop. Il File System Hadoop Distributed (HDFS) è divenuto la piattaforma di storage ideale per la gestione dei big data. YARN, utilizzato per l’allocazione delle risorse e la gestione, è diventato il framework di riferimento per gli ambienti big data. Eppure non esiste un processing framework in grado di risolvere ogni problema.

Secondo il vice presidente di Platflora, Apache Spark è in grado di affrontare molte delle questioni che riguardano la gestione dei big data. Ecco perché la sua azienda ha scelto di puntare su questa tecnologia. La piattaforma Big Data Discovery utilizza, infatti, Apache Spark come tecnologia di base per elaborare ed analizzare i propri grandi dati. Ecco le sei motivazioni che ha fornito il vice presidente per giustificare la sua scelta.

Analisi avanzate

La maggior parte delle grandi aziende sta cercando di migliorare la propria capacità di analisi dei big data. In un recente evento tenutosi a New York sull’argomento, è emerso che il 20% dei partecipanti sta fattivamente dandosi da fare per migliorare la capacità di analisi, mentre il restante 80% ha confermato che la loro struttura è ricca di funzionalità per la preparazione dei dati, ma per ciò che concerne l’analisi sono implementate solo poche funzioni di base.

Apache Spark, a detta del vice presidente di Platfora, è in grado di offrire una vasta gamma di funzionalità di analisi come: uno strumento per le query accelerate, una libreria machine learning, un motore di elaborazione grafico e un motore di analisi in streaming. Con MapReduce tutto ciò non sarebbe stato possibile.

Semplicità

Una delle prime critiche che era stata mossa ad Hadoop non risiedeva soltanto nella difficoltà d’uso, ma anche e soprattutto nella difficoltà di trovare personale esperto in grado di saperlo utilizzare. Sebbene nel corso degli anni abbia subito una continua evoluzione, ancora oggi queste critiche restano aperte.

Apache Spark al contrario è stato sviluppato per essere accessibile a chiunque abbia conoscenza delle basi di dati e alcune abilità di scripting in Python. È molto più semplice, quindi, trovare personale esperto in questo settore.

Maggiore apertura

Il linguaggio SQL, secondo il vice presidente non è in grado di affrontare tutte le sfide proposte dalle analisi dei big data. C’è bisogno di una maggiore flessibilità per ottenere risposte alle proprie domande, maggiore organizzazione per il recupero e l’analisi.

Apache Spark, pur lasciando dietro la mentalità SQL, riesce a maneggiare i dati in maniera più veloce ed elegante e riesce a destreggiarsi tra le analisi qualunque tipologia esse siano.

Risultati rapidi e in tempo reale

Man mano che cresce il business, le aziende si trovano a dover ricercare delle risposte in tempi brevissimi, quasi in tempo reale. Apache Spark offre processi di elaborazione in parallelo che permettono di restituire i risultati in tempi molto più brevi di qualsiasi altra tipologia di approccio che necessita l’accesso al disco.

Poter accelerare i tempi di risposta permette agli analisti di lavorare in modo interattivo, focalizzando l’attenzione su risposte precise e complete.

Nessuna discriminazione o preferenza per i vendor Hadoop

Tutte le principali distribuzioni Hadoop supportano ora Spark. Si tratta di una soluzione vendor-neutral, ciò significa che non vincola l’utente in nessun modo ad un provider specifico. Grazie lla natura open source di Spark le aziende sono libere di creare un’infrastruttura indipendete dal vendor, senza alcuna preoccupazione in caso di cambiamenti di fornitore.

Alto livello di adozione

Hadoop ha raggiunto un livello di adozione elevato nel giro di poco tempo. Generalmente ogni volta che un servizio fa registrare una scalata così rapida sono tutti pronti a puntare il dito contro, scommettendo che tanto velocemente cresce, tanto prima subirà uno stop. Questo non vale per il vice presidente di Platfora.

Secondo un sondaggio condotto da Typesafe, Apache Spark può contare su un campione di oltre 2100 sviluppatori ed ha raggiunto più di 500 organizzazioni a livello mondiale di tutte le dimensioni.  Secondo il vice presidente, quindi, Spark è sulla buona strada per diventare una tecnologia di riferimento nell’analisi dei big data.

Facci sapere cosa ne pensi!

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *