AWS Athena: query interattive serverless

Athena è uno dei servizi che ha maggiormente attirato l'attenzione dei visitatori al re:invent 2016. Che cos'è e come funziona.

AWS Athena

Anche se il re:Invent 2016 è ormai archiviato e la compagnia guarda al 2017 ed oltre, è il caso di soffermarsi su uno dei servizi annunciati durante la convention, Athena. Di cosa si tratta esattamente? Athena è un servizio di query interattive serverless in grado di analizzare dati strutturati (archiviati su S3) proprio come un database SQL. L’ultima proposta Amazon si basa su Presto, un SQL query engine distribuito open source che permette di eseguire query interattive su data set di dimensioni variabili (dal gigabyte al petabyte): gli “oggetti” presenti su S3 possono essere salvati in vari formati, dai semplici file di testo fino a CSV, JSON, file compressi, web logs Apache etc.

La parola serverless riveste un ruolo cruciale nella breve descrizione appena data in quanto significa per il cliente l’assenza di operazioni di setup, di gestione, di server e di data warehouses. Si crea una tabella, si caricano dei dati e si avvia il query engine di Athena via API o console AWS ; dopo l’esecuzione di ciascuna query, l’utente riceve direttamente da S3 un flusso dati e, grazie all’integrazione con Amazon QuickSight, può visionare grafici ed informazioni varie relative alle task effettuate.

QuickSight

Una schermata dal video introduttivo di QuickSight

Per quanto riguarda le performance e la scalabilità, Amazon garantisce sulla carta un servizio di alto livello: Athena è infatti in grado di eseguire automaticamente in pochi secondi query in parallelo su consistenti volumi dati (anche petabyte). La rapidità del servizio è ottenuta grazie ad una serie di warm pool di risorse di calcolo presenti  su più availability zone.

AWS Athena, casi di utilizzo e listino prezzi

I due casi di utilizzo menzionati durante la presentazione del servizio, log storage ed analisi/data warehouse per gli eventi, contemplano l’archiviazione di data set voluminosi ai quali occorre accedere il più rapidamente e facilmente possibile. Trattandosi di un servizio serverless, gli aspetti inerenti la gestione dell’infrastruttura e la scalabilità sono a carico del provider.

Il tariffario di Athena segue il classico modello pay per use: l’utente paga in base al numero di query effettuate (le query non andate a buon fine, il partizionamento delle query ed i DDL statement sono gratuiti) ed al quantitativo di dati analizzati (5 dollari ogni TB, nel caso in qui una query sia interrotta saranno conteggiati solo i dati analizzati fino a quel momento). La bolletta è riducibile dal 30% al 90% grazie ad una serie di accorgimenti come la compressione, la partizionatura o la conversione dei dati in formati a colonne, afferma la pagina ufficiale del servizio. 

Conoscendo il “peso” medio dei dati analizzati, preventivare il costo del servizio è quindi abbastanza semplice – l’importante è non dimenticarsi delle spese associate all’utilizzato dello storage S3.
Fonte

 

Facci sapere cosa ne pensi!

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *