Categoria: Internet
Tag: Google

E' a velocità che conta nel web e nelle ricerche. Un po' di Caffeine per Google

Author Photo
postato il 10 Giugno 2010
(5 commenti)

Quando oltre 15 anni fa Google muoveva i suoi passi online, era una la svolta nel mondo dei motori di ricerca, i due ingegneri di Standford avevano capito che un algoritmo di indicizzazione "intelligente" poteva cambiare per sempre la catalogazione delle informazioni. Sono passati anni luce da allora nello sviluppo della rete e l'algoritmo di Google, utilizzato ancora oggi, ha un team di ingegneri dedicati, con molta matematica al suo interno, e una continua innovazione. 

L'ultimo sforzo di questi anni si chiama Caffeine, è un approccio diverso alla catalogazione e alla consultazione del web ed è in sperimentazione da mesi in casa Google. Il nuovo sistema è stato oggetto di un annuncio ufficiale da parte di Google, e secondo la compagnia consente di fornire notizie e ricerche con una "freschezza" del 50% maggiore. 

Cerchiamo di capire cosa va a migliorare Caffeine e perchè Google ha introdotto pian piano questo nuovo pezzo di codice nel suo algoritmo e nella sua infrastruttura: fino a 5 anni fa la pubblicazione di contenuti sul web avveniva si con regolarità, ma il concetto di real time era pressochè inesistente, ovvero non c'erano notizie pubblicate direttamente su Twitter o su Facebook, annunci in tempo reale che dovevano essere resi reperibili come informazioni. Una quantità di informazioni che era molto alta, ma che non cresceva al ritmo odierno, e che soprattutto non dava adito a pagine ricche di contenuti più svariati: pensate oggi ad una pagina moderna di una testata come Wired.com, avete al suo interno video, collegamenti, interventi via Twitter, commenti provenienti da più siti web e social network. E' uno scenario complesso che ha spinto Google a pensare ad un nuovo modo di aggiornare i contenuti all'interno della sua infrastruttura (in questo articolo di HostingTalk.it trovate alcuni dettagli in merito al funzionamento dell'indicizzazione di Google). 

caffeine.jpg

Fino ad oggi Google aggiornava degli indici (organizzati in strati) di informazioni, dando priorità ai più importanti, e facendo attendere una o due settimane prima che alcuni venissero aggiornati. Caffeine non fa altro che aggiungere costantemente informazioni e renderle disponibili in real time all'interno del database di Google e della sua interfaccia di ricerca. Se con il vecchio sistema aggiornare un indice richiedeva di fatto una scansione intera della rete, ora è possibile aggiungere informazioni gli indici ogni volta che un nuovo "pezzetto" di informazione viene trovato in rete, non importa da dove esso provenga e in quale formato sia. 

La velocità può essere resa possibile solo grazie alla computazione in parallelo di decine di migliaia di pagine ogni secondo, le quali vanno ad aggiungere informazione, anche se in piccoli pezzi, ma con ritmo continuo. Uno sforzo che ricade direttamente sulla infrastruttura del gruppo e che richiedere quindi anche una maggiore attenzione ai failure hardware e software del sistema: Google ha insegnato per prima che la gestione dei problemi hardware deve avvenire a livello software, per questo la sua enorme "cloud" oggi lavora completamente in parallelo e con la possibilità di replica dei dati in tempo reale. 

Per chi fa del SEO la sua professione, Caffeine vuol dire nuova materia di studio da aggiungere, dato che l'era del Pagerank è finita da tempo e ora Google è pronta a rilasciare alcune ulteriori novità: che la velocità sia importante aveva già voluto chiarirlo introducendo la velocità di risposta dei siti web come parametro di indicizzazione. 

Author Image Bio

Chi è Stefano Bellasio

Ingegnere di formazione, una specializzazione sull'analisi dei dati, adora tutto quello che è business e sviluppo della rete. Avvia la società nel 2006 con Luca. Esperto di webhosting e cloud computing, si occupa della direzione e delle scelte strategiche di WeTalk Group al fianco di Luca e Antonio.

Aiutaci a migliorare facendoci sapere se hai apprezzato questo articolo.