Benvenuto nella nostra community, registra un account gratuito ADESSO!
Oltre 7000 persone hanno già registrato il loro account. Chiedi aiuto, conversa con aziende ed esperti del settore webhosting italiano.
Iscriviti subito! In meno di 2 minuti!




Risultati da 1 a 15 di 15

Discussione: Filesystem con hashing

  1. #1
    etr
    etr non è collegato
    HTEnginer L'avatar di etr
    Data Registrazione
    Jun 2006
    Località
    Milano
    Messaggi
    803

    Filesystem con hashing

    Ciao a tutti,

    leggendo il funzionamento di un servizio di backup online (non faccio nome per evitare spam), vedo che hanno sviluppato un filesystem che confrontando gli spezzoni di file verifica se ne esistono di uguali e in tal caso crea solo un riferimento senza riscrivere la parte di file risparmiando un po' di spazio. Se non sbaglio questo sistema è utilizzato anche da Gmail.

    Bene, entrambi sono filesystem proprietari ... sapete per caso se ne esistono di liberi ? (con libero intendo gratuiti e non ma acquistabili/scaricabili)

    Secondo voi, che risparmio si può avere in percentuale ?

    Non so con che keywords googlare ... hints ?

    Grasssie



  2. #2
    Uno
    Uno è collegato
    Utente Moderatore
    Data Registrazione
    Mar 2008
    Messaggi
    5,791

    Re: Filesystem con hashing

    Sei sicuro che sia un filesystem?
    Perchè una cosa così la puoi fare anche in semplice php (oppure in qualcosa di più perfomante se occorre e sei sul tuo)

    Se il file è al di sotto di una certa dimensione fai l'hash e lo metti in db (l'hash), se è sopra una certa dimensione carichi solo il primo pezzo, >hash > db.
    Al confronto se non risulta nulla uguale, vuol dire che è un file nuovo, se risultano file/hash che sembrano uguali un ulteriore controllo per essere sicuri che sia veramente doppio e crei la nuova posizione su db che fa riferimento sempre all'altro file vecchio

    Così al volo..... poi ci sono da inserire controlli etc...

  3. #3
    etr
    etr non è collegato
    HTEnginer L'avatar di etr
    Data Registrazione
    Jun 2006
    Località
    Milano
    Messaggi
    803

    Re: Filesystem con hashing

    Loro parlano di filesystem.
    Effettivamente è una bella idea... anche perchè risparmi un bel po' di spazio.
    Infatti, spezzettando i file in piccole parti, statisticamente ce ne saranno tante uguali, con notevole risparmio di spazio ...

  4. #4
    Nuovo utente L'avatar di gorkon
    Data Registrazione
    Jul 2006
    Località
    L'Aquila
    Messaggi
    22

    Re: Filesystem con hashing

    *POTREBBE* esistere qualcosa per fuse, ma non ho indagato più di tanto.
    Anche se - onestamente - non userei fuse in produzione neanche se avessi una pistola puntata alla nuca
    morph @ Azzurra IRC Network

  5. #5
    Utente Moderatore L'avatar di TheVice
    Data Registrazione
    Aug 2006
    Località
    in una località nota in tutto il mondo
    Messaggi
    1,136

    Re: Filesystem con hashing

    la tecnica è buona ma rende solo in caso di file particolarmente grandi e in numero spropositato. In più gli spezzoni in cui si dividono i files devono essere di lunghezza massima fissa (grosso limite). In buona sostanza funziona come la tecnica di compressione zip (LZ77) solo che viene usato l'hash come token di compressione.
    "Era una persona seria, passava il suo tempo giocando."
    (Lewis Carroll)


  6. #6
    etr
    etr non è collegato
    HTEnginer L'avatar di etr
    Data Registrazione
    Jun 2006
    Località
    Milano
    Messaggi
    803

    Re: Filesystem con hashing

    Si, in sistemi con molti file torna utile...ad esempio il sistema di backup da cui ho preso l'idea. Effettivamente se gli utenti hanno in maggioranza windows xp, ad esempio, le dll di sistema che la maggioranza backupperà sono tutte uguali e sarebbero un 300 MB ad utente (sparo a caso!) ... immaginiamo un migliaio di utenti .... sarebbero 300 GB "sprecati".

    I files andrebbero spezzati in parti più piccole possibili (più piccola è la parte, più probabilità ho di averne già una uguale). In pratica il fs sarebbe diviso in due .. il vero storage con tante caselline formate da spezzone di file + hash e una parte di "corrispondenza" dove si salva la struttura logica del fs quindi "file salvato" formato dagli indirizzi delle celle dove sono salvati gli spezzoni. Ovviamente, se non ho una certa ripetitività dei files, questo porterebbe solo ad uno spreco di spazio ...

  7. #7
    Webhosting Guru L'avatar di Siggy
    Data Registrazione
    Feb 2006
    Località
    Roma(RM)
    Messaggi
    1,221

    Re: Filesystem con hashing

    Citazione Originariamente Scritto da etr Visualizza Messaggio
    I files andrebbero spezzati in parti più piccole possibili (più piccola è la parte, più probabilità ho di averne già una uguale).
    Occhio pero' che piu' piccola e' la parte piu' grande sara' l'indice per fare il mapping per ogni utente....
    Luca Mercuri - lmercuri@newmedialabs.it
    New Media Labs: ServerLabs Server Dedicati - Remote reboot - KVM all inclusive
    DomainRegister Registrazione domini internet a partire da 7 euro.

  8. #8
    Uno
    Uno è collegato
    Utente Moderatore
    Data Registrazione
    Mar 2008
    Messaggi
    5,791

    Re: Filesystem con hashing

    Citazione Originariamente Scritto da etr Visualizza Messaggio
    Si, in sistemi con molti file torna utile...ad esempio il sistema di backup da cui ho preso l'idea. Effettivamente se gli utenti hanno in maggioranza windows xp, ad esempio, le dll di sistema che la maggioranza backupperà sono tutte uguali e sarebbero un 300 MB ad utente (sparo a caso!) ... immaginiamo un migliaio di utenti .... sarebbero 300 GB "sprecati".

    I files andrebbero spezzati in parti più piccole possibili (più piccola è la parte, più probabilità ho di averne già una uguale). In pratica il fs sarebbe diviso in due .. il vero storage con tante caselline formate da spezzone di file + hash e una parte di "corrispondenza" dove si salva la struttura logica del fs quindi "file salvato" formato dagli indirizzi delle celle dove sono salvati gli spezzoni. Ovviamente, se non ho una certa ripetitività dei files, questo porterebbe solo ad uno spreco di spazio ...
    Un conto però è solo evitare file uguali, basterebbe solo l'inizio e controlli sui positivi, se invece su grandi numeri si spera di spezzare i file in modo che un pezzetto sia utile a più file, non so se ci si guadagna come uso di risorse.

  9. #9
    etr
    etr non è collegato
    HTEnginer L'avatar di etr
    Data Registrazione
    Jun 2006
    Località
    Milano
    Messaggi
    803

    Re: Filesystem con hashing

    Citazione Originariamente Scritto da Siggy Visualizza Messaggio
    Occhio pero' che piu' piccola e' la parte piu' grande sara' l'indice per fare il mapping per ogni utente....
    Si, vero. Bisogna quindi spezzare il file in parti di una dimensione ottima. Probabilmente, per questo viene in auito la statistica o il calcolo delle probabilità. Basterebbe infatti capire in che percentuale le parti sarebbero uguali ... più è alta la percentuale più spezzoni comuni ho, meno occupano spazio. L'indice con il mapping: utente-file, in teoria, occupa poco ... (rispetto ai files intendo ...)

    Sarebbe una sorta di database parallelo allo storage vero e proprio ...

  10. #10
    Utente Moderatore L'avatar di TheVice
    Data Registrazione
    Aug 2006
    Località
    in una località nota in tutto il mondo
    Messaggi
    1,136

    Re: Filesystem con hashing

    il best fit lo si ottiene creando un "dizionario" a lunghezza variabile in cui collocare i tokens (hash) dei files ... come fa l'algoritmo LZW usato nei file gif . La compressione si ottiene creando il dizionari e il dizionario lo si crea su elementi granularmete piccoli (1 byte) che man mano si accodano a quelli già presenti nel dizionario.
    Tuttavia nello specifico una simile granularità non è ammissibile perchè potrebbe generare contenuti indice di dimensioni maggiori rispetto al file originale (l'hash è un codice poco "adattivo" e comunque lungo)
    "Era una persona seria, passava il suo tempo giocando."
    (Lewis Carroll)


  11. #11
    etr
    etr non è collegato
    HTEnginer L'avatar di etr
    Data Registrazione
    Jun 2006
    Località
    Milano
    Messaggi
    803

    Re: Filesystem con hashing

    Già, il sistema del dizionario non avrebbe molto senso in un contesto come questo ...

    Ad esempio, MD5 produce un hash di 128 bits. A logica quindi non si dovrebbero creare spezzoni di file più piccoli di 128 bits. 128 bits sono 16 bytes ... secondo me in un "filesystem" medio esistono tantissimi spezzoni da 16 bytes uguali ... come dici tu vice, la cosa migliore sarebbe creare spezzoni variabili ... si potrebbe però partire con spezzoni fissi e poi in stile "fschk" verificare se nel filesystem per ogni utente ci sono n spezzoni consecutivi uguali; in quel caso si possono riunire i tre blocchi e nella parte di mapping mettere il nuovo hash. Vantaggio: si occupano (n-1)*128 bits in meno. Svantaggio: i nuovi files non potranno più beneficiare degli n spezzoni riunificati.

  12. #12
    GrG
    GrG è collegato
    Webhosting Guru L'avatar di GrG
    Data Registrazione
    Mar 2007
    Località
    Milan, Italy
    Messaggi
    5,192

    Re: Filesystem con hashing

    Mi viene in mente una cosa, però:

    Risparmi HD, ma a processori e ram come sei messo?
    Giorgio (GrG) Bonfiglio
    Cloud Evangelist, System/Network Engineer
    http://blog.grg-web.eu/ http://www.giorgio-bonfiglio.tel/

  13. #13
    etr
    etr non è collegato
    HTEnginer L'avatar di etr
    Data Registrazione
    Jun 2006
    Località
    Milano
    Messaggi
    803

    Re: Filesystem con hashing

    Ma in un sistema di storage CPU e RAM servono a poco ....

  14. #14
    GrG
    GrG è collegato
    Webhosting Guru L'avatar di GrG
    Data Registrazione
    Mar 2007
    Località
    Milan, Italy
    Messaggi
    5,192

    Re: Filesystem con hashing

    ( Già, in uno normale, ma nel tuo quanto si devono sbattere? )
    Giorgio (GrG) Bonfiglio
    Cloud Evangelist, System/Network Engineer
    http://blog.grg-web.eu/ http://www.giorgio-bonfiglio.tel/

  15. #15
    etr
    etr non è collegato
    HTEnginer L'avatar di etr
    Data Registrazione
    Jun 2006
    Località
    Milano
    Messaggi
    803

    Re: Filesystem con hashing

    eh vabbe ... si comprano per farli lavorare ...mica per restare in idle

Discussioni Simili

  1. [filesystem] Quantità di elementi in una directory
    Di alfaalex nel forum Gestione Server Windows e Server Linux
    Risposte: 8
    Ultimo Messaggio: 22-07-2010, 20:48
  2. Nuovi filesystem per Linux 2.6.34
    Di Redazione HostingTalk nel forum Articoli e news su Webhosting e Servizi Internet
    Risposte: 0
    Ultimo Messaggio: 24-05-2010, 07:00
  3. Errore sul filesystem corroto...
    Di Naruto nel forum Gestione Server Windows e Server Linux
    Risposte: 2
    Ultimo Messaggio: 19-01-2008, 12:45
  4. Ad un certo punto check filesystem e tutto down
    Di AleSSaNDRo nel forum Gestione Server Windows e Server Linux
    Risposte: 8
    Ultimo Messaggio: 04-01-2008, 12:53
  5. Domanda sui FileSystem e aiutino su script
    Di webs86 nel forum Gestione Server Windows e Server Linux
    Risposte: 3
    Ultimo Messaggio: 26-01-2007, 14:45

Informazioni Discussione

Utenti che Stanno Visualizzando Questa Discussione

Ci sono attualmente 1 utenti che stanno visualizzando questa discussione. (0 utenti e 1 ospiti)

Tag per Questa Discussione

Segnalibri

Permessi di Scrittura

  • Tu non puoi inviare nuove discussioni
  • Tu non puoi inviare risposte
  • Tu non puoi inviare allegati
  • Tu non puoi modificare i tuoi messaggi
  •