Jump to content
Sign in to follow this  
WizOfOz

Indicizzazione non desiderata

Recommended Posts

Ciao a tutti. Un mio cliente che ha un sito Joomla realizzato tempo da da un webmaster ha il seguente problema.

 

Sul suo sito sono contenuti dei pdf con informazioni riservate che vengono poi vendute dal sito come servizio.

Il mio cliente si è accorto che questi documenti pdf vengono indicizzati da google nonostante siano contenuti un una sottocartella che è interdetta agli spider con una direttiva nel robots.txt.

 

In effetti i documenti sono indicizzati con degli url che non contengono il percorso del filesystem ma con un url tipo

 

http://www.sitocliente.com/getDoc.php?doc=fjadfljadfljadflajdlfjadlfjaldfjladjflajfalfja=

 

Qualcuno sa aiutarmi?

Grazie

Share this post


Link to post
Share on other sites

Ciao WizOfOz!

 

Una soluzione sicuramente efficace sarebbe quello di proteggere le directory - contenenti i file PDF - con una password.

 

Puoi aggiungere i vari metatags, oltre al robot.txt, "noindex", "noarchive" e rel="nofollow" ai link e rimuovere gli URL con Google Webmaster Tools (quest'ultimo funzionerà, ovviamente, solo su Google).

 

Leggi questo: http://googleblog.blogspot.it/2007/07/robots-exclusion-protocol-now-with-even.html

 

 

Saluti.

Edited by netimax

Share this post


Link to post
Share on other sites

Ciao. Grazie per la risposta.

Non credo che si possa proteggere la directory con password perché i dati devono essere accessibili ai clienti.

Ho già chiesto al cliente di fare un account webmastertools per eliminare i link in cache.

 

Il cliente mi ha detto che lui comunque fa spesso questo controllo per vedere se qualcosa appariva e non ha mai trovato nulla in tutti questi anni. La cosa è recente e relativa a gennaio 2013 anche senza aver cambiato nulla nel sito.

Share this post


Link to post
Share on other sites

I PDF sono leggibili da google e molti altri motori di ricerca, che possono anche convertirli in HTML. A questo punto, l'unica soluzione efficace, credo, sarebbe di proteggerli con password, come indicato in precedenza. Un altro modo che mi viene in mente ora è di salvarli come file ZIP. Oppure potresti impostare un auto-mailer che invia i PDF non appena un cliente effettua il pagamento.

 

Cerca qualche plugin/estensione di Joomla! che permette di vendere file digitali scaricabili, come nel seguente link:

QuickSell File Seller - Joomla! Extensions Directory

Edited by netimax

Share this post


Link to post
Share on other sites
Ok. Grazie ma queste sono soluzioni che richiedono un restyling del sito che non posso fare io.

Proporrò al cliente di modificare il sistema.

 

Prego! :) Visto che si tratta di un servizio a pagamento, credo che il cliente non dovrebbe esitare ad implementare una soluzione del genere. Poi, non richiedono un "grosso" cambiamento.

Share this post


Link to post
Share on other sites

Comunque se i file sono scaricabili da getDoc.php, nel robots devi bloccare anche tale file altrimenti è vero che google non ti indicizza il percorso reale del file grazie alla cartella interdetta, ma nulla gli vieta di indicizzare il getDoc.php ed il contenuto sparato fuori (cioè il pdf)

Share this post


Link to post
Share on other sites

io farei uno script che legge i file da una dir che non è sotto apache e li printa a video (o fa scaricare), una cosa semplice, in quel modo su quello script puoi mettere un check che permetta solo agli utenti preposti di passare alla visualizzazione del documento stesso

Share this post


Link to post
Share on other sites

normalmente facciamo così:

- pagina/e con links ai docs

-- se l'utente è loggato e ha pagato vedrà il link al getfile.php (per comodità passiamo il path al file in GET) che pesca il file dalla dir fuori dalla docroot,

-- altrimenti i link punteranno alla registrazione/login/carrello/acquista oppure proprio non compaiono, dipende da che c'è in pagina :)

 

c'è il limite di php per il timeout per doc particolarmente grandi probabilmente, ma fino ad ora non ci sono arrivato a quel limite

 

per un controllo più stringente sul singolo file bisognerebbe mettere i file su db (mysql blob?), in quanto un utente sgamato potrebbe indovinare il path e avere materiale non pagato, ma non è ancora capitato

Share this post


Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!

Register a new account

Sign in

Already have an account? Sign in here.

Sign In Now
Sign in to follow this  

×