Jump to content
Sign in to follow this  
etr

Generare tag da un testo

Recommended Posts

Ciao a tutti,

 

vorrei implementare un sistema per generare in automatico una lista di tag (da visualizzare poi in una tag cloud) a partire da un testo.

 

Avete delle idee ?

 

Per ora, l'unica soluzione fattibile secondo me è far scrivere all'utente delle tag e contare quante volte compaiono nel testo per poi stabilire la dimensione del carattere nella tag cloud.

 

Quello che però vorrei fare io è un sistema per generare delle tag in automatico. Esiste qualche cosa da cui prendere spunto ?

 

Ah, già che ci sono, qualcuno ha delle letture da consigliare per migliorare la visualizzazione dei risultati di un motore di ricerca ?

(è una KB e vorrei cercare di rendere più pertinenti possibili i risultati ... vorrei creare un coefficiente per ogni entry che la sposti in alto nei risultati ..tipo un PR)

 

Grazie mille

Share this post


Link to post
Share on other sites

le tag cloud di solito vengono generate in base a tag inseriti dall'autore... le dimensioni dei caratteri sono in base al numero di pagine cui è associato il tag

 

tag in automatico? ma inventati dal software? non credo... ti serve quindi un elenco di tag?

 

poi certo puoi usare vari algoritmi per calcolare la similarità delle parole http://it2.php.net/manual/it/function.similar-text.php

 

comunque consiglio una bella lettura a http://www.tecnichenuove.com/libri/collane/architettura_dellinformazione_per_il_world_wide_web_667_2.html

Share this post


Link to post
Share on other sites

Far scrivere all'autore i tag, è normale direi, li salvo poi nel DB e genero la tag cloud.

Stavo pensando però ...se io ho un articolo che non ha come tag la parola "ciao" ma questa è tag di moltissimi altri articoli, comparirà nella tagcloud dell'articolo in questione.

 

Vorrei quindi creare una tagcloud con parole che comunque centrino con l'articolo; allo stesso tempo però se lascio all'utente il compito di scrivere gli articoli, questo ne inserirà 2/3 e basta facendomi avere delle tag cloud "ridicole" .. da qui la mia idea di creare delle taglist in automatico a partire dal testo dell'articolo ....

vorrei un qualcosa che mi facesse il parse del testo rilevando le parole più presenti e rendendole un tag (scritto in grosso).

 

Sto solo cercando di capire "come" fare il parsing del testo scartando articoli, preposizioni ecc. e volevo appunto un vostro parere ....

 

Per essere più chiaro, i tag mi servono poi per fare la ricerca tra articoli; vorrei crearmi una specie di PR che tenga conto di TAG, rating dell'utente ed eventuali link tra articoli.

Share this post


Link to post
Share on other sites

se gli articoli sono scritti in italiano e le parole sono spaziate con dei caratteri "spazio" puoi creare delle liste di parole da eliminare dividendole ad esempio in :

articoli determinativi (il, lo, la, i, gli, le) , articoli indeterminativi (un, uno, una), preposizioni semplici (di, a, da, in, con, su, per, tra, fra)...

in sostanza ti crei un dizionario di "parole non significative" con cui raffronterai ogni parola dell'articolo.

Poi puoi provare a rendere le parole superstiti ordinandone le lettere e "pesare" le collisioni delle forme così ottenute stabilendo che chi pesa di + sarà la tag.

Il parsing della lingua italiana senza un dizionario è tutt'altro che semplice.

Per la ricerca comunque, soundex o metaphone sono utili per generare chiavi di parole foneticamente simili.

Share this post


Link to post
Share on other sites
se gli articoli sono scritti in italiano e le parole sono spaziate con dei caratteri "spazio" puoi creare delle liste di parole da eliminare dividendole ad esempio in :

articoli determinativi (il, lo, la, i, gli, le) , articoli indeterminativi (un, uno, una), preposizioni semplici (di, a, da, in, con, su, per, tra, fra)...

in sostanza ti crei un dizionario di "parole non significative" con cui raffronterai ogni parola dell'articolo.

fin qui ci sono ...

Poi puoi provare a rendere le parole superstiti ordinandone le lettere e "pesare" le collisioni delle forme così ottenute stabilendo che chi pesa di + sarà la tag.

non ho capito ....

cosa intendi per ordinare le lettere e "pesare" le collisioni delle forme ?

Il parsing della lingua italiana senza un dizionario è tutt'altro che semplice.

Per la ricerca comunque, soundex o metaphone sono utili per generare chiavi di parole foneticamente simili.

belli soundex e metaphone...non li conoscevo ! leggo che si basano sulla pronuncia inglese ..qualcuno li ha usati per l'italiano ? come si comportano ?

 

Sto realizzando tutto in ASP, ho trovato una funzione SoundEx in ASP ma da risultati sbagliati se confrontati con una equivalente online ... avete qualocsa già fatto ? :occhionidolci:

EDIT: risolto, ora funziona !

Share this post


Link to post
Share on other sites

Scusa, ti leggo solo ora .

Dunque, quando dico di ordinare le lettere di una parola significa in pratica, data la parola "parola" la sua forma ordinata sarà "aalopr" oppure, eliminando le lettere che si ripetono (non è utile nel tuo caso però) puoi ottenere "alopr". Ovviamente in un testo, con questo criterio potresti ottenere, per parole diverse, stesso ordinamento di lettere, ciò ti può essere utile per fare statistiche o creare un criterio per dire questa parola pesa di più ... ovviamente ti occorrerà sempre contare le occorrenze di ciascuna parola per avere una parola base su cui lavorare.

 

Ah dimenticavo : Soundex e metaphone sono ampiamente adattabili anche ai fonemi italiani, anni addietro lessi molti articoli ma purtroppo non ho al momento fonti sotto mano per poterti essere utile di concreto.

Share this post


Link to post
Share on other sites
Scusa, ti leggo solo ora .

Dunque, quando dico di ordinare le lettere di una parola significa in pratica, data la parola "parola" la sua forma ordinata sarà "aalopr" oppure, eliminando le lettere che si ripetono (non è utile nel tuo caso però) puoi ottenere "alopr". Ovviamente in un testo, con questo criterio potresti ottenere, per parole diverse, stesso ordinamento di lettere, ciò ti può essere utile per fare statistiche o creare un criterio per dire questa parola pesa di più ... ovviamente ti occorrerà sempre contare le occorrenze di ciascuna parola per avere una parola base su cui lavorare.

 

Ah dimenticavo : Soundex e metaphone sono ampiamente adattabili anche ai fonemi italiani, anni addietro lessi molti articoli ma purtroppo non ho al momento fonti sotto mano per poterti essere utile di concreto.

 

Non riesco a capire come potrei utilizzare le parole con le lettere ordinate ... cioè ogni parola, tag o non tag, ha un certo ordinamento ....

Share this post


Link to post
Share on other sites

Please sign in to comment

You will be able to leave a comment after signing in



Sign In Now
Sign in to follow this  

×