Il brevetto sul filtro anti duplicazione che vi presentiamo può determinare documenti simili da:
1) per ogni documento, generando i “fingerprints”
2) determinando documenti simili basandosi sui “fingerprints”
In una incorporazione, i “fingerprints” possono essere pre-processati per eliminare quelli che occorrono solamente in un documento.
In un'altra, soltanto i rimanenti “fingerprints” potrebbero essere usati nella determinazione di documenti duplicati.
L'atto della generazione dei “fingerprints” per ogni documento può essere compiuto:
1) estraendo parti (come le parole) dai documenti,
2) hashing, ognuna di queste parti estratte per determinare quali da un pre-determinato numero di liste
3) per ognuna di queste liste, generando dei “fingerprints”
In risposta alla determinazione di documenti duplicati, la presente invenzione può funzionare anche per eliminare i documenti duplicati.
La presente invenzione può funzionare per generare dei clusters di documenti simili, nei quali usare una proprietà transitiva. Ogni documento può avere un identificativo per l'identificazione del cluster al quale è associato. In questa alternativa, in risposta a una data ricerca, se due candidati risultano documenti dello stesso cluster e se i due candidati risultano documenti corrispondenti alla ricerca, solo quello dei due che è ritenuto più rilevante (per esempio da una alto valore di PageRank, oppure se è più recente) viene restituito dalla ricerca.
Nel campo dei motori di ricerca, la presente invenzione può essere usata anche durante le attività di crawl per accelerarne il processo e alleggerire la banda disponibile non archiviando documenti simili, pagine o siti, come determinato dalla scoperta dei documenti durante un crawl precedente.
Posted in La Duplicazione dei Contenuti printer-friendly version | 3409 reads
Submitted by Motori-e-Ricerca on Fri, 2006-10-06 09:07.