Tecniche conosciute per scoprire documenti duplicati e simili

Alcune precedenti tecniche per scoprire documenti duplicati e simili implicano la generazione di alcuni elementi dei documenti chiamati “fingerprints” (impronte digitali) (esempio paragrafi, sentenze, parole o targhette, insegne (per esempio l'accavvallamento stirato di parole consecutive)).

Guardiamo per esempio gli articoli:

Z. Broder, "On the Resemblance and Containment of Documents," Proceedings of Compression and Complexity of Sequences 1997, pp. 21-27, IEEE Computer Society (1988);
S. Brin et al., "Copy Detection Mechanisms for Digital Documents," Proceedings of the ACM SIGMOD Annual Conference, San Jose 1995 (May 1995)

Alcuni o tutti i “fingerprints” possono essere usati per determinare documenti duplicati o simili. In maniera più specifica, due documenti potrebbero essere considerati simili se condividono più di un predeterminato numero (minimo due, generalmente piu' alto) di “fingerprints”.

Per un grande insieme di documenti (per esempio i miliardi di documenti che vengono indicizzati dai motori di ricerca) questa determinazione diventa piuttosto costosa, sia letteralmente che in termini di spazio per l'archiviazione.

Guardiamo, per esempio, l'articolo:

M. Fang et al., "Computing Iceberg Queries Efficiently," Proc. 24.sup.th Int'l. Conf. On Very Large Databases, pp. 299-310 (1998)

Il problema non è di facile soluzione. Per esempio, non è in special modo utile “pre-processare” le rappresentazioni di tali documenti usati nelle tecniche Broder per eliminare da ulteriori considerazioni, come la conoscenza dei “fingerprints”, per essere unica.

Questo perché tutti i documenti con “fingerprints” non unici (come i documenti rimasti dopo il pre-processamento) possono, tuttavia, avere documenti non simili. Questo necessita, quindi, di una migliore tecnica per la determinazione di documenti duplicati e simili.