Alcune precedenti tecniche per scoprire documenti duplicati e simili implicano la generazione di alcuni elementi dei documenti chiamati “fingerprints” (impronte digitali) (esempio paragrafi, sentenze, parole o targhette, insegne (per esempio l'accavvallamento stirato di parole consecutive)).
Guardiamo per esempio gli articoli:
Alcuni o tutti i “fingerprints” possono essere usati per determinare documenti duplicati o simili. In maniera più specifica, due documenti potrebbero essere considerati simili se condividono più di un predeterminato numero (minimo due, generalmente piu' alto) di “fingerprints”.
Per un grande insieme di documenti (per esempio i miliardi di documenti che vengono indicizzati dai motori di ricerca) questa determinazione diventa piuttosto costosa, sia letteralmente che in termini di spazio per l'archiviazione.
Guardiamo, per esempio, l'articolo:
Il problema non è di facile soluzione. Per esempio, non è in special modo utile “pre-processare” le rappresentazioni di tali documenti usati nelle tecniche Broder per eliminare da ulteriori considerazioni, come la conoscenza dei “fingerprints”, per essere unica.
Questo perché tutti i documenti con “fingerprints” non unici (come i documenti rimasti dopo il pre-processamento) possono, tuttavia, avere documenti non simili. Questo necessita, quindi, di una migliore tecnica per la determinazione di documenti duplicati e simili.