La duplicazione dei contenuti e il filtro antiduplicazione di Google

Uno dei problemi principali che i motori di ricerca si trovano ad affrontare riguarda la duplicazione dei contenuti.

La duplicazione di un documento, inteso come pagina web, file di testo o multimediale, può derivare da diverse situazioni che si possono riassumere in 2 macro categorie: la duplicazione di contenuti come tecnica black hat seo, al solo fine di ingannare il motore ed aumentare la propria posizione nelle serp, e la legittima ridistribuzione delle informazioni: basta pensare alle citazioni, ad una hot news, o alle licenze creative commons.

Google, in particolar modo, ha sviluppato un algoritmo per la determinazione di contenuti duplicati e simili, che sentiamo spesso nominare come "filtro antiduplicazione": di seguito vengono riportate le traduzioni del brevetto di Google sulla duplicazione dei contenuti.

STORIA DELL'INVENZIONE



La presente invenzione concerne il recupero e il management delle informazioniin generale. Più specificatamente, l'invenzione riguarda la scoperta, ed eventualmente la rimozione, di contenuti e informazioni dupicati o simili

A seguire il termine documenti potrebbe essere diversamente interpretato a potrebbe includere contenuti come pagine web, file di testo, file multimediali, strutture di link, etc. Così, il termine potrebbe notificare quando documenti simili sono rilevati, esatti documenti duplicati saranno rilevati come conseguenza.

Rilevare contenuti duplicati e simili ha molte potenziali applicazioni. Per esempio, i documenti duplicati o simili possono indicare infrazioni di copyright e plagi. Un importante applicazione di rilevazione di contenuti simili appartiene al contesto del recupero e dell'archiviazione delle informazioni.

Esistono efficienti tecniche per rilevare i documenti duplicati. Rilevando quando e se i documenti sono duplicati o simili è molto difficile, specialmente in grandi raccolte di documenti come il Web.

Le fonti per contenuti duplicati e simili sono introdotti nella sezione 1.2.1. I problemi che questi documenti duplicati o simili sollevano, sia per gli utenti finali che che per le entità che li assistono sono descritti in 1.2.2. Infine, nella sezione 1.2.3 vengono introdotte le tecniche usate per la rilevazione di documenti duplicati e simili tra grandi collezioni di documenti.

Posted in La Duplicazione dei Contenuti printer-friendly version | 4006 reads

Submitted by Motori-e-Ricerca on Sun, 2006-09-24 10:22.

Cerca con Google

Google
Web motoriericerca.com

Syndicate

XML feed

User login