Problemi sollevati da contenuti duplicati e simili

Duplicati e documenti simili sollevano potenziali problemi sia per le persone che accedono all'informazione (es. dal Web) sia per le entità che aiutano le persone ad accedere alle informazioni desiderate (es. i motori di ricerca). Vediamo questi problemi.

Sebbene la gente continua a usare i computers per entrare, manipolare e immagazzinare informazioni, in visione dello sviluppo dell'immagazzinamento dei dati, dello sviluppo di Internet, e dei sistemi di link e collegamenti incrociati che riportano un informazione (es. usando collegamenti con link ipertestuali) le persone useranno i computer per accedere a una vastità di informazioni sempre
crescente.

I motori di ricerca sono stati sviluppati per aiutare gli utenti a trovare le informazioni desiderate. I motori di ricerca, tipicamente, cercano contentuti o “siti Web” archiviati conseguenti a una certa ricerca. In risposta a una determinata ricerca, viene proposta un lista ordinata in base al valore attribuito al documento, che tipicamente include brevi descrizioni del contenuto, così come collegamenti testuali (es. testi con associate URL) ai contenuti. Il sistema di ordinamento è tipicamente basato sulla corrispondenza delle parole cercate nella ricerca e le parole che appaiono nel contenuto.

Dal punto di vista degli utenti, documenti duplicati o simili sollevano problemi. Più specificatamente, quando gli utenti sottopongono una ricerca al motore, la maggior parte di loro non vuole collegamenti a pagine Web che hanno una grande ridondanza di informazioni. Per esempio, i motori di ricerca rispondono a una ricerca fornendo un gruppo di dieci risultati. Se sono fornite pagine con contenuti duplicati, molti tra i risultati di un gruppo potrebbero includere gli stessi contenuti. Da questo l'esigenza di una tecnica per evitare che il motore fornisca, come risultato di una ricerca, collegamenti a pagine Web che hanno contenuti duplicati.

La maggior parte dei motori di ricerca assolvono a tre funzioni principali:

  • esplorazione del Web
  • indicizzazione dei contenuti
  • rispondere a una data ricerca usando l'indice
    dei contenuti per generare i risultati.

Data l'enorme vastità di informazioni disponibili, queste 3 funzioni sono automatizzate a una grande estensione. Mentre l'operazione di esplorazione assocerà parole o frasi con un documento (es. una pagina Web), l'operazione di indicizzazione assocerà documenti (es. pagine Web) con parole o frasi. L'operazione di ricerca allora:

  • usa l'indice per trovare documenti (es. pagine Web) contenenti varie parole di un certa ricerca
  • valorizza e ordina i documenti trovati in accordo ad altre implementazioni

Ricordiamo che il Web può includere gli stessi documenti duplicati in differenti forme o in differenti posti nel Web. Per esempio, come introdotto in 1.2.1 sopra, i documenti possono essere “specchiati” in diversi siti nel Web, i documenti possono avere un numero di diversi formati cosi che gli utenti possano visualizzare o scaricare il contenuti nella forma che preferiscono, i documenti possono essere proposti in differenti versioni con diverse informazioni allegate, alcuni documenti possono essere stati generati da altri con un consistente cambiamento di parole, e alcuni documenti possono essere aggregati e incorporati da un'altra fonte nel Web. Potrebbe essere desiderabile eliminare questi documenti duplicati e questi simili.

A parte l'eliminazione di documenti duplicati e simili per andare incontro alle esigenze e alle aspettative degli utenti, l'eliminazione di documenti duplicati e simili è desiderabile dai motori di ricerca per:

  1. ridurre lo spazio richiesto (esempio per gli indici e le strutture di dati derivati dagli indici)
  2. ridurre le risorse necessarie per i processi di indicizzazione, ricerca, etc.

In visione di questi obiettivi sono necessarie diverse tecniche per scoprire (ed eliminare) documenti simili

Posted in La Duplicazione dei Contenuti printer-friendly version | 3214 reads

Submitted by Motori-e-Ricerca on Sun, 2006-09-24 10:39.

Cerca con Google

Google
Web motoriericerca.com

Syndicate

XML feed

User login