Fonti di duplicazione e documenti simili

Su Internet, il World Wide Web può includere gli stessi documenti duplicati in differenti forme e in differenti posti. (naturalmente, altri network, oppure sistemi “stand alone” possono avere documenti duplicati). Vediamo le fonti di queste duplicazioni.

Primo, alcuni documenti sono “specchiati” in differenti siti nel Web. Questo specchiare è usato per alleviare potenziali problemi quando tanti utenti cercano di accedere allo stesso documento nello stesso momento, e/o per minimizzare eventuali latenze del network (es. utilizzando copie cache di pagine web localmente)

Secondo, alcuni documenti potrebbero averedifferenti versioni con differenti formattazioni. Per esempio, un dato documento può avere un “piano di testo” e una versione HTML cosacche gli utenti possono visualizzare o scaricare il contenuto nella forma che preferiscono. Così come sempre più differenti
strumenti (PC, cellulari, etc) sono usati per accedere a Internet, un dato
documento può avere differenti versioni con differenti formattazioni per ogni formato (solo testo, testo più media, etc).

Terzo, i documenti sono spesso “prepended” o allegati con informazioni circa la loro locazione nel Web, la data, la data di ultima modifica, la versione, il titolo, il percorso gerarchico di classificazione (es. una pagina Web può essere classificata sotto più categorie dello stesso sito Web), etc. Esempio illustrato nella sezione 4.4 (figs13).

Quarto, in alcuni casi un nuovo documento viene generato
da un documento esistente usando consistenti rimpiazzi di parole.
Per esempio, un sito Web può presentare
diversi “brand” per differenti utenti cambiando soltanto determinate parole.

Infine, alcune pagine Web aggregano o incorporano contenuti da altre fonti sul Web.

Posted in La Duplicazione dei Contenuti printer-friendly version | 3150 reads

Submitted by Motori-e-Ricerca on Sun, 2006-09-24 10:29.

Cerca con Google

Google
Web motoriericerca.com

Syndicate

XML feed

User login