Duplicazione dei Contenuti e filtro anti duplicazione di Google

Il filtro anti-duplicazione di Google è un algoritmo creato per combattere lo SPAM e la diffusione di copie di siti pubblicati per il solo scopo di aumentare il posizionamento sui motori di ricerca.

Tutti i SEO conoscono l'importanza di contenuti originali ai fini del posizionamento e conoscono molto bene i vari motori di ricerca: in alcuni settori, vari SEO scelgono volontariamente di raggiungere risultati di posizionamento copiando contenuti e siti interi per aumentare il posizionamento di un singolo sito, linkato da tutte le copie, aspettando il ban dei siti e ricominciando da capo con nuovi domini.

Motori e Ricerca persegue un'altra filosofia ma arcani fattori che qualcuno chiama destino sono sempre dietro l'angolo ed è così che ci troviamo a studiare direttamente il filtro-antiduplicazione.

Purtroppo, a mia insaputa, il mio servizio di hosting ha implementato diverse regole sul mod_security, che intercetta e cambia l'url, a causa di diversi tentativi di hack del sistema.

Questo semplice settaggio, ha fatto letteralmente duplicare tutto il sito Motori e Ricerca: tutte le url dei contenuti sono cambiate da

nomedominio/?q=nomefile a nomedomino/index.php?q=nomefile

Purtroppo l'hosting non mi ha segnalato l'evento e prima che mi sono accorto di quanto accaduto, bloccando con il robots.txt l'accesso a tutti gli spider, GoogleBot, MsnBot e Slurp, gli spider dei motori di ricerca più importanti avevano già cominciato a visitare e indicizzare le duplicazioni.

Attualmente il robots.txt blocca l'accesso al sito a tutti gli spider e spero che, riuscendo a ripristinare la situazione, gli possa anche servire come input di problemi.

Motori e Ricerca gira su piattaforma Drupal, così inizialmente pensavo di aver commesso qualche errore così ho chiesto maggiori informazioni circa possibili Duplicazioni sul forum di Drupal Italia

Riporto qui un breve stralcio:

Il problema come detto sopra è che, non so come, mi si è letteralmente duplicato il sito: infatti tutti le url dei contenuti sono cambiate ...

...ho spulciato i log del server tutta la notte non riuscendo a capire se è stata colpa mia o magari di qualche cambiamento dell'hosting ...

Purtroppo il progetto Motori e Ricerca si falsa clamorosamente e secondo me subirà comunque delle penalizzazioni anche se ripristinerò la situazione iniziale.

Cercando un lato positivo in questa storia, la duplicazione dei contenuti e dell'intero sito ci permetterà di studiare e approfondire da veramente vicino il filtro anti – duplicazione di Google e il comportamento degli altri motori come Yahoo e MSN di fronte a un intero sito duplicato da spiderizzare, ma con robots.txt che gli blocca l'accesso.

Prima della duplicazione, la parola chiave che controllo più spesso del sito “guida al posizionamento” oscillava di qualche posizione nella seconda pagina dei risultati di Google.