Il “diario di bordo” serve per analizzare i dati raccolti durante l’indicizzazione e il posizionamento di Motori e Ricerca: sostanzialmente dati, analisi e teorie per meglio comprendere il fenomeno dell’indicizzazione e il posizionamento sui motori.
Il monitoraggio dell'indicizzazione è il primo progetto del “diario di bordo”: la prima indicizzazione sui motori, in particolar modo su Google, è un evento fondamentale e al centro di diversi dibattiti internazionali: molti di voi avranno già sentito parlare di Sandbox , letteralmente scatola di sabbia, un presunto limbo in cui vengono tenuti i nuovi siti per determinate keyword che determina la non visibilità del sito nei risultati delle ricerche.
In estate una verifica direttamente da Google che l'effetto Sandbox esisterebbe: ma a cosa serve e cosa giustifichi non è ancora chiaro.
Tecnicamente parlando, nel brevetto di Google sui dati storici, vengono descritti alcuni algoritmi per la ricerca, l'analisi e la valutazione di informazioni di tipo storico: non sappiamo se questi algoritmi siano già in uso da Google ma potrebbero essere la causa dell'effetto sandbox.
L'analisi della data iniziale, l'inidicizzazione dei contenuti sui vari motori di ricerca, la velocità di archiviazione dei vari spider, i criteri di freschezza dei link descritti nei dati storici sono i principali elementi monitorizzati.
Ultimamente, poi, Google sta incontrando un po di difficoltà nell'indicizzazione di nuove pagine: la registrazione e l'indicizzazione di un nuovo sito ci può essere utile anche per verificare il ritmo di archiviazione dello spider di Google e seguire in quanto tempo avviene la corretta indicizzazione di tutte le pagine del sito.
Il progetto consiste sostanzialmente in due fasi:
L'indicizzazione nei motori di ricerca di Motori e Ricerca nel secondo mese da quando è on-line, ha visto notevoli aggiornamenti nel numero delle pagine e dei contenuti correttamente indicizzati.
In quest'ultimo mese, Motori e Ricerca non ha ricevuto link freschi statici, soltanto link in post del forum GT sul posizionamento nei motori di ricerca.
Il sito viene costantemente visitato dagli spider dei motori di ricerca di Google, Yahoo e Msn: GoogleBot spiderizza correttamente ogni categoria, tanto che, avendo commesso un errore nella configurazione dell'archivio di Motori e Ricerca, si era addentrato nell'archivio del 2005 e visitava ogni giorno una trentina di pagine VUOTE!!
Essendo nato a dicembre 2005, i contenuti in archivio erano relativi solo all'ultimo mese: il mio errore è stato quello di non configurare correttamente l'archivio soltanto sui giorni con contenuti, creando così tutto l'archivio del 2005 che risultava pieno di pagine vuote.
Ho disabilitato l'archivio, disabilitato sul file robots.txt l'accesso alla
cartella relativa all'archivio 2005, dopodichè GoogleBot ha continuato a spiderizzare la categoria per un po', poi ha cambiato, ha continuato ad addentrarsi nelle altre categorie e l'indicizzazione è di nuovo proseguita correttamente.
Tra i vari spider, GoogleBot, nonostante si parlava qualche tempo di problemi legati allo spider di Google, è sicuramente quello che funziona in maniera efficiente. MsnBot, nonostante l'estrema velocità iniziale, effettua visite di brevi entità e con discontinuità. Slurp, come dicevo nelle prime pagine del diario, ha confermato la sua costanza, e, ad oggi, è quello che costantemente aggiunge pagine indicizzate in Yahoo senza alcun problema.
Dopo aver esaminato l'indicizzazione in maniera approfondita nel primo mese, tutti i giorni, con rapporti settimanali, in questo secondo mese ho preferito cercare di tracciare dei profili di crescita dell'indicizzazione: qui di seguito vi riporto alcuni dati che ho tenuto sotto controllo per approfondire l'indicizzazione di un sito nuovo e conoscere e studiare i comportamenti degli spider dei motori
di ricerca.
Gennaio |
Pagine indicizzate su Google |
Pagine indicizzate su Yahoo |
Pagine indicizzate su Msn |
6 |
40 |
16 |
48 |
8 |
40 |
23 |
48 |
9 |
41 |
27 |
53 |
10 |
43 |
36 |
53 |
11 |
74 |
34 |
60 |
12 |
46 |
37 |
60 |
13 |
46 |
40 |
60 |
14 |
74 |
40 |
60 |
15 |
73 |
42 |
57 |
16 |
74 |
43 |
60 |
17 |
74 |
72 |
56 |
18 |
48 |
45 |
67 |
20 |
118 |
47 |
70 |
21 |
39 |
47 |
70 |
22 |
37 |
45 |
67 |
23 |
156 |
92 |
71 |
24 a .m |
37 |
108 |
72 |
24 p.m |
186 |
108 |
72 |
|
|
|
|
Si può vedere come i vari datacenter siano spesso disallineati: verificando l'indicizzazione su Google.it e sui datacenter di BigDaddy (tipo il 66.249.93.104) spesso si riscontrano risultati completamente differenti: è come se i datacenter su cui agisce BigDaddy siano più aggiornati e facciano da fonte per gli altri datacenter.
L'analisi dei dati storici sui link, sulla loro freschezza, sul cambiamento delle ancore e dei collegamenti a cui punta un link esistente sono tutti fattori considerati nell'analisi dei dati storici nel brevetto di Google e potrebbero essere utili al motore per correggere il posizionamento del sito tra i risultati del motore.
In questa fase l'analisi dei link ci serve per determinare l'eventuale peso dei link non solo in base al valore di una pagina, ma valutare quanto conta l'aggiornamento e la freschezza di un link.
La registrazione e l'indicizzazione di Motori e Ricerca “parte” con diversi tipi di link:
Nello stesso giorno vengono effettuate le segnalazioni ai motori ed MsnBot, lo spider di Msn, ad un'ora e mezza della segnalazione visita la home di Motori e Ricerca e l'archivia correttamente in cache.
Quindi sostanzialmente il primo giorno, quello della segnalazione, vengono usati solo link su pagine “vecchie”, non fresche, e non più aggiornate da tempo, ma correttamente indicizzate nei motori di ricerca.
Motori e Ricerca acquisisce altri link:
Motori e Ricerca riceve la sua prima citazione ufficiale per la sua guida al posizionamento tra le news sui motori di ricerca di GT e su un post nella sezione posizionamento sui motori di ricerca, insieme alla nuova guida di seomoz.org.
Sono i primi 2 link freschi, su pagine nuove. Vedremo quanto incide la freschezza di un link nell'indicizzazione di un sito.
In serata si presenta Slurp, lo spider di Yahoo. Sinceramente pensavo che arrivasse per ultimo: invece stavolta l'ultimo a passare sara proprio GoogleBot; si vocifera già da un po di alcuni "ritardi" di Google nell'indicizzazione
di nuove pagine; vedremo come si comporterà con l'indicizzazione di un intero sito.
Grande giornata di attivita per MsnBot che archivia correttamente, in due passaggi notturni, 8 pagine. Si presenta anche lo spider di Alexa che visita solo la home. In serata l'inserimento di Motori e Ricerca in 3 directory gratuite e segnalazione ad Arianna.
La seconda settimana di indicizzazione si apre con la visita dello spider di Google, GoogleBot, e si conclude con l'archiviazione e registrazione della home negli archivi del motore : nel fine settimana la home, correttamente indicizzata nel motore di ricerca, è già visibile tra i risultati delle ricerche per alcune parole chiave strategiche.
In questo periodo non è significativo controllare il posizionamento del sito tra i risultati delle ricerche per determinate parole chiave: finchè tutte le pagine non sono correttamente indicizzate, finchè la struttura del sito non viene riconosciuta dal motore, finchè tutti i contenuti non vengono analizzati e pesati, monitorare il posizionamento tra le serp ci può soltanto aiutare a capire i criteri di indicizzazione. Il posizionamento, in questo periodo, infatti, è molto instabile e la posizione restituita dal motore per determinate ricerche può variare sostanzialmente.
Lunedi 12/12
In mattinata arriva finalmente GoogleBot a visitare la home. La prima visita si riferisce soltanto alla home page, che NON viene subito indicizzata dal motore.
Martedi 13/12
Strana attività notturna da parte di un ip non riconosciuto come spider di Google, ma rintracciabile in un net range acquistato e registrato da Google Inc: il presunto spider visita 66 pagine di Motori e Ricerca.
In mattinata presto GoogleBot torna a visitare la home.
In serata Slurp, lo spider di Yahoo, visita la index del brevetto di Google sui dati storici.
In tarda serata controllo l'indicizzazione su Google e finalmente trovo la home indicizzata, ma non correttamente, da Google. Non correttamente in quanto ha indicizzato per il momento soltanto il link senza titolo e descrizione.
Monitorando poi l'indicizzazione su Msn, vedo che ha cominciato ad archiviare il sito: 18 sono le pagine prese per il momento da MsnBot.
Motori e Ricerca non è ancora visibile su nessun motore.
Mercoledi 14/12
Due visite di GoogleBot alla home notturne a distanza di qualche ora l'una dall'altra: poi in mattinata una visita alla index dei dati storici.
Giovedi 15/12
La mattinata si apre con la solita visitina di GoogleBot alla home. In serata passa lo spider di Italia online (iol.it)
Venerdi 16/12
Finalmente la home correttamente archiviata e indicizzata da Google. Nella copia cache immagazzinata dal motore di ricerca nel suo archivio, è possibile vedere che la pagina web indicizzata è stata visitata il 14 alle 06:30, un'ora dopo la seconda visita notturna.
La corretta indicizzazione della sola home page non è significativa nella valutazione dei risultati d i posizionamento: inoltre, per i nuovi siti che il motore indicizza, il controllo del posizionamento sul motore non è attendibile nelle prime fasi di indicizzazione: almeno finchè non sono correttamente indicizzare tutte le pagine del sito.
Domenica 18 viene effettuata la segnalazione presso 4 directory che permettono la segnalazione e l'inserimento gratuito dei siti, che nei giorni seguenti inseriranno un link verso Motori e Ricerca.
Nella settimana da lunedi a 19 a sabato 24 molte saranno le evoluzioni di questa indicizzazione: dalle visite da parte di vari spider di motori di ricerca minori alla spiderizzazione di molte pagine del sito da parte di Google e Yahoo.
Durante questi giorni, l'aumento costante della link popularity ha fatto si che il sito venisse correttamente spiderizzato dai vari motori di ricerca.
Come ci aspettavamo, all'inizio MsnBot, lo spider di Msn, è stato il più veloce a visitare ed indicizzare alcune pagine del sito, ma GoogleBot e Slurp da quanto hanno cominciato la spiderizzazione sono stati più costanti nell'archiviazione e indicizzazione.
Venerdi 23 Dicembre, come regalo di Natale, i motori di ricerca cominciano ad approndire la spiderizzazione delle varie pagine del sito. E' stata la giornata più significativa, vista finora, dal punto di vista del reperimento delle pagine: infatti gli spider di Google e di Yahoo, GoogleBot e Slurp, da oggi cominciano a spiderizzare le varie pagine, non fermandosi soltanto alla home page e addentrandosi nelle varie sezioni e categorie.
GoogleBot ha cominciato con la spiderizzazione con un blocco di 22 pagine web, preferendo, come si può vedere dalla lista sotto, i collegamenti in evidenza e le pagine segnalate in home page riportando l'inizio dell'articolo della pagina:
Sistema operativo |
Risoluzione |
IP |
|
Spider |
Googlebot 2.1 |
N/A |
Host: |
crawl-66-249-71-69.googlebot.com |
Ora |
Pagine visitate [22] |
10:44:07 |
|
11:23:41 |
|
11:27:11 |
|
11:27:45 |
|
11:42:55 |
|
11:52:04 |
|
12:06:09 |
|
12:06:27 |
|
12:13:09 |
|
12:23:40 |
|
12:32:01 |
|
12:34:15 |
|
12:52:55 |
|
12:58:28 |
|
12:59:47 |
|
13:09:26 |
|
13:10:16 |
|
13:20:34 |
|
13:41:59 |
|
13:57:57 |
|
13:58:33 |
|
14:11:46 |
Slurp, al contrario di GoogleBot, ha effettuato più visite ma di breve entità, visitando in totale 14 pagine del sito. Di solito lo spider di Yahoo è abbastanza costante nello spiderizzare un sito; si stabilizza su una serie di visite al giorno e comincia ad indicizzare le pagine che visita. L'indicizzazione è un po lenta in confronto agli spider degli altri motori di ricerca, ma costante.
di seguito si possono notare le visite di Slurp alle pagine del sito
|
|
|
|
|
Con l'inizio della quarta settimana da quando è online Motori e Ricerca si cominciano a vedere i primi risultati di indicizzazione : come regalo di Natale, sabato 24 restituisce le prime 22 pagine correttamente indicizzate, Yahoo 3.
Le visite di GoogleBot in questi giorni diventano sempre più frequenti ed approfondite, e diverse pagine vengono correttamente indicizzate ogni giorno su Google .
Stessi effetti ma di minor entità con Slurp: le sue visite rispetto a quelle di GoogleBot sono minori e di minore entità, ma costanti; MsnBot, dopo una prima fase in cui è risultato il più veloce, è passato poco in questi ultimi giorni e effettuando visite di lieve entità: le pagine indicizzate su Msn sono ancora 18.
Mercoledì 28 le pagine indicizzate su Google sono arrivate a 40, con un'unica pagina indicizzata della sezione relativa ai dati storici; forse stiamo vedendo in atto il filtro antiduplicazione: vedremo al prossimo aggiornamento i risultati.
Si parlava molto di ritardi di GoogleBot nell'indicizzazione: io personalmente ho notato che da quando ha cominciato ad addentrarsi nelle varie pagine del sito, non si è fermato più ed ha una frequenza di varie visite giornaliere con una spiderizzazione media di 15 pagine. GoogleBot si addentra perfettamente in una categoria, spiderizza i contenuti delle varie sezioni, cambia categoria e ricomincia.
Con l' indicizzazione su Google arrivano anche le prime visite dal motore di ricerca: ovviamente siamo solo agli inizi, molte pagine non sono ancora indicizzate, il sito non è completo, il motore di ricerca non ha ancora avuto modo di pesare gran parte dei contenuti quindi le visite sono relative a chiavi di ricerca associate a parole chiavi che io chiamo “non chiavi”: per esempio “Studi posizionamento” o “analisi posizionamento Google” da Google.it oppure “hilltop pagerank” da Google.ar.
L'ultimo dell'anno si avvicina ed ecco una nuova accelerazione nell'indicizzazione su Msn: MsnBot torna prepotentemente a visitare il sito e a spiderizzare nuove pagine e contenuti, arrivando ad indicizzare correttamente irca 50 pagine.
A sabato 31 sono 40 le pagine indicizzate su Google, 12 su Yahoo e 52 su Msn.
Un problema in cui potrebbe incorrere Motori e Ricerca nell’indicizzazione delle pagine è la duplicazione dei contenuti. La sezione riguardante gli articoli e le traduzioni sul Brevetto di Google sul reperimento delle informazioni basato sui dati storici, infatti, era già correttamente indicizzata su un altro sito.
Per segnalare questo spostamento ai motori di ricerca esistono vari modi che si basano sostanzialmente sull’effettuare dei redirect: la diversa natura di questi ultimi è quella che fa la differenza.
I redirect lato client, effettuati con l'ausilio di linguaggi lato client come js o vbs, sono seguiti dai motori di ricerca, ma esaminati ed analizzati a fondo in quanto molte volte fonte di spam.
I redirect lato server, impostatabili tramite i linguaggi di programmazione lato server come asp o php, non potevano essere implementati in quanto le pagine da spostare erano .html.
L'unica strada era contattare il servizio di hosting e far impostare direttamente sul server i redirect 301 Move Permanently: ma anche questo non era possibile.
Quindi ho dovuto segnalare le pagine da rimuovere dall'indice dei vari motori di ricerca e rimuovere le vecchie pagine dal vecchio sito.
Non si sa quanto richieda questa operazione: generalmente, però, avviene con il nuovo aggiornamento del PR e dei Backlink.
Per il momento possiamo solo monitorare se gli spider visitano la sezione e gli articoli e se le pagine vengono indicizzate o no.
Il filtro anti-duplicazione di Google è un algoritmo creato per combattere lo SPAM e la diffusione di copie di siti pubblicati per il solo scopo di aumentare il posizionamento sui motori di ricerca.
Tutti i SEO conoscono l'importanza di contenuti originali ai fini del posizionamento e conoscono molto bene i vari motori di ricerca: in alcuni settori, vari SEO scelgono volontariamente di raggiungere risultati di posizionamento copiando contenuti e siti interi per aumentare il posizionamento di un singolo sito, linkato da tutte le copie, aspettando il ban dei siti e ricominciando da capo con nuovi domini.
Motori e Ricerca persegue un'altra filosofia ma arcani fattori che qualcuno chiama destino sono sempre dietro l'angolo ed è così che ci troviamo a studiare direttamente il filtro-antiduplicazione.
Purtroppo, a mia insaputa, il mio servizio di hosting ha implementato diverse regole sul mod_security, che intercetta e cambia l'url, a causa di diversi tentativi di hack del sistema.
Questo semplice settaggio, ha fatto letteralmente duplicare tutto il sito Motori e Ricerca: tutte le url dei contenuti sono cambiate da
nomedominio/?q=nomefile a nomedomino/index.php?q=nomefile
Purtroppo l'hosting non mi ha segnalato l'evento e prima che mi sono accorto di quanto accaduto, bloccando con il robots.txt l'accesso a tutti gli spider, GoogleBot, MsnBot e Slurp, gli spider dei motori di ricerca più importanti avevano già cominciato a visitare e indicizzare le duplicazioni.
Attualmente il robots.txt blocca l'accesso al sito a tutti gli spider e spero che, riuscendo a ripristinare la situazione, gli possa anche servire come input di problemi.
Motori e Ricerca gira su piattaforma Drupal, così inizialmente pensavo di aver commesso qualche errore così ho chiesto maggiori informazioni circa possibili Duplicazioni sul forum di Drupal Italia
Riporto qui un breve stralcio:
Il problema come detto sopra è che, non so come, mi si è letteralmente duplicato il sito: infatti tutti le url dei contenuti sono cambiate ...
...ho spulciato i log del server tutta la notte non riuscendo a capire se è stata colpa mia o magari di qualche cambiamento dell'hosting ...
Purtroppo il progetto Motori e Ricerca si falsa clamorosamente e secondo me subirà comunque delle penalizzazioni anche se ripristinerò la situazione iniziale.
Cercando un lato positivo in questa storia, la duplicazione dei contenuti e dell'intero sito ci permetterà di studiare e approfondire da veramente vicino il filtro anti – duplicazione di Google e il comportamento degli altri motori come Yahoo e MSN di fronte a un intero sito duplicato da spiderizzare, ma con robots.txt che gli blocca l'accesso.
Prima della duplicazione, la parola chiave che controllo più spesso del sito “guida al posizionamento” oscillava di qualche posizione nella seconda pagina dei risultati di Google.