Il monitoraggio dell'indicizzazione è il primo progetto del “diario di bordo”: la prima indicizzazione sui motori, in particolar modo su Google, è un evento fondamentale e al centro di diversi dibattiti internazionali: molti di voi avranno già sentito parlare di Sandbox , letteralmente scatola di sabbia, un presunto limbo in cui vengono tenuti i nuovi siti per determinate keyword che determina la non visibilità del sito nei risultati delle ricerche.
In estate una verifica direttamente da Google che l'effetto Sandbox esisterebbe: ma a cosa serve e cosa giustifichi non è ancora chiaro.
Tecnicamente parlando, nel brevetto di Google sui dati storici, vengono descritti alcuni algoritmi per la ricerca, l'analisi e la valutazione di informazioni di tipo storico: non sappiamo se questi algoritmi siano già in uso da Google ma potrebbero essere la causa dell'effetto sandbox.
L'analisi della data iniziale, l'inidicizzazione dei contenuti sui vari motori di ricerca, la velocità di archiviazione dei vari spider, i criteri di freschezza dei link descritti nei dati storici sono i principali elementi monitorizzati.
Ultimamente, poi, Google sta incontrando un po di difficoltà nell'indicizzazione di nuove pagine: la registrazione e l'indicizzazione di un nuovo sito ci può essere utile anche per verificare il ritmo di archiviazione dello spider di Google e seguire in quanto tempo avviene la corretta indicizzazione di tutte le pagine del sito.
Il progetto consiste sostanzialmente in due fasi:
L'indicizzazione nei motori di ricerca di Motori e Ricerca nel secondo mese da quando è on-line, ha visto notevoli aggiornamenti nel numero delle pagine e dei contenuti correttamente indicizzati.
In quest'ultimo mese, Motori e Ricerca non ha ricevuto link freschi statici, soltanto link in post del forum GT sul posizionamento nei motori di ricerca.
Il sito viene costantemente visitato dagli spider dei motori di ricerca di Google, Yahoo e Msn: GoogleBot spiderizza correttamente ogni categoria, tanto che, avendo commesso un errore nella configurazione dell'archivio di Motori e Ricerca, si era addentrato nell'archivio del 2005 e visitava ogni giorno una trentina di pagine VUOTE!!
Essendo nato a dicembre 2005, i contenuti in archivio erano relativi solo all'ultimo mese: il mio errore è stato quello di non configurare correttamente l'archivio soltanto sui giorni con contenuti, creando così tutto l'archivio del 2005 che risultava pieno di pagine vuote.
Ho disabilitato l'archivio, disabilitato sul file robots.txt l'accesso alla
cartella relativa all'archivio 2005, dopodichè GoogleBot ha continuato a spiderizzare la categoria per un po', poi ha cambiato, ha continuato ad addentrarsi nelle altre categorie e l'indicizzazione è di nuovo proseguita correttamente.
Tra i vari spider, GoogleBot, nonostante si parlava qualche tempo di problemi legati allo spider di Google, è sicuramente quello che funziona in maniera efficiente. MsnBot, nonostante l'estrema velocità iniziale, effettua visite di brevi entità e con discontinuità. Slurp, come dicevo nelle prime pagine del diario, ha confermato la sua costanza, e, ad oggi, è quello che costantemente aggiunge pagine indicizzate in Yahoo senza alcun problema.
Dopo aver esaminato l'indicizzazione in maniera approfondita nel primo mese, tutti i giorni, con rapporti settimanali, in questo secondo mese ho preferito cercare di tracciare dei profili di crescita dell'indicizzazione: qui di seguito vi riporto alcuni dati che ho tenuto sotto controllo per approfondire l'indicizzazione di un sito nuovo e conoscere e studiare i comportamenti degli spider dei motori
di ricerca.
Gennaio |
Pagine indicizzate su Google |
Pagine indicizzate su Yahoo |
Pagine indicizzate su Msn |
6 |
40 |
16 |
48 |
8 |
40 |
23 |
48 |
9 |
41 |
27 |
53 |
10 |
43 |
36 |
53 |
11 |
74 |
34 |
60 |
12 |
46 |
37 |
60 |
13 |
46 |
40 |
60 |
14 |
74 |
40 |
60 |
15 |
73 |
42 |
57 |
16 |
74 |
43 |
60 |
17 |
74 |
72 |
56 |
18 |
48 |
45 |
67 |
20 |
118 |
47 |
70 |
21 |
39 |
47 |
70 |
22 |
37 |
45 |
67 |
23 |
156 |
92 |
71 |
24 a .m |
37 |
108 |
72 |
24 p.m |
186 |
108 |
72 |
|
|
|
|
Si può vedere come i vari datacenter siano spesso disallineati: verificando l'indicizzazione su Google.it e sui datacenter di BigDaddy (tipo il 66.249.93.104) spesso si riscontrano risultati completamente differenti: è come se i datacenter su cui agisce BigDaddy siano più aggiornati e facciano da fonte per gli altri datacenter.
L'analisi dei dati storici sui link, sulla loro freschezza, sul cambiamento delle ancore e dei collegamenti a cui punta un link esistente sono tutti fattori considerati nell'analisi dei dati storici nel brevetto di Google e potrebbero essere utili al motore per correggere il posizionamento del sito tra i risultati del motore.
In questa fase l'analisi dei link ci serve per determinare l'eventuale peso dei link non solo in base al valore di una pagina, ma valutare quanto conta l'aggiornamento e la freschezza di un link.
La registrazione e l'indicizzazione di Motori e Ricerca “parte” con diversi tipi di link:
Nello stesso giorno vengono effettuate le segnalazioni ai motori ed MsnBot, lo spider di Msn, ad un'ora e mezza della segnalazione visita la home di Motori e Ricerca e l'archivia correttamente in cache.
Quindi sostanzialmente il primo giorno, quello della segnalazione, vengono usati solo link su pagine “vecchie”, non fresche, e non più aggiornate da tempo, ma correttamente indicizzate nei motori di ricerca.
Motori e Ricerca acquisisce altri link:
Motori e Ricerca riceve la sua prima citazione ufficiale per la sua guida al posizionamento tra le news sui motori di ricerca di GT e su un post nella sezione posizionamento sui motori di ricerca, insieme alla nuova guida di seomoz.org.
Sono i primi 2 link freschi, su pagine nuove. Vedremo quanto incide la freschezza di un link nell'indicizzazione di un sito.
In serata si presenta Slurp, lo spider di Yahoo. Sinceramente pensavo che arrivasse per ultimo: invece stavolta l'ultimo a passare sara proprio GoogleBot; si vocifera già da un po di alcuni "ritardi" di Google nell'indicizzazione
di nuove pagine; vedremo come si comporterà con l'indicizzazione di un intero sito.
Grande giornata di attivita per MsnBot che archivia correttamente, in due passaggi notturni, 8 pagine. Si presenta anche lo spider di Alexa che visita solo la home. In serata l'inserimento di Motori e Ricerca in 3 directory gratuite e segnalazione ad Arianna.
La seconda settimana di indicizzazione si apre con la visita dello spider di Google, GoogleBot, e si conclude con l'archiviazione e registrazione della home negli archivi del motore : nel fine settimana la home, correttamente indicizzata nel motore di ricerca, è già visibile tra i risultati delle ricerche per alcune parole chiave strategiche.
In questo periodo non è significativo controllare il posizionamento del sito tra i risultati delle ricerche per determinate parole chiave: finchè tutte le pagine non sono correttamente indicizzate, finchè la struttura del sito non viene riconosciuta dal motore, finchè tutti i contenuti non vengono analizzati e pesati, monitorare il posizionamento tra le serp ci può soltanto aiutare a capire i criteri di indicizzazione. Il posizionamento, in questo periodo, infatti, è molto instabile e la posizione restituita dal motore per determinate ricerche può variare sostanzialmente.
Lunedi 12/12
In mattinata arriva finalmente GoogleBot a visitare la home. La prima visita si riferisce soltanto alla home page, che NON viene subito indicizzata dal motore.
Martedi 13/12
Strana attività notturna da parte di un ip non riconosciuto come spider di Google, ma rintracciabile in un net range acquistato e registrato da Google Inc: il presunto spider visita 66 pagine di Motori e Ricerca.
In mattinata presto GoogleBot torna a visitare la home.
In serata Slurp, lo spider di Yahoo, visita la index del brevetto di Google sui dati storici.
In tarda serata controllo l'indicizzazione su Google e finalmente trovo la home indicizzata, ma non correttamente, da Google. Non correttamente in quanto ha indicizzato per il momento soltanto il link senza titolo e descrizione.
Monitorando poi l'indicizzazione su Msn, vedo che ha cominciato ad archiviare il sito: 18 sono le pagine prese per il momento da MsnBot.
Motori e Ricerca non è ancora visibile su nessun motore.
Mercoledi 14/12
Due visite di GoogleBot alla home notturne a distanza di qualche ora l'una dall'altra: poi in mattinata una visita alla index dei dati storici.
Giovedi 15/12
La mattinata si apre con la solita visitina di GoogleBot alla home. In serata passa lo spider di Italia online (iol.it)
Venerdi 16/12
Finalmente la home correttamente archiviata e indicizzata da Google. Nella copia cache immagazzinata dal motore di ricerca nel suo archivio, è possibile vedere che la pagina web indicizzata è stata visitata il 14 alle 06:30, un'ora dopo la seconda visita notturna.
La corretta indicizzazione della sola home page non è significativa nella valutazione dei risultati d i posizionamento: inoltre, per i nuovi siti che il motore indicizza, il controllo del posizionamento sul motore non è attendibile nelle prime fasi di indicizzazione: almeno finchè non sono correttamente indicizzare tutte le pagine del sito.
Domenica 18 viene effettuata la segnalazione presso 4 directory che permettono la segnalazione e l'inserimento gratuito dei siti, che nei giorni seguenti inseriranno un link verso Motori e Ricerca.
Nella settimana da lunedi a 19 a sabato 24 molte saranno le evoluzioni di questa indicizzazione: dalle visite da parte di vari spider di motori di ricerca minori alla spiderizzazione di molte pagine del sito da parte di Google e Yahoo.
Durante questi giorni, l'aumento costante della link popularity ha fatto si che il sito venisse correttamente spiderizzato dai vari motori di ricerca.
Come ci aspettavamo, all'inizio MsnBot, lo spider di Msn, è stato il più veloce a visitare ed indicizzare alcune pagine del sito, ma GoogleBot e Slurp da quanto hanno cominciato la spiderizzazione sono stati più costanti nell'archiviazione e indicizzazione.
Venerdi 23 Dicembre, come regalo di Natale, i motori di ricerca cominciano ad approndire la spiderizzazione delle varie pagine del sito. E' stata la giornata più significativa, vista finora, dal punto di vista del reperimento delle pagine: infatti gli spider di Google e di Yahoo, GoogleBot e Slurp, da oggi cominciano a spiderizzare le varie pagine, non fermandosi soltanto alla home page e addentrandosi nelle varie sezioni e categorie.
GoogleBot ha cominciato con la spiderizzazione con un blocco di 22 pagine web, preferendo, come si può vedere dalla lista sotto, i collegamenti in evidenza e le pagine segnalate in home page riportando l'inizio dell'articolo della pagina:
Sistema operativo |
Risoluzione |
IP |
|
Spider |
Googlebot 2.1 |
N/A |
Host: |
crawl-66-249-71-69.googlebot.com |
Ora |
Pagine visitate [22] |
10:44:07 |
|
11:23:41 |
|
11:27:11 |
|
11:27:45 |
|
11:42:55 |
|
11:52:04 |
|
12:06:09 |
|
12:06:27 |
|
12:13:09 |
|
12:23:40 |
|
12:32:01 |
|
12:34:15 |
|
12:52:55 |
|
12:58:28 |
|
12:59:47 |
|
13:09:26 |
|
13:10:16 |
|
13:20:34 |
|
13:41:59 |
|
13:57:57 |
|
13:58:33 |
|
14:11:46 |
Slurp, al contrario di GoogleBot, ha effettuato più visite ma di breve entità, visitando in totale 14 pagine del sito. Di solito lo spider di Yahoo è abbastanza costante nello spiderizzare un sito; si stabilizza su una serie di visite al giorno e comincia ad indicizzare le pagine che visita. L'indicizzazione è un po lenta in confronto agli spider degli altri motori di ricerca, ma costante.
di seguito si possono notare le visite di Slurp alle pagine del sito
|
|
|
|
|
Con l'inizio della quarta settimana da quando è online Motori e Ricerca si cominciano a vedere i primi risultati di indicizzazione : come regalo di Natale, sabato 24 restituisce le prime 22 pagine correttamente indicizzate, Yahoo 3.
Le visite di GoogleBot in questi giorni diventano sempre più frequenti ed approfondite, e diverse pagine vengono correttamente indicizzate ogni giorno su Google .
Stessi effetti ma di minor entità con Slurp: le sue visite rispetto a quelle di GoogleBot sono minori e di minore entità, ma costanti; MsnBot, dopo una prima fase in cui è risultato il più veloce, è passato poco in questi ultimi giorni e effettuando visite di lieve entità: le pagine indicizzate su Msn sono ancora 18.
Mercoledì 28 le pagine indicizzate su Google sono arrivate a 40, con un'unica pagina indicizzata della sezione relativa ai dati storici; forse stiamo vedendo in atto il filtro antiduplicazione: vedremo al prossimo aggiornamento i risultati.
Si parlava molto di ritardi di GoogleBot nell'indicizzazione: io personalmente ho notato che da quando ha cominciato ad addentrarsi nelle varie pagine del sito, non si è fermato più ed ha una frequenza di varie visite giornaliere con una spiderizzazione media di 15 pagine. GoogleBot si addentra perfettamente in una categoria, spiderizza i contenuti delle varie sezioni, cambia categoria e ricomincia.
Con l' indicizzazione su Google arrivano anche le prime visite dal motore di ricerca: ovviamente siamo solo agli inizi, molte pagine non sono ancora indicizzate, il sito non è completo, il motore di ricerca non ha ancora avuto modo di pesare gran parte dei contenuti quindi le visite sono relative a chiavi di ricerca associate a parole chiavi che io chiamo “non chiavi”: per esempio “Studi posizionamento” o “analisi posizionamento Google” da Google.it oppure “hilltop pagerank” da Google.ar.
L'ultimo dell'anno si avvicina ed ecco una nuova accelerazione nell'indicizzazione su Msn: MsnBot torna prepotentemente a visitare il sito e a spiderizzare nuove pagine e contenuti, arrivando ad indicizzare correttamente irca 50 pagine.
A sabato 31 sono 40 le pagine indicizzate su Google, 12 su Yahoo e 52 su Msn.