SEO Blog
Write a comment

Un bruco paragonato al crawler di Google.

Cos'è Googlebot e come funziona?

Google esegue la Scansione del Web per trovare nuove pagine, le indicizza per capire di cosa trattano e le classifica in base ai dati recuperati.
Scansione e indicizzazione sono due processi diversi, eseguiti da un Crawler.
In questa guida, ho raccolto tutto ciò che un SEO deve sapere sul Crawler di Google, come funziona e come puoi rendere più efficace la sua interazione con il tuo sito web.

Che cos'è il Crawler di Google?

Il crawler (anche searchbot o spider) è un software utilizzato da Google e da altri motori di ricerca per recuperare i dati dal web.
Googlebot, uno degli spider di Google, "scansiona" il Web da un sito all'altro, da una pagina all'altra, alla ricerca di contenuti nuovi o aggiornati che il motore di ricerca non ha ancora nei suoi database. 

Qualsiasi motore di ricerca ha il proprio set di Crawler. Per quanto riguarda Google, ne esistono più di 15 diversi tipi e il principale si chiama appunto Googlebot.
Googlebot esegue sia la Scansione che l'indicizzazione.
Diamogli un'occhiata per capire come funziona.

Come funziona il Crawler di Google?

Google (qualsiasi motore di ricerca in realtà) non ha un registro centrale degli URL che si aggiorna ogni volta che viene creata una nuova pagina.

Ciò significa che Google non viene "avvisato" automaticamente sulle nuove pagine, ma deve trovarle da solo sul Web.
Googlebot vaga costantemente in rete e cerca nuove pagine, aggiungendole al database delle pagine già esistenti.
Una volta che esso scopre una nuova pagina, esegue il rendering (visualizza) della pagina in un browser, caricando tutto l'HTML, il codice di terze parti, JavaScript e CSS.

Queste informazioni vengono memorizzate nel suo database e quindi utilizzate per indicizzare e classificare la pagina.
Se una pagina è stata indicizzata, viene aggiunta a Google Index , un altro enorme database.

Sequenza di Crawling, rendering e indexing dei motori di ricerca.

In che modo il Crawler di Google vede le pagine?

Il Crawler di Google esegue il rendering di una pagina nell'ultima versione del browser Chromium.
In uno scenario perfetto, il Crawler di Google "vede" una pagina nel modo in cui l'hai progettata ma in realtà le cose potrebbero rivelarsi più complicate.

Rendering mobile e desktop

Googlebot può "vedere" la tua pagina con due sottotipi di Crawler: Googlebot Desktop e Googlebot Smartphone.
Questa divisione è necessaria per indicizzare le pagine sia per le SERP desktop che per quelle mobili.

Alcuni anni fa, Google utilizzava un Crawler solo per desktop per visitare e visualizzare la maggior parte delle pagine ma oggi le cose sono cambiate con l'introduzione del concetto mobile-first .
Google ha ritenuto che il mondo fosse diventato abbastanza mobile-friendly e ha iniziato ad utilizzare solo Googlebot Smartphone per eseguire la Scansione, l'indicizzazione e il ranking della versione mobile dei siti Web sia per le SERP mobili che per desktop.

Tuttavia, l'implementazione dell'indicizzazione mobile-first si è rivelata più difficile del previsto.
Internet è enorme e la maggior parte dei siti Web sembrava essere poco ottimizzata per i dispositivi mobili.

Ai tempi ricordo che dalla Search Console partì un avviso che notificava l'imminente aggiornamento ma, diciamocela: quanti siti web non hanno neppure la search console attiva?
Da una mia stima personale, almeno il 50% ne è priva, di conseguenza, metà dei webmaster non ricevette alcuna notifica.

Google decise così di utilizzare il concetto mobile-first per la Scansione e l'indicizzazione dei nuovi siti Web e solo di quelli vecchi aggiornati e completamente ottimizzati per i dispositivi mobili.
Se un sito Web non è ottimizzato per i dispositivi mobili, viene scansionato e visualizzato solo da Googlebot Desktop.

Anche se il tuo sito web è stato convertito all'indicizzazione mobile-first, da Analytics riscontrerai scansioni anche da Googlebot Desktop, poiché Google vuole verificarne il rendimento.

Google non ti avviserà se la tua versione desktop differisce molto da quella mobile ma è logico presumere lo appuri, poiché l'obiettivo principale del motore di ricerca è fornire agli utenti le informazioni utili e Google difficilmente vuole perdere questi contenuti seguendo ciecamente il concetto mobile-first.

In ogni caso, il tuo sito web sarà visitato sia da Googlebot Mobile che da Googlebot Desktop, quindi è importante prendersi cura di entrambe le versioni delle pagine e pensare di utilizzare un layout reattivo se non l'hai ancora fatto.

Come puoi sapere se Google esegue la scansione e indicizza il tuo sito Web con il concetto mobile-first?
Riceverai una notifica speciale in Google Search Console.

Avvisi e notifiche del sito andreagiudice.eu dalla search console.

Rendering HTML e JavaScript

Googlebot potrebbe avere problemi nell'elaborazione e nel fare il rendering di codice voluminoso.
Se il codice della tua pagina è disordinato, il crawler potrebbe non riuscire a visualizzarlo correttamente e considerare la tua pagina vuota.

Per quanto riguarda il rendering JavaScript, questo linguaggio è in rapida e continua evoluzione e Googlebot potrebbe non supportare le ultime versioni.

Assicurati quindi che i tuoi script in JS siano compatibili con Googlebot, altrimenti la tua pagina potrebbe essere visualizzata in modo errato.

Presta attenzione al tempo di caricamento di JavaScript

Se uno script richiede più di 5 secondi per essere caricato, Googlebot non eseguirà il rendering e di conseguenza l'indicizzazione del contenuto generato da quello script.

Per vedere quali risorse sulla tua pagina causano problemi di rendering (e comunque capire se hai problemi in generale), accedi al tuo account Google Search Console, vai a Controllo URL, inserisci l'URL che vuoi controllare, fai clic sul pulsante Test URL live e clicca su Visualizza pagina testata.

Test pagina da Search Console.

Quindi vai alla sezione Ulteriori informazioni e clicca su Risorse della pagine e messaggi della console JavaScript per analizzare l'elenco che Googlebot non è riuscito a visualizzare.

Risultati dei test pagina da Search Console.

Cosa influenza il comportamento del crawler?

Il comportamento di Googlebot non è caotico ma determinato da sofisticati algoritmi che aiutano il crawler a navigare nel Web e a stabilire le regole di elaborazione delle informazioni.
Tuttavia, il comportamento degli algoritmi di Google non è qualcosa per cui non puoi fare nulla e sperare per il meglio.
Diamo un'occhiata più da vicino a ciò che influenza il comportamento del crawler e come puoi ottimizzare la scansione delle tue pagine.

Link interni e backlink

Se Google conosce già il tuo sito web, Googlebot controllerà di tanto in tanto gli aggiornamenti delle tue pagine principali. Ecco perché è fondamentale inserire i link alle nuove pagine nelle pagine più autorevoli del tuo sito web, idealmente, sulla home page.

Puoi arricchire la tua home page con un blocco contenente le ultime notizie o i post del blog per consentire al bot di trovare le tue nuove pagine molto più rapidamente.
Questa raccomandazione può sembrare banale, tuttavia, molti webmaster continuano a trascurarla, il che si traduce in una scarsa indicizzazione e scarso posizionamento.

Per WordPress esiste poi Internal Link Juicer, un plugin che spesso definisco "manna dal cielo".
Questo è uno dei motivi per cui fare SEO su altri CMS come Joomla, purtroppo, non è così vantaggioso ma di questo parlerò in un altro post, mio malgrado, perchè spesso mi chiedono quali sono le differenze tra i due CMS; lavorando da sempre con entrambi, non ho mai sostenuto nessuna guerra di parte (e sinceramente, meno non può fregarmene).
Concludo questa parentesi dicendo che questo stesso blog è realizzato in Joomla.

Riprendendo il discorso, in termini di scansione, i backlink funzionano allo stesso modo: Google troverà la tua pagina più velocemente se collegata ad una pagina esterna credibile e popolare.

Quindi, se aggiungi una nuova pagina, non dimenticare di promuoverla in qualche modo con un link da qualche parte.

Profondità di click

La profondità di click mostra la distanza di una pagina dalla home page, indicando così quanti "passi" avrà bisogno Googlebot per raggiungerla. Idealmente, qualsiasi pagina di un sito Web dovrebbe essere raggiunta entro 3 click.
Una maggiore profondità di click rallenta la scansione e difficilmente gioverà all'esperienza utente.

Analisi profondità di click.

Mappa del sito, o sitemap

La sitemap è un file che contiene l'elenco completo delle pagine che desideri indicizzare. Puoi inviare una mappa del tuo sito web a Google tramite Google Search Console ( Indice > sitemap ) per far sapere a Googlebot quali pagine visitare ed eseguire la scansione. Una mappa del sito dice anche a Google se ci sono aggiornamenti sul sito.

La presenza della Sitemap non è garanzia del suo utilizzo da parte di Googlebot per la scansione del sito.
Il crawler può ignorarla e continuare ad eseguire la scansione come gli pare.

Tuttavia, nessuno è stato mai punito per avere una sitemap e, nella maggior parte dei casi, si rivela utile.
Alcuni CMS la generano anche automaticamente, l'aggiornano e la inviano a Google per rendere la tua SEO più semplice e veloce.

Durante la scansione e l'indicizzazione delle tue pagine, Google segue determinate istruzioni, come robots.txt, tag noindex , meta tag robots e X-Robots-Tag .

Robots.txt contiene istruzioni che limitano pagine o elementi di contenuto ai motori di ricerca.
Una volta che Googlebot scopre una tua pagina, esamina il file robots.txt. Se la scansione della pagina rilevata è vietata da robots.txt, Googlebot si interrompe e la non la farà apparire nella ricerca.

Noindex tag, robots meta tag e x-robots-tag sono i tag utilizzati per impedire ai crawler l'indicizzazione di una pagina.
E' molto importante sapere che la presenza di questi TAG non impedisce la scansione.

Una pagina con il disallow nel robots.txt non sarà mostrata in serp (ma farà apparire il messaggio "questa risorsa ...").
Una pagina con il noindex non apparirà in serp ma Google bot la passerà in scansione (un po' come dire che Googlebot per sapere se esiste quel metatag, deve passare in scansione la pagina stessa).

Di conseguenza, il crawl budget con il noindex non sarà gestito correttamente, motivo per cui fare SEO su Shopify è molto arduo perchè è solo possbile inserire dei "noindex" nelle pagine ed è impossibile modificare il robots.txt.
Un tag noindex quindi impedisce l'indicizzazione della pagina da parte di tutti i tipi di crawler. Un meta tag robots viene utilizzato per specificare il modo in cui una determinata pagina deve essere scansionata e indicizzata.

Ciò significa che puoi impedire ad alcuni tipi di crawler di caricare la pagina e mantenerla aperta per altri.
Un X-Robots-Tag può essere utilizzato come elemento di risposta dell'intestazione HTTP per limitare l'indicizzazione.

Questo tag consente di scegliere come target tipi separati di robot di scansione (se specificati). Se non sono specificati, le istruzioni saranno valide per tutti i crawler.

Nota: il file Robots.txt non garantisce che la pagina sia esclusa dall'indicizzazione. Googlebot tratta questo file più come una raccomandazione che come una direttiva. Ciò significa che Google può ignorare robots.txt e indicizzare una risorsa. Se vuoi assicurarti che la pagina non venga indicizzata, usa un tag noindex .

Tutte le pagine sono disponibili per la scansione?

No. Alcune pagine potrebbero non essere disponibili per la scansione e l'indicizzazione. Diamo un'occhiata più da vicino a questi tipi di pagine:

Pagine protette da password

Googlebot simula il comportamento di un utente anonimo che non possiede le credenziali per visitare le pagine protette. Pertanto, se una pagina è protetta con una password, non verrà eseguita la scansione, poiché Googlebot non sarà in grado di raggiungerla.

Pagine escluse dalle istruzioni di indicizzazione

Queste sono le pagine nascoste a Google dalle istruzioni robots.txt, le pagine con un tag noindex, il meta tag robots e X-Robots-Tag .

Pagine orfane

Le pagine orfane sono pagine non linkate da nessun'altra pagina del sito web.
Googlebot è uno spider-robot, il che significa che scopre nuove pagine seguendo tutti i link che trova. Se non sono presenti collegamenti che puntano ad una pagina, questa non verrà sottoposta a scansione ma è facile che Googlebot la trovi e la mostri in serp.

Tipico è il caso di alcuni webmaster che salvano il backup dei database degli e-commerce nella root del sito, per praticità.
Mi sono capitati diversi siti sottoposti a questa pratica ed è stato interessante notare come il comando "site:NOME_SITO" mostrasse quel file pronto per essere scaricato.
Immagina un ecommerce con tutti i dati degli utenti.
Se proprio non puoi fare a meno di salvare il file sul server, potresti metterlo all'interno di una cartella negata dal robots.txt con un Disallow, oppure, ancora meglio, salvarlo in una cartella del tutto inaccessibile lato utente, come ad esempio, in un livello superiore alla root pubblica del server (cartella/public_html).

Ad alcune pagine potrebbe essere impedita di proposito la scansione e l'indicizzazione.
Di solito si tratta delle pagine che non devono essere visualizzate nella ricerca: pagine con dati personali, politiche, termini di utilizzo, versioni di prova del sito, archivi, pagine interne dei risultati di ricerca e così via.

Se vuoi rendere le tue pagine disponibili ai crawler di Google e portare traffico, assicurati di non proteggerle con password e controlla attentamente le istruzioni di indicizzazione.
Per verificare la scansione delle pagine del tuo sito web in Google Search Console, vai su Indice > Rapporto di copertura.

Presta attenzione ai problemi contrassegnati come Errore (non indicizzato) e Valido con avviso (indicizzato, anche se presenta problemi).

Rapporto copertura da Google Search Console.

Quando apparirà il mio sito web nella ricerca?

È chiaro che le tue pagine non appariranno nella ricerca subito dopo aver messo online il tuo sito web.
Se il tuo sito web è nuovo, Googlebot avrà bisogno di un po' di tempo per trovarlo. Tieni presente che esistono casi di attese fino a 6 mesi. 
Se Google conosce già il tuo sito web, hai apportato alcuni aggiornamenti o aggiunto nuove pagine, la velocità di propagazione delle modifiche dipenderà dal budget di scansione che Google è disposto a concederti.

Il budget di scansione è la quantità di risorse che Google spende per eseguire la scansione del tuo sito web. Più risorse ha bisogno di Googlebot per eseguire la scansione del tuo sito web, più tempo passerà prima di apparire nella ricerca.
L'allocazione del budget di scansione dipende dai seguenti fattori: 

Popolarità del sito web.
Più un sito web è popolare, più risorse di scansione Google è disposto a spendere per la sua scansione.

Tasso di aggiornamento.
Più spesso aggiorni le tue pagine, più risorse di scansione otterrà il tuo sito web.

Numero di pagine.
Più pagine hai, maggiore sarà il tuo budget di scansione.

Capacità del server per gestire la scansione.
I tuoi server di hosting devono essere in grado di rispondere in tempo alle richieste dei crawler.

Tieni presente che il budget di scansione non viene speso equamente per ciascuna pagina, poiché alcune consumano più risorse (a causa di JavaScript e CSS pesanti o perché l'HTML è disordinato).
Pertanto, il budget di scansione allocato potrebbe non essere sufficiente per tutte le tue pagine alla velocità prevista.
Oltre ai gravi problemi di codice, alcune delle cause più comuni di una scarsa velocità di scansione e di spese irrazionali di crawl budget, ci sono problemi di contenuti duplicati e URL mal strutturati.

Problemi di contenuto duplicato.
Il contenuto duplicato si presenta come diverse pagine con contenuti per lo più simili. Questo può accadere per molte ragioni, come ad esempio:

  • Raggiungere la pagina in diversi modi: con o senza www, tramite http o https;
  • URL dinamici: quando molti URL diversi portano alla stessa pagina;
  • Test A/B delle versioni delle pagine.

Se non vengono risolti, i problemi relativi ai contenuti duplicati fanno sì che Googlebot esegua più volte la scansione della stessa pagina, poiché considererebbe che si tratta di versioni diverse.
Pertanto le risorse di scansione vengono sprecate e Googlebot potrebbe non riuscire a trovare altre pagine magari più significative del tuo sito web.

Inoltre, i contenuti duplicati riducono le posizioni delle tue pagine nella ricerca, poiché Google potrebbe decidere che la qualità complessiva del tuo sito web è bassa. 
La verità è che spesso è impossibile eliminare la maggior parte delle cause che potrebbero creare contenuti duplicati.

Puoi prevenire eventuali problemi di contenuto duplicato impostando URL canonici.
Un tag canonico segnala quale pagina dovrebbe essere considerata "come principale", quindi Google non indicizzerà il resto degli URL che puntano a quella stessa pagina e il tuo contenuto non si duplicherà.
Puoi anche impedire ai robot che eseguono la scansione di visitare URL dinamici con l'aiuto del file robots.txt.

Problemi con la struttura dell'URL.
Gli URL intuitivi  sono apprezzati sia dagli esseri umani che dagli algoritmi delle macchine e Googlebot non fa eccezione.
Googlebot potrebbe confondersi quando tenta di comprendere URL lunghi e ricchi di parametri e più Googlebot è "confuso", più risorse di scansione vengono spese su una singola pagina.

Per evitare spese inutili del tuo budget di scansione, assicurati che i tuoi URL siano di facile utilizzo.
Gli URL comprensibili per gli utenti (e Googlebot) sono chiari, seguono una struttura logica, hanno la punteggiatura corretta e non includono parametri complicati. In altre parole, i tuoi URL dovrebbero assomigliare a questo:
https://andreagiudice.eu/blog/googlebot

Nota:
fortunatamente, l'ottimizzazione del crawl budget non è così complicata come potrebbe sembrare. La verità è che devi preoccupartene solo se sei il proprietario di un sito Web di grandi dimensioni (Oltre il milione di pagine) o medio (10.000 + pagine) con contenuti che cambiano frequentemente (giornaliera o settimanale).
Nel resto dei casi, puoi limitarti ad ottimizzare correttamente il tuo sito Web per la ricerca e risolvere i problemi di indicizzazione.

Conclusioni

Il principale crawler di Google, Googlebot, opera con algoritmi sofisticati, ma puoi comunque migliorare il suo comportamento a tuo vantaggio.
La maggior parte dei passi per ottimizzare il processo di scansione sono quelli della SEO classica.

 

Write comments...
symbols left.
or post as a guest
Loading comment... The comment will be refreshed after 00:00.

Be the first to comment.

Andrea Giudice Esperto seo e consulente google ads itlaiaAndrea Giudice, esperto SEO e consulente Google ADS

Contattami subito senza impegno per un analisi al tuo sito o per dare vita ad un progetto in rete

Chiedi una consulenza

Contatti

Scegli il tuo piano SEO

 

Andrea Giudice su Facebook Andrea Giudice su Twitter Andrea Giudice su linkedin Andrea Giudice su instagram Il feed del blog di Andrea Giudice esperto seo freelance

Abbiamo 88 visitatori e nessun utente online

Ultimi commenti