SEO Blog

Una morsa spreme il portafoglio

 

Cos'è il budget di scansione per Google?

E' opinione comune pensare che il crawl budget sia fuori dal nostro controllo.

Aggiungerei che pochi danno importanza al crawler budget, anzi, molti non sanno neanche cos'è.
Tanto per dirne una, mi capita di mettere mano a siti dove altri SEO hanno lavorato senza sapere neanche cose fosse il robots.txt

Eppure, man mano che i nostri siti si espandono in numero di sezioni, il crawl budget diventa sempre più influente sul posizionamnto.
In questo articolo, parlerò della sua importanza, oltre a condividere alcuni consigli pratici sulla sua gestione.

INDICE

 

Cos'è il crawl budget?

Il budget di scansione è la quantità di risorse che Google è disposto a investire sul tuo sito web.
Si potrebbe dire che il budget di scansione è uguale al numero di pagine sottoposte a scansione in una giornata, anche se non è proprio così, in realtà.
Alcune pagine richiedono più risorse di altre, quindi il numero di pagine sottoposte a scansione può variare anche se il budget rimane lo stesso.

Quando Google assegna il budget di scansione, generalmente considera quattro cose: la popolarità del sito, la frequenza di aggiornamento, il numero di pagine e la capacità del tuo sito o server di gestire la scansione.
Anche se si tratta di un algoritmo sofisticato, esistono sistemi per aiutare il motore di ricerca a gestire la scansione del tuo sito web.

Perché il crawl budget è importante?

Il budget di scansione determina la velocità con cui le tue pagine appaiono nella ricerca.
Il problema principale è che potrebbe avvenire una mancata corrispondenza tra budget di scansione e frequenza di aggiornamento del tuo sito web.
Se ciò accade, sperimenterai un ritardo tra il momento in cui crei o aggiorni una pagina e il momento in cui appare tra le ricerche.

Una possibile ragione per cui potresti avere un budget di scansione insufficiente è che Google non considera il tuo sito web abbastanza importante.
Quindi, o Google considera spam le tue pagine oppure offri un'esperienza utente molto scarsa, o probabilmente entrambe le cose.
In tal caso, non c'è molto che possa fare se non pubblicare contenuti migliori e aspettare che la tua reputazione cresca.

Un altro possibile motivo per cui non ottieni abbastanza budget per la scansione è che il tuo sito web ha trappole per lo spider.
Esistono alcuni problemi tecnici in cui un crawler potrebbe rimanere bloccato in un loop nello riuscire a trovare le tue pagine o essere scoraggiato nel scansionarle.
In tal caso, esistono accorgimenti che puoi applicare per migliorare la scansione e le discuterò più avanti.

Dovresti preoccuparti del tuo budget di scansione?

Il budget di scansione potrebbe diventare un problema se gestisci un sito web di grandi o medie dimensioni con un'alta frequenza di aggiornamento (da una volta al giorno a una volta alla settimana).
In questo caso, un problema di budget di scansione potrebbe compromettere l'indicizzazione e il posizionamento.

Potrebbe anche essere un problema quando si avvia un nuovo sito Web o si riprogetta uno vecchio, sebbene questo tipo di ritardo di scansione alla fine si risolverà da solo.

Indipendentemente dalle dimensioni del sito Web, è meglio verificare la presenza di eventuali problemi di scansione.
Se stai gestendo un sito web di grandi dimensioni, fallo ora, se stai gestendo un sito web minore, mettilo nelle cose da fare.

Come ottimizzare il budget di scansione?

Ci sono alcune azioni che dovresti (o non dovresti) fare per incoraggiare gli spider di ricerca a consultare le pagine del tuo sito web e farlo più spesso.
Ecco un elenco di azioni per massimizzare la scansione:

1. Invia una sitemap alla Search Console

Una sitemap è un file in formato xml che contiene tutte le pagine che desideri vengano sottoposte a scansione e indicizzate nella ricerca.

Senza una sitemap, Google dovrebbe scoprire le pagine tramite i link interni, impiegherebbe più tempo a comprendere l'ambito e a decidere quali dovrebbero essere indicizzate e quali no.

Con una mappa del sito in formato xml, Google sa esattamente quanto è grande il tuo sito web e quali pagine devono essere indicizzate.
C'è anche un'opzione per suggerire qual'è la priorità di ogni pagina e quanto spesso viene aggiornata.
Grazie a tutte queste informazioni, Google può creare il modello di scansione più appropriato per il tuo sito web.

Nota: è importante ricordare che Google considera una Sitemap come un suggerimento, non come un obbligo: è libero di ignorarla e scegliere un modello di scansione diverso.

Ci sono molti modi per creare una mappa del sito. Se stai utilizzando una piattaforma CMS, come Shopify, la tua mappa del sito potrebbe essere generata automaticamente e già disponibile su tuosito.it/sitemap.xml.
Altre piattaforme o CMS dispongono di plug-in che offrono questa funzione.
La sitemap risponde ad un protocollo ben preciso.

La sitemap la puoi anche creare manualmente o con qualche servizio presente online .
A questo punto puoi inviarla alla Google Search Console:

Invio della sitemap alla Google Search Console

È anche comune avere più sitemap per lo stesso sito web.
A volte si agisce per comodità, ad esempio, è più facile gestire pagine tematicamente simili, altre volte per necessità: il file sitemap.xml ha un limite di 50.000 pagine e se hai un sito web più grande sei costretto a creare diverse sitemap per coprire tutte le sezioni.

Le caricherai poi all'interno del robots.txt in modo che ogni volta che lo spider fa la scansione, sappia già dove andarle a cercare:
Sitemap: https://tuosito.it/sitemap_1.xml
Sitemap: https://tuosito.it/sitemap_2.xml

2. Risolvi i conflitti di scansione

Un problema comune è che Google creda che una pagina dovrebbe essere sottoposta a scansione ma di fatto non è possibile accedervi.
In questo caso, potrebbe essere successa una delle due cose:

Opzione 1.
La pagina non deve essere sottoposta a scansione ed è stata inviata a Google per errore. In questo caso, devi annullare l'invio della pagina rimuovendola dalla tua sitemap o rimuovendo i link della rete interna del sito che puntano ad essa.

Opzione 2.
La pagina deve essere sottoposta a scansione ma l'accesso viene negato.
In questo caso, dovresti controllare cosa ne sta bloccando l'accesso (robots.txt, 4xx, 5xx, errore di reindirizzamento).

In ogni caso, questi segnali misti costringono Google in vicoli ciechi e sprecano inutilmente il tuo budget di scansione. Il modo migliore per trovare e risolvere questi problemi è controllare il rapporto sulla copertura nella Google Search Console.
La scheda Errori è dedicata ai conflitti di scansione e fornisce il numero di errori, i tipi e l'elenco delle pagine interessate:

Scheda errori nella Google Search Console

3. Nascondi le pagine che non dovrebbero essere sottoposte a scansione

Un altro tipo di conflitto di scansione è quando una pagina è stata sottoposta a scansione e indicizzata per errore.

Questo si traduce in uno spreco del tuo budget di scansione, ma, cosa più importante, potrebbe anche essere un problema di sicurezza.
Se non hai bloccato la scansione in quelle sezioni, alcune delle tue pagine private quindi sono state indicizzate e disponibili pubblicamente.
Per trovarle, puoi consultare la Google Search Console nel rapporto copertura.
Passa alla scheda Valida con avviso e otterrai il numero di pagine sottoposte a scansione, nonché i problemi sospetti e l'elenco:

Scheda avvisi della Google Search Console

Il problema più comune con queste pagine è che potrebbero essere bloccate dal file robots.txt.
Inoltre, Google considera le istruzioni del file robots.txt come un consiglio e può decidere di mostrare ancora quelle sezioni nella ricerca.

Per risolvere questi problemi, verifica l'elenco di quelle pagine e decidi cosa desideri indicizzare.
Utilizza il meta tag noindex per bloccare completamente il crawler e quindi rimuovere la pagina dalla ricerca tramite Indice > Rimozioni > Nuova richiesta.
In tal caso, rimuovi la direttiva disallow nel robots.txt altrimenti lo spider non può leggere il meta noindex.

4. Nascondi le risorse non essenziali

Puoi risparmiare molto budget di scansione impedendo a Google di ignorare risorse non essenziali come file .gif, .pdf, video e immagini che possono occupare molte risorse.

I PDF in particolare sono un vero problema per svariati motivi.
Google è in grado di leggere e mostrare i contenuti di questo formato tra le serp, quindi l'utenza può scaricare i files senza entrare nel sito; in questo caso, non potrai tracciare il click o leggere i dati con Google Analytics.
Inoltre, se il tuo sito ha molti PDF, al momento della scansione, il server potrebbe letteralmente crollare per l'eccessivo consumo di risorse imposto da Google stesso.

Come risolvere?

Inizia ad aggiungere questa riga al robots.txt

user agent: *
Disallow: /.pdf$

Se usi Apache, aggiungi al .htaccess questa riga:

<Files ~ "\.pdf$"> Header set X-Robots-Tag "noindex, nofollow" </Files>

Se tra le serp trovi una serie di risultati tipo:

/?...

Aggiungi al robots.txt:

Disallow: /*?

Se usi Apache, aggiungi al .htaccess questa riga:

<Files ~ "^/\?"> Header set X-Robots-Tag "noindex, nofollow" </Files>

5. Evita lunghe catene di reindirizzamento

Se c'è un numero irragionevole di reindirizzamenti 301 e 302 consecutivi, i motori di ricerca smetteranno di seguirli e la pagina di destinazione potrebbe non essere sottoposta a scansione.
Inoltre, ogni URL reindirizzato è uno spreco di "unità" del budget di scansione.
Assicurati di utilizzare i reindirizzamenti non più di due volte di seguito e solo quando è assolutamente necessario (ma quando mai?).

6. Gestisci URL dinamici

I più diffusi sistemi di gestione dei contenuti generano molti URL dinamici, che portano alla stessa pagina. Per impostazione predefinita, i bot dei motori di ricerca tratteranno questi URL come pagine differenti, di conseguenza, potresti sprecare budget di scansione, e generare problemi di contenuti duplicati.

Se il motore del tuo sito web o il CMS aggiunge parametri agli URL che non influenzano il contenuto delle pagine, assicurati di comunicarlo a Google gestendoli dalla Google Search Console, in Strumenti e Rapporti Precedenti --> Parametri URL

Strumenti per URL della Google Search Console

Qui puoi fare clic su Modifica accanto al parametro e decidere se la pagina può essere vista dagli utenti nella ricerca.

7. Risolvi i problemi relativi ai contenuti duplicati

Avere contenuti duplicati significa mostrare due o più pagine in gran parte simili.
Potrebbe accadere per una serie di motivi.

Gli URL dinamici sono uno di queste cause, ma anche i test A / B, le versioni www / non www, le versioni http / https, la distribuzione dei contenuti e le specifiche di alcune piattaforme CMS.
Il problema con i contenuti duplicati è che sprechi inutilmente il doppio del budget per eseguire la scansione.

I titoli e soprattutto le meta descrizioni sono un buon indicatore di pagine con lo stesso contenuto. Se trovi pagine che sono effettivamente simili, decidi quale sarà la principale e quale un duplicato.

Ora vai alla pagina duplicata e aggiungi questo codice alla sezione <head>:

<link rel="canonical" href="https://tuosito.it/pagina" />

Dove l'URL è l'indirizzo della pagina originale che desideri mostrare.

In questo modo Google ignorerà le pagine duplicate e si concentrerà sulla scansione di quella principale.
Questo stratagemma è ideale se la pagina duplicata deve apparire per qualche motivo e vuoi che Google consideri solo quella originale.
Per tutti gli altri casi, nega dal robots.txt la scansione o aggiungi il meta noindex per negarla, o ancora, elimina completamente la pagina!

8. Ottimizza la struttura del sito

Sebbene i collegamenti interni non abbiano una correlazione diretta con il budget di scansione, Google afferma che le pagine collegate direttamente dalla tua home page potrebbero essere considerate più importanti e sottoposte a scansione più frequentemente.

In generale, mantenere le aree importanti del tuo sito a non più di tre click di pfofondità da qualsiasi pagina è un buon consiglio.
Includi le pagine e le categorie più importanti nel menu o nel piè di pagina del tuo sito.

Per i siti più grandi, come blog e siti di e-commerce, le sezioni con post / prodotti correlati e post / prodotti in primo piano possono essere di grande aiuto sia per gli utenti che per i motori di ricerca.

Richiesta di indicizzazione

Nel caso in cui tu abbia appena pubblicato o aggiornato qualcosa e non vedi l'ora che Google lo mostri, utilizza la funzione di indicizzazione della Google Search Console.
Incolla il tuo URL e richiedi l'indicizzazione:

E puoi farlo anche se la pagina è già indicizzata e l'hai appena aggiornata:

Invio pagina da sottoporre a nuova scansione dalla Google Search Console.

L'effetto di questa funzione non è immediato. Come sempre per Google, ogni richiesta è più simile a una richiesta molto educata.

Conclusioni

Come puoi vedere, la SEO non riguarda solo "contenuti di valore" e "link affidabili".

Fare SEO non significa solo dare visibilità; spesso significa anche negarla per ottenere grandi risultati.
Il budget di scansione lo considero talmente importante che è la prima mossa tecnica che applico ai piani SEO che propongo.

Se vuoi sapere cosa vede Google del tuo sito, prova a dare il comando site:tuosito.it e scoprirai quanti risultati inattesi stai mostrando e che sprecano risorse di scansione per quelli più importanti.

 

 

Aggiungi commento


Codice di sicurezza
Aggiorna

Andrea Giudice Esperto seo e consulente google ads itlaia Andrea Giudice, esperto SEO e consulente Google ADS

Contattami subito senza impegno per un analisi al tuo sito o per dare vita ad un progetto in rete

Chiedi una consulenza

Contatti

Scegli il tuo piano SEO

 

Abbiamo 77 visitatori e nessun utente online

Ultimi commenti