SEO Blog

Il codice x-robots-tag noindex del sito andreagiudice.eu.

Il noindex nell'x-robots-tag fa la differenza

Cosa accadrebbe se il noindex venisse letto prima del disallow?
Continua a leggere e ti spiego le profonde riprercussioni in ottica SEO di questa tecnica.

Fare SEO significa anche rimuovere contenuti dai motori di ricerca.
Tipicamente, la gestione della Scansione dei contenuti su un sito fa parte di una strategia SEO locale mirata a risparmiare le risorse che Google ti rende disponibili: il crawl budget.

Per lavorare sul crawl budget dobbiamo agire sul robots.txt e per ripulire e affinare i risultati, sul meta-robots o l'x-robots-tag.

Negheremo quindi la Scansione di risorse inutili da robots.txt ma se qualcosa è presente tra le serp, questo ci rimarrà per un tempo non definito, anche per anni per poi scendere lentamente di posizione e mai sparire. Ne parlo più avanti.



Cosa sono i Meta robots

Concentriamoci su due direttive: disallow e noindex

I motori di ricerca seguono quelle direttive in questo preciso ordine:

  1. Risposta HTTP con x-robots-tag
  2. robots.txt
  3. meta-robots

robots.txt DISALLOW

Nel robots.txt la direttiva più usata è disallow (in questo post non tratterò le altre).
Disallow dice a Google di non fare la Scansione di una risorsa su un sito web.

Per negare la Scansione ad una directory contenente altri url, ad esempio /pagina/1 - /pagina/2 - /pagina/1/altro, ecc

disallow: /pagina/

Questa riga, invece, nega la Scansione di un solo contenuto o risorsa.
Altri sotto-url sono passati in Scansione: /pagina/1 viene visto.

disallow: /pagina

Disallow funziona anche con la maiuscola:

disallow: /pagina/

Ad essere sensibile alle maiuscole e minuscole è il valore, come specificato in questa guida.
A puro scopo propedeutico, questo è il robots.txt di google.com

https://www.google.com/robots.txt


meta-robots NOINDEX

Il meta-robots noindex deindicizza una risorsa e non è supportato dal robots.txt

Il meta-robots noindex deve apparire a livello codice nella pagina da deindicizzare in questo formato, prima della chiusura del tag <head>

<meta name="robots" content="noindex">

Da ciò, deduciamo che la pagina da deindicizzare deve esistere, proprio perchè il meta-robots noindex deve apparire nel suo codice html.
Se da robots.txt nego l'ingresso dello spider con un disallow, il meta-robots a livello codice non è elaborato; la pagina rimane tra le serp se lo spider l'aveva trovata in passato e come specificato sopra, potrà rimanere visibile anche per anni.

Certo, posso aprire la Scansione rimuovendo il disallow e deindicizzare la risorsa con il meta-robots noindex e quando sarà sparita dalle serp, bloccherò nuovamente lo spider tramite disallow ma prima o poi apparirà questo laconico messaggio:

Nessuna informazione disponibile per questa pagina.
Scopri perché.

Nessuna informazione dispibile tra i risultati di ricerca.

Questo perchè al nuovo passaggio dello spider, avverrà un aggiornamento della situazione.

Se esistesse il modo di fare leggere il noindex PRIMA del disallow deindicizzeremmo il contenuto dalla serp ed eviteremmo la Scansione.

Ricordiamo anche un'altra faccenda molto importante: il noindex non evita la Scansione della risorsa.
Con il noindex la pagina sarà sempre sottoposta alla Scansione dello spider anche se non apparirà tra le serp, quindi, non otterremo alcun risparmio di crawl budget (motivo per cui fare SEO su Shopify è quasi impossibile perchè non si può editare il robots.txt).


Soluzione: NOINDEX prima di DISALLOW

L’X-Robots-Tag noindex può essere utilizzato come risposta di intestazione HTTP in un determinato URL aggiungendo queste due righe nell'httaccess:

SetEnvIf Request_URI "/pagina/" NOINDEX
Header set X-Robots-Tag "noindex" env=REDIRECT_NOINDEX

Poi, da robots.txt metteremo il disallow:

disallow: /pagina/

Come risultato otterremo che le pagine saranno deindicizzate durante la risposta HTTP tramite x-robots-tag tipo noindex e lo spider non farà la scansione su di esse per via della presenza del disallow nel robots.txt
In pratica, avremo rimosso i contenuti per sempre dalle serp e risparmiato crawl budget. 


Altri vantaggi dell'x-robots-tag noindex

In realtà, questo stratagemma presenta anche un altro vantaggio.
Se il meta-robots noindex richiede la presenza della risorsa per ospitarlo nel codice,l'x-robots-tag funziona anche se la pagina non esiste sul sito web.

Questo significa che possiamo deindicizzare per sempre contenuti non più presenti sul sito in un colpo solo.
Sarà sufficiente attendere che passi lo spider di Google, magari forzandone la scansione da Search Console.


Qualche applicazione: eliminiamo i PDF tra le SERP

Eliminiamo i PDF e le query interne di un sito dalle SERP.
I PDF, si sa, sono un dramma per la SEO.

Oltre che consumare risorse sul server quando questi files sono scaricati in massa dallo spider di Google, l'utente non accede alla pagina che li ospita per fare il download.
Analytics, quindi, non elabora dati importantissimi come ad esempio un obiettivo download o un segmento utenza di ritorno.
Non solo: quale parola chiave avrà usato un utente per trovare quel PDF?
Tutti dati che non conosceremo mai.

Come dire a Google quindi che esiste un PDF da scaricare nella pagina?
Semplice: scrivilo nei contenuti.

Come fare quindi per negare la scansione dei PDF?
Aggiungiamo nel robots.txt questa regola:

disallow: /*.pdf$

E i PDF già presenti in serp?
Da Search Console possiamo cancellarli e farli sparire (per 60 giorni) ma se fossero a centinaia?
Tramite una risposta HTTP x-robots.tag noindex possiamo deindicizzarli aggiungendo questa regola nell'htaccess:

<Files ~ "\.pdf$">
Header set X-Robots-Tag "noindex"
</Files>


La sequenza di azioni del noindex ha profonde ripercussioni SEO.
Se dal sito parte un noindex PRIMA del disallow possiamo deindicizzare e risparmiare crawl budget.

Non solo.
Questo stratagemma presenta l'innegabile vantaggio di restituire un noindex a risorse assenti sul sito.

Pensa solo ad un ecommerce con centinaia di prodotti in serp da rimuovere o quei blogger che si ostinano ad usare i TAG, vero problema per la SEO perchè fonte di migliaia di contenuti duplicati e spreco senza fine di crawl budget.

Sarà sufficiente aggiungere nell'htaccess:

SetEnvIf Request_URI "/tag/" NOINDEX
Header set X-Robots-Tag "noindex" env=REDIRECT_NOINDEX

Nel robots.txt:

disallow: /tag/


Risparmiamo crawl budget

Ecco le righe obbligatorie da mettere sempre nel robots.txt di un sito a cui fai SEO:

disallow: /*.pdf$
disallow: /*?

Negherai la scansione dei PDF e di tutte le query del motore di ricerca interno al sito, risultati fuorvianti che noti tra le serp con il comando site:url (si presentano un indirizzo tipo [url]/?stringa-caratteri).
Fatto questo, da x-robots-tag noindex, cancelliamo ciò che è presente tra le serp; la regola è citata anche nella linea giuda di Google.

<Files ~ "\.pdf$">
Header set X-Robots-Tag "noindex, nofollow"
</Files>

<Files ~ "^/\?">
Header set X-Robots-Tag "noindex, nofollow"
</Files>

Avrai notato che ho aggiunto un nofollow oltre al noindex.

Ebbene, l'x-robots-tag supporta anche il nofollow.
Potrebbe essere utile aggiungerlo?

In realtà, no perchè nonostante l'x-robots-tag è elaborato prima del robots.txt, lo spider non potrà leggere quella risorsa perchè negata dal disallow.

Ringraziamenti

Per la stesura di questo caso di studio ringrazio il mio amico Fabio Antichi e Andrea Novelli dell'agenzia dibix.it che mi hanno aiutato nella creazione degli x-robots-tag noindex.

 

Commenti   

0 # Davide Taglia 2021-11-02 21:03
Ho provato sul mio blog.
Complimenti per l'idea.
Inizialmente avevo parecchi dubbi ma in effetti ha realmente funzionato.
Grazie,
Rispondi | Rispondi con citazione | Citazione | Segnala all'amministratore
0 # Andrea Giudice 2021-11-02 21:03
Grazie a te, Davide.
Sempre un onore tra colleghi.
Rispondi | Rispondi con citazione | Citazione | Segnala all'amministratore
0 # Enrico 2021-11-02 21:06
Grazie e complimenti.
Suppongo però non sia tutta farina del tuo sacco.
Rispondi | Rispondi con citazione | Citazione | Segnala all'amministratore
0 # Andrea Giudice 2021-11-02 21:08
hahahaha!!
Eh no, Enrico.

Devo ringraziare Gianluca Cacace (supporto tecnico di Amazon, Andrea Novelli (tecnico di dibix) e l'immancabile FABIO ANTICHI.

Io ho avuto l'idea.
Il resto l'hanno fatto i miei amici citati :)
Rispondi | Rispondi con citazione | Citazione | Segnala all'amministratore
0 # Giulia 2021-11-02 22:53
Cappero! Ho eliminato una valangata di risultati tra le serp di un sito di un cliente.
Complimenti per l'idea.
Rispondi | Rispondi con citazione | Citazione | Segnala all'amministratore
0 # Andrea Giudice 2021-11-02 22:55
Grazie Giulia. Ci si rilegge su LinkedIn! ;)
Rispondi | Rispondi con citazione | Citazione | Segnala all'amministratore
0 # Paolo Corte 2021-11-03 08:10
Mi spacchi dal ridere per la pazienza che dimostri su LinkedIn.
Rispondi | Rispondi con citazione | Citazione | Segnala all'amministratore
0 # Martino Mosna 2021-11-22 15:43
Per chi fosse interessato, ho fatto un test passaggio per passaggio che mostra come in realtà le cose non stanno come ha raccontato Andrea nel suo post qua sopra.

Confido nella buona fede e lascio il link per chi voglia approfondire:

martinomosna.com/.../...
Rispondi | Rispondi con citazione | Citazione | Segnala all'amministratore

Aggiungi commento


Andrea Giudice Esperto seo e consulente google ads itlaiaAndrea Giudice, esperto SEO e consulente Google ADS

Contattami subito senza impegno per un analisi al tuo sito o per dare vita ad un progetto in rete

Chiedi una consulenza

Contatti

Scegli il tuo piano SEO

 

Andrea Giudice su Facebook Andrea Giudice su Twitter Andrea Giudice su linkedin Andrea Giudice su instagram Il feed del blog di Andrea Giudice esperto seo freelance

Abbiamo 137 visitatori e nessun utente online

Ultimi commenti