Archivio post

Google e la regola non più supportata del noindex

Google e la regola non (più) supportata del NOINDEX

Il 30 luglio è arrivata a tutti questa mail di Google:

Google ha identificato che il file robots.txt del tuo sito contiene la regola non supportata "noindex".
Questa regola non è mai stata supportata ufficialmente da Google e il primo settembre 2019 smetterà di funzionare. Consulta il nostro Centro assistenza per sapere come bloccare le pagine dall'Indice Google.

Perché Google mi dice che la regola non è mai stata supportata ufficialmente quando in una pagina del loro supporto leggo la descrizione di cos'è il NOINDEX?
Suppongo che questa direttiva venga deprecata a favore del disallow ma gli altri motori di ricerca continueranno ad accettarla?

Ad esempio, il buon Bing che porta mediamente il 30% del traffico per via di coloro che usano Explorer installato sui PC nuovi, come si comporterà?

robots.txt: il rovescio della medaglia

Se voglio bloccare una risorsa dall'indicizzazione uso il robots.txt ma cosa accade se l'utente va su www.[sito.it]/robots.txt ?

Ovviamente, essendo un file di testo, l'utente vedrà quali pagine sono bloccate e per soddisfare le proprie curiosità le andrà a vedere; esistono situazioni infatti in cui neanche gli utenti dovrebbero avere un accesso visuale ad una determinata sezione di un sito (il mio sito, ad esempio, ha 2 sezioni di cui non voglio far conoscere l'esistenza).

Come risolvere, quindi?
La risposta sta nell'usare il meta-tag robots nell'html di quella pagina.

<meta name="robots" content="noindex" />

Banale?
A quanto pare no, considerato il famoso caso di camera.it/robots.txt che nascondeva i curriculum dei manager con il disallow, oppure, la Regione Sicilia che in www.regione.sicilia.it/robots.txt che nasconde una parte del sito:
disallow: /amministrazioneaperta

Eccola:

http://www.regione.sicilia.it/amministrazioneaperta

Avessero usato <meta name="robots" content="noindex" /> in rete non ci sarebbe tutta questa (inutile) polemica; già, perché spesso le pagine si devono bloccare anche per questioni tecniche. In quella pagina, infatti, non c'è nulla di particolarmente scabroso.

Ne vedremo delle belle col noindex?

Da settembre 2019 il webmaster medio metterà mano subito al proprio robots.txt e a parer mio se ne vedranno di belle tra le serp (ad esempio, la pagina della Regione Sicilia), specialmente per siti che hanno pagato atuoccugino per spendere poco, cugino che addirittura ignora l'esistenza della search consolle.

Togliere il noindex?

Se la direttiva continua a funzionare sugli altri motori di ricerca (non c'è solo Google) e Google, nonostante l'errore carica il file e processa le altre direttive, personalmente sconsiglio di rimuovere il noindex.

Il test da fare sarà creare tre pagine:

  • pagina 1 bloccata da disallow e noindex
  • pagina 2 bloccata solo da disallow
  • pagina 3 bloccata da noindex


Se Google mostrerà l'errore nella search consolle, tra le serp si vedrà la pagina 1 e la 3.
La configurazione della pagina 1 è interessante perché consente di capire se la presenza del noindex evita di processare tutto il robots.txt.

In ogni caso, il nosnippet, nonostante non sia menzionato da nessuna parte funziona eccome.
Guarda il mio robots.txt:
www.andreagiudice.eu/robots.txt

No, le pagine segrete non le troverete perché le ho bloccate con il meta. ;)

Aggiungi commento


Codice di sicurezza
Aggiorna

Abbiamo 129 visitatori e nessun utente online

Badge Linkedin

Ultimi commenti

Login