Il file robots.txt (più precisamente, protocollo di esclusione robot), è un file di piccole dimensioni che si trova nella root folder di un sito. Il file si chiama letteralmente “robots.txt” È stato progettato nel 1994 dai membri della robots mailing list. Robots.txt è un file che va scritto in ASCII oppure UTF-8. Non sono consentite altre codifiche. Un sito può contenere un solo singolo robots.txt. Sia i bot dei motori di ricerca, che gli umani, possono accedere e leggere al robots.txt del tuo sito (è un file pubblico).

Andando ad analizzare la struttura interna di un file robots.txt, esso è composto da una (o più) “regole“. Ciascuna di queste regole va a definire a quali user-agent (famiglie di browser, ma in questo caso si va ad intendere i bot/spider/crawler dei motori di ricerca) si applica, e definisce i file o cartelle a cui l’user-agent ha non non ha accesso.

I motori di ricerca (Google, Bing, Yahoo, …) dispongono dei cosiddetti crawler (o robot), ovvero programmi automatici che vanno a scandagliare la rete alla ricerca dei contenuti. I contenuti da loro trovati vengono copiati e inseriti in un indice (di dimensioni mastodontiche). Il nome dello spider di Google è “Googlebot“.

 

A questo punto non perdiamoci ulteriormente in chiacchiere e vediamo come puoi accedere e modificare il robots.txt del tuo sito.

Con un software FTP come FileZilla vai ad accedere alla directory contenente tutti i file del tuo sito (in genere “public_html”). Come software per modificare robots.txt puoi tranquillamente usare il Notepad integrato in Windows oppure installare qualcosa di più completo come Notepad++.. In ogni caso si tratta appunto di andare ad aprire e modificare un file con estensione .txt.

 

Cominciamo in quarta con la prima riga di testo che è presente nel 99% dei robots.txt dei siti a livello mondiale:

User-agent: *

 

Come abbiamo già spiegato in precedenza in codesta guida, il file robots.txt è appunto destinato alla lettura da parte degli user-agent. In questo specifico caso con l’uso del simbolo “*”, andiamo ad intendere che sono inclusi tutti gli user-agent da parte del robots.txt, e dalle regole di cui esso è composto.

 

Passiamo alla seconda riga che è anche essa presente sul 99% dei siti:

Allow: /

 

Dall’inglese “allow” significa permettere. Nello specifico, con questa istruzione andiamo a dire agli user-agent a quali directory o file possono avere accesso. Con “/” si va a specificare l’accesso al sito intero da parte loro. Questo significa che i bot/spider/crawler avranno la possibilità di leggere qualsiasi cartella o file contenuti nel tuo sito. Però solo i file e le cartelle che siano linkate a loro volta da altre pagine nel tuo (o in altri) sito(i). Se ad esempio crei una cartella con un nome random, vi inserisci un file .html, e questo file non è linkato in nessuna pagina del tuo sito (o di altri siti), gli user-agent non potranno mai venire a conoscenza dell’esistenza di questo file (a meno che esso non venga inserito nella Sitemap del tuo sito, argomento che tratteremo dopo in questa guida). Se vogliamo quindi specificare, ad esempio, una singola cartella a cui gli spider possono accedere, dobbiamo prima cancellare “Allow: /” e poi scrivere:

Allow: /exampledirectory/

 

Nel caso invece fossi interessato a dare l’accesso ad un singolo fine in una specifica cartella scrivi così:

Allow: /exampledirectory/examplefile.html

 

Ora spostiamoci verso la regola “Disallow”. Questa regola è l’esatto opposto di “Allow”, e va a specificare i contenuti ai quali i crawler non hanno accesso (però questo non vale per una persona fisica). Si scrive così:

Disallow:

 

Se voglio bloccare l’accesso ad una singola cartella:

Disallow: /exampledirectory/

 

E nel caso invece volessi fare lo stesso per un singolo file:

Disallow: /exampledirectory/examplefile.html

 

A questo punto, come potrai immaginare, potresti anche andare a scrivere la regola:

Disallow: /

 

Presta MOLTA attenzione ad usare questa regola! Se la scriverai all’interno del tuo robots.txt, andrai a bloccare l’accesso a tutte le cartelle e a tutte le pagine del tuo sito da parte di tutti i motori di ricerca. Di conseguenza andrai a fare un danno gravissimo perché non sarai più negli indici dei più importanti motori di ricerca e il tuo sito non comparirà più in nessun risultato di ricerca.

 


Lascia un commento

Il tuo indirizzo email non sarà pubblicato.