Il file robots.txt definisce il protocollo di esclusione di un sito web e fornisce un metodo efficace per definire le direttive di crawling e quindi di indicizzazione di un sito o di un blog. La sua semplicità è però un’arma a doppio taglio; Se mal configurato si rischia di far scomparire il proprio sito dai radar dei motori di ricerca.
In questo articolo vedremo cosa deve contenere un file robots.txt e come testarlo per intercettare eventuali errori.
Requisiti fondamentali del file
- Il nome del file deve essere riportato con lettere minuscole (i.e. robots.txt)
- Il suo accesso deve essere libero
- Il formato del file testuale deve essere standard (UTF-8, ASCII)
- Il file va posizionato nella directory principale.
Di seguito alcuni esempi di URL di file robots.txt (fonte. Google developers)


Come è strutturato il file?
Il file contiene direttive specifiche; Ogni direttiva va riportata su una riga ed è costituita da una coppia di istruzioni. Di seguito le direttive:
- User‐agent:
Specifica a quale web robot vengono applicate le direttive contenute nel file (se rivolto a tutti inserire il carattere “*”.)
- Allow:
Fornisce regole più complesse e perfeziona le istruzioni inserite nella direttiva Disallow. In caso di conflitto le direttive Disallow hanno la priorità.
- Disallow:
specifica il file, la directory o la cartella da escludere dall’accesso dei web robot.
- Sitemap:
- Noindex:
Dipende dalla direttiva Disallow e comporta la rimozione degli URL da parte dei motori di ricerca
- Crawl‐delay:
Direttiva non supportata da Google che impone una pausa tra le richieste. Serve a rallentare la velocità di crawling.
- # (commento)
Quì il tool per testare la validità del tuo file robots.txt
L'articolo File robots.txt. Cos’è e quali sono i contenuti sembra essere il primo su Blog Hosting Per Te.
|