LoSapevi

Losapevi: quello che vuoi sapere, e quello che ancora non sai...manuali, glossari, tutorial, curiosità, articoli, guide e molto altro...navigate queste pagine, scoprite e curiosate

Home » Articoli » Il file robots.txt

Il file robots.txt

Come creare un file robots.txt per disabilitare l'indicizzazione di determinate cartelle o file di un da parte degli spider

Venerdì 03 Novembre 2006 da Yak | Computer, Internet, Motori di ricerca, Tutorial, Windows

A cosa serve

Il file robots.txt non è altro che un semplice file di testo che, caricato nella root di un sito internet, impedisce agli spider dei vari motori di ricerca di indicizzarne determinate cartelle o file.

Questo file di testo, che possiamo creare con qualsiasi editor di testi, deve seguire alcune specifiche ("Robots Exclusion Standard") per funzionare correttamente.
Purtroppo non tutti gli spider seguono le direttive del "Robots Exclusion Standard" e quindi alcuni di loro andranno comunque ad indicizzare tutti i file presenti nel nostro sito.

Ma vediamo come creare un file robots.txt.

Il contenuto del file robots.txt dove avere la seguente sintassi:

User-agent: NOME_SPIDER 1
Disallow: FILE_CARTELLA 1
Disallow: FILE_CARTELLA 2
...
Disallow: FILE_CARTELLA N

User-agent: NOME_SPIDER 2
Disallow: FILE_CARTELLA 1
Disallow: FILE_CARTELLA 2
...
Disallow: FILE_CARTELLA N

Andiamo ad analizzarlo nello specifico:

  • User-agent: NOME_SPIDER - Va sostituito NOME_SPIDER con il nome dello spider del motore di ricerca che intendiamo limitare (* se vogliamo indicare tutti gli spider).
    All'interno del file robots.txt possono essere specificati più motori di ricerca ai quali applicare delle limitazioni.
    Ecco la lista completa degli spider usati dai motori di ricerca per indicizzare il Web.
  • Disallow: FILE_CARTELLA - Va sostituito FILE_CARTELLA con il percorso del file o della cartella che non intendiamo far leggere dallo spider indicato in "User-agent:".

Una volta creato, il file robots.txt va posizionarto nella root del sito in modo che sia raggiungibile con il seguente indirizzo: http://www.miosito.it/robots.txt

Di seguito ecco 2 esempi di file robots.txt.

Esempio 1:
User-agent: googlebot
Disallow: /tmp/
Disallow: /document/private/
Disallow: /debug.php

In questo esempio lo spider "googlebot" non potrà indicizzare il contenuto delle cartelle /tmp/ e /document/private/ e del file /debug.php

Esempio 2:
User-agent: *
Disallow: /

In questo esempio tutti gli spider non potranno indicizzare nessuna cartella del sito perchè è stata bloccata la root del sito (/).

Dai un voto all'articolo

Media: 1.8/5 (57 voti)


Copyright © 2007-2024