Le fichier robots.txt

Chaque moteur de recherche utilise des robots qui parcourent les sites Web du monde entier afin d'en indexer le contenu. 

Le fichier robots.txt précise aux robots des moteurs de recherche qu'est-ce qu'ils doivent indexer ou non sur votre site Web.

▼Publicité

Quelques précautions :

  • Le nom du fichier doit être entièrement en lettres minuscules.
  • Il ne faut pas oublier le « s » à robots.txt.
  • Le fichier ne doit contenir aucune ligne blanche.
  • Il ne doit pas non plus contenir d'informations contradictoires.

Attention : ce fichier ne permet pas de cacher des informations sensibles. Des robots malveillants pourraient l'ignorer. Il faut donc s'assurer que les configurations au niveau du serveur protègent les données sensibles. Le fichier robots.txt permet cependant d'éviter que du contenu sensible se retrouve sur Google.

Voici quelques exemples d'informations qui ne doivent pas être indexées :

  • Le site entier ne devrait jamais être indexé avant que la programmation soit terminée (on pourrait cependant indexer la page d'accueil pour permettre aux moteurs de connaître notre site le plus tôt possible). On pourra donc mettre un site en ligne pendant la phase de développement - pour permettre au client de le tester - sans que les données de test ne se retrouvent sur les moteurs de recherche.
  • Si le site contient une zone privilégiée pour les usagers authentifiés, on pourra créer un dossier dans lequel les documents à l'intention de ces internautes seront placés. Ce dossier ne doit surtout pas être indexé.

Le fichier robots.txt est un simple petit fichier texte qui doit être placé à la racine du site Web.

Voici un exemple de fichier robots.txt quand le site est en développement. Il assure que rien ne sera indexé.

Fichier robots.txt

# robots.txt pour le site en développement : rien ne sera indexé

User-agent: *

Disallow: /

Voici un exemple de fichier robots.txt quand le site est mis en ligne. Il assure que tout sera indexé à l'exception du contenu du dossier gestion, du dossier test et du fichier pagecritique.php.

Fichier robots.txt

# robots.txt pour le site en ligne : tout sera indexé sauf les fichiers et dossiers spécifiés

User-agent: *

Disallow: /gestion/

Disallow: /test/

Disallow: /pageprivee.php

Cette version du fichier robots.txt assure que le site sera indexé en entier.

Fichier robots.txt

# robots.txt pour le site en ligne : tout sera indexé

User-agent: *

Disallow:

Vérificateur de syntaxe

Voici un outils fort intéressant permettant de s'assurer que la syntaxe de notre fichier robots.txt est conforme : http://tool.motoricerca.info/robots-checker.phtml

Pour plus d'information

« The Web Robots Pages ». robotstxt.org. http://www.robotstxt.org/

« A Standard for Robot Exclusion ». robotstxt.org. http://www.robotstxt.org/orig.html

« Robots.txt Checker ». Motoricerca. http://tool.motoricerca.info/robots-checker.phtml

Merci de partager ! Share on FacebookTweet about this on TwitterShare on Google+Share on LinkedInPin on PinterestShare on StumbleUponEmail this to someone
Catégories