Le fichier robots.txt

27 octobre 2015

En référencement, quand on parle optimisations techniques, on ne peut pas faire l’impasse sur le fichier robots.txt

Fichier robots.txt, qu’est ce que c’est ?

Il s’agit du TOUT PREMIER fichier que va lire Google sur votre site. Avant même de commencer à crawler votre site et à comprendre son architecture, le robot va aller lire ce fichier qui lui est entièrement destiné pour connaître les pages à ne pas visiter. Il serait dommage de mal commencer votre relation avec les moteurs de recherche en leur offrant une belle « erreur 404, file not found » pour leur premier contact avec votre site.

Fichier robots.txt, comment ça marche ?

Un fichier robots.txt c’est un fichier listant la liste des pages et des répertoires de votre site que le robot ne doit pas crawler. Attention ! Je vois souvent des référenceurs faire l’amalgame :

 » Si ma page n’est pas crawlée elle ne doit pas être indexée « 

C’est faux ! Il ne faut pas confondre crawl et indexation !

Pour indexer (enregistrer) une page, Google a seulement besoin de trouver un lien qui l’y mène. Google (ou tout autre moteur de recherche) navigue au sein de votre site à travers ses liens. Si Google trouve un lien vers une page, il l’indexe. C’est aussi simple que cela.

Pour Crawler (visiter) une page, elle ne doit pas figurer dans le fichier robots.txt et doit être maillée au sein de votre site (il doit y avoir un lien menant à votre page).

  • Si Google peut crawler une page, alors elle sera correctement renseignée dans les SERP.
  • Si Google ne peut pas la crawler une page de votre site (car elle est présente dans le fichier robots.txt) alors elle risque d’être indexée mais avec la mention suivante :

description bloquée

Le fichier robots.txt n’est pas là pour supprimer des pages de l’index de Google. Son rôle premier est de bloquer les pages, les répertoires et les extensions sensibles pour ne pas les indexer. Vous allez donc pouvoir bloquer les scripts php et tout autre pages qui ne sont pas maillées au sein de votre site (car interdites au public).

Faut il bloquer les fichiers javascript ou CSS ?

Non. Google ne va (théoriquement) pas indexer ces fichiers même si ils ne sont pas bloqués. En revanche, si vous les bloquez, Google aura bien du mal à comprendre que votre site est en responsive design. Donc ma recommandation est de laisser Google crawler les CSS et Javascript et si d’aventure ils sont indexés, les supprimer manuellement via Google Webmaster Tools.

Nomenclature du fichier robots.txt

Le fichier robots doit respecter certaines normes pour être pris en compte.

  • Nommage : Ce fichier doit être nommé très exactement « robots.txt ». Il s’agit d’une norme. D’une convention.
  • Format : texte (.txt)
  • Emplacement : A la racine de votre site (exemple : http://www.david-legrand.com/robots.txt)
  • Directives : Il existe 3 directives reconnues par tous les moteurs de recherche : User-agent, Disallow et Allow.

Syntaxe détaillée du robots.txt

Une directive par ligne. Une instruction doit obligatoirement être suivie de « : « .

La directive User-agent permet de cibler un moteur de recherche en particulier. Exemple :

User-agent: googlebot
# Ciblera GoogleBot en particulier
User-agent: *
# Ciblera tous les moteurs de recherche

La directive Disallow permet de bloquer un répertoire, un fichier, ou carrément tout le site. Exemple :

Disallow: /repertoire/
# Bloque le répertoire /repertoire/ (monsite.com/repertoire/)
Disallow: /
# Bloque tout le site

La directive Allow à l’inverse de disallow permet d’autoriser bloquer un répertoire, un fichier, ou carrément tout le site. Par contre, dans un fichier robots.txt les directives sont prioritaires en fonction de leur ordre d’apparition. Ainsi pour rendre Allow prioritaire à Disallow, il faut la placer avant. Exemple :

Allow: /repertoire/monfichier.html
Disallow: /repertoire/
# Bloque le répertoire tout le /repertoire/ sauf le fichier /repertoire/monfichier.html

Indiquer l’emplacement du sitemap

Autre chose d’assez pratique, le fichier robots.txt (qui est, rappelons le, le point de départ d’un moteur de recherche sur votre site) vous permet également d’indiquer l’emplacement du fichier sitemap avec la directive sitemap :

Sitemap: http://www.monsite.com/repertoire_sitemap/mon-sitemap.xml

Tester son fichier robots.txt

Google Wembaster tools founit un outil de test du fichier robots.txt très pratique pour savoir si une page donnée est bloquée ou non.