Le fichier sitemap xml

27 octobre 2015

Tout comme le fichier robots.txt le fichier sitemap est un fichier destiné aux robots et aux moteurs de recherche. Son objectif : Recenser vos pages importantes pour que Google n’en oublie aucune. Là encore tout comme le fichier robots, le sitemap répond à un certain nombre de règles pour que tous les moteurs puissent le lire (depuis 2006, les principaux moteurs de recherche se sont mis d’accord pour supporter le protocole sitemaps).

Fichier sitemap, comment ça marche ?

  • Nommage : Le fichier n’a pas de règles de nommages particulières. Vous pouvez l’appeler tartempion.xml, on s’en fiche. Ce qui nous intéresse c’est son format surtout.
  • Format : Extensible Markup Language (.xml) tout comme le html c’est un langage balisé.
  • Emplacement : Peu importe, il peut être à la racine ou dans un répertoire, ce n’est pas important.
  • Balises : Décrites plus bas.

Les balises du fichier sitemap

Début et fin de fichier : Votre fichier sitemap doit démarrer par ces deux lignes :

<?xml version='1.0' encoding='UTF-8' ?>
<urlset xmlns="http://www.google.com/schemas/sitemap/0.84">

Et se terminer par :

</urlset>

Ces lignes sont là pour indiquer la version du protocole sitemaps utilisé. Ce n’est pas ce qui nous intéresse le plus.

La balise <url> : Une balise <url> pour chaque page listée de votre sitemap. Cette balise va englober les balises <loc>, <lastmod>, <changefreq> et <priority> que nous allons voir plus bas.

La balise <loc> : La balise <loc> est prévue pour l’URL de votre page à lister.

La balise <lastmod> : La balise <lastmod> doit contenir la date de dernière modification au format W3C : AAAA-MM-JJ (permettant ainsi aux moteurs de savoir si ils doivent repasser sur une page ou non).

La balise <changefreq> : La balise <changefreq> doit contenir la fréquence de modification de la page. Elle peut contenir les valeurs suivantes : always, hourly, daily, weekly, monthly, yearly, never. Cela permet aux moteurs de savoir à quelle fréquence repasser sur une page.

La balise <priority> : La balise <priority> doit contenir un nombre allant de 0.0 à 1.0 indiquant la priorité de la page par rapport aux autres pages listées dans le sitemap.

Exemple de fichier sitemap

Ce qui, pour un site one-page par exemple nous donnerait le sitemap suivant, bien qu’un sitemap pour un tel site n’ait pas grand intérêt :

<?xml version='1.0' encoding='UTF-8' ?>
<urlset xmlns="http://www.google.com/schemas/sitemap/0.84">
<url>
<loc>http://www.monsite.com/</loc>
<lastmod>2015-01-01</lastmod>
<changefreq>monthly</changefreq>
<priority>1.0</priority>
</url>
</urlset>