Le fichier robots.txt : qu’est ce que c’est ?

Vous êtes ici :

Le fichier robots.txt est un fichier texte se trouvant à la racine de votre serveur qui permet de guider les moteurs de recherche lors de l’exploration de votre site web. Il sera utile pour dire au moteur quelles pages il peut « crawler » et quelles pages il ne doit pas « crawler ». Si vous ne souhaitez pas référencer certaines URL de votre site, vous l’avez compris, c’est dans le robots.txt que ça se passe !

Utilité du fichier robots.txt

Mais pourquoi y aurait-il certaines URL que je ne souhaiterais pas référencer ?

Tout simplement parce que toutes les pages / URL de votre site internet ne sont pas intéressantes. L’idée est de référencer uniquement les URL utiles qui apportent une plus-value pour l’internaute.

Un fichier robots.txt bien construit permettra :

  • de soumettre uniquement les URL pertinentes aux moteurs de recherche
  • à Google de gagner du temps lors de l’exploration de votre site (notion de crawl budget)
  • à l’internaute de retrouver sur Google, uniquement les URL ayant un réel intérêt

 

Exemple de contenu d’un fichier robots.txt :

User-agent: *
Disallow:

La commande User-Agent suivie de l’étoile signifie que cette commande s’applique pour tous les robots connus.

La commande « Disallow: » signifie que le moteur peut parcourir l’ensemble pages du site (si nous ne précisons rien derrière les deux points).

 

Autre exemple de contenu d’un fichier robots.txt :

User-agent: *

Disallow: /politique-de-confidentialite/

Disallow: /mentions-legales/

 

Ici, nous disons aux moteurs de recherche que nous ne souhaitons pas référencer la page de politique de confidentialité, ni la page des mentions légales qui n’apportent que trop peu de valeur ajoutée. Les pages resteront néanmoins accessibles sur notre site web. L’internaute peut donc les trouver sur notre site web en naviguant, mais il ne les trouvera pas sur Google.

La bonne configuration de votre robots.txt a donc un impact SEO évident.

Changements du robots.txt en 2019

Google souhaite aujourdh’ui standardiser l’utilisation du fichier robots.txt. Effectivement tous les robots n’interprètent pas aujourd’hui le fichier robots.txt de la même façon.

Voici la liste des commandes que Google vient d’annoncer, qui ne seront plus pris en compte à partir du 1er septembre 2019 prochain au sein du robots.txt :

Crawl-delay

Nofollow

Noindex

Attention, certaines de ces commandes continuent à être pris en compte par d’autres robots.

 

Et vous, savez vous si vous disposez d’un robots.txt ? Est-il à jour et optimisé pour un bon référencement naturel ?

N’hésitez pas à procéder à un pré-audit SEO par l’un de nos experts SEO de chez Site-First pour en avoir le cœur net !