N° gratuit : 04 22 48 01 26

Un site bien référencé, c’est avant tout un site qui peut être trouvé et exploré facilement par les robots des moteurs de recherche comme Google ou Yahoo : c’est pourquoi le fichier Robots.txt joue un rôle essentiel pour le référencement naturel.

Toutefois, ce fichier est parfois sous-estimé par les propriétaires de sites web… Et pourtant, son optimisation est une opération simple et efficace pour optimiser les positions dans les pages de résultats des moteurs de recherche. 

Ce guide vous explique tout ce qu’il faut savoir pour modifier le fichier robots.txt de votre site ou de votre blog sur WordPress.

Sommaire :

 

Robots.txt : Définition

Le fichier robots.txt est un fichier au format texte qui permet d’indiquer aux robots des moteurs de recherche la manière d’explorer et d’indexer les pages du site web.

On trouve ce fichier dans le répertoire racine du site.

Le fichier robots.txt généré par défaut lorsqu’on installe de nouveaux sites WordPress est le suivant :

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Son fonctionnement est simple. Chaque ligne du fichier est une instruction permettant d’autoriser ou d’interdire l’exploration par les robots des moteurs de recherche d’URLs ou de répertoires spécifiques

La règle étant que si aucune instruction n’interdit à un robot de crawler une URL alors elle sera explorée.

Détail important : Spécifier qu’une URL ne doit pas être crawler ne signifie pas qu’elle sera désindexée.

Si vous souhaitez désindexer une page, utilisez alors l’instruction noindex directement dans la page concernée.

 

Pourquoi le fichier Robots.txt est-il important ?

Lorsque googlebot scanne un site web il lui alloue un budget de crawl.

Le budget de Crawl est en résumé la limite maxi du nombre de pages que le moteur de recherche va explorer pour les indexer.

Sans instruction spécifique, googlebot crawlera l’intégralité votre site internet y compris toutes les pages, les contenus et les répertoires qui ne sont pas destinés à être indexés.

En laissant les robots crawler du contenu non pertinent vous « cramez » inutilement votre budget de crawl et les contenus importants peuvent ne pas être explorés par le moteur faute de budget.

Pour WordPress par exemple les contenus non pertinents pour le crawl sont typiquement des pages dédiées à l’administration, aux plugins, aux thèmes… En interdisant leur exploration dans le fichier Robots.txt, vous permettez aux robots de se focaliser sur les pages qui ont une réelle importance pour votre référencement naturel.

Autre élément important lorsque vous interdisez aux robots de crawler certains contenus cela vous permet d’économiser les ressources machines nécessaires pour afficher ces contenus.

Et cela peut avoir une incidence sur les performances d’affichage du site web.

 

Comment créer un fichier Robots.txt dans WordPress?

Il existe deux grandes méthodes pour créer un fichier Robots.txt dans WordPress : libre à vous d’utiliser celle qui vous convient le mieux.

 

Méthode 1 : modifier le fichier Robots.txt manuellement

Cette méthode nécessite quelques connaissances techniques de base, puisqu’elle implique notamment l’utilisation d’un client FTP.

À l’aide de ce dernier, connectez-vous à l’hébergement de votre site WordPress et trouvez le fichier Robots.txt dans le répertoire racine. 

Pour le modifier, utiliser un simple éditeur de texte type Bloc-notes ou Notepad++.

Une fois les modifications effectuées, uploadez à nouveau le fichier dans le dossier racine de votre site web à l’aide du client FTP.

 

Méthode 2 : modifier le fichier Robots.txt à l’aide d’un plugin

Si vous souhaitez modifier votre fichier Robots.txt sans effectuer de manipulations techniques, le moyen le plus simple consiste à utiliser un plugin comme All in One SEO, Yoast ou RankMath.

Plugin WordPress - All In One SEO

 

All In One SEO est une extension WordPress très populaire, dédiée au référencement, comporte notamment un générateur de fichiers Robots.txt. Cette fonctionnalité est d’ailleurs présente dans la version gratuite. 

Depuis le panneau admin de WordPress, cliquez sur All in One SEO > Outils pour éditer votre fichier en quelques clics. Mais, avant toute chose, pensez à cocher la case permettant d’autoriser la personnalisation de Robots.txt.

Vous pouvez prévisualiser le fichier : de base, ce dernier contient différentes règles par défaut, ajoutées automatiquement par WordPress. 

Elles indiquent aux moteurs de recherche de ne pas explorer les contenus admin du blog WordPress. Mais autorisent aux robots l’exploration de tout le reste des pages et du contenu.

Pour ajouter vos propres règles personnalisées et améliorer votre référencement naturel, il vous suffit :

  • d’appuyer sur « Ajouter une règle » ;
  • de renseigner un agent utilisateur, si nécessaire ;
  • de cocher la case Allow (« autoriser ») ou Disallow (« interdire ») ;
  • d’indiquer le nom du fichier ou du dossier que vous souhaitez autoriser ou interdire.

Enfin, n’oubliez pas de cliquer sur « Enregistrer les modifications » avant de quitter cet écran.

Notez toutefois que d’autres extensions comme Yoast vous permettront d’arriver aux mêmes résultats.

Plugin WordPress - Yoast SEO

Ouvrez le menu SEO > Outils > Editeurs de fichier puis modifez directement le fichier robots.txt à partir du backoffice WordPress.

 

Les instructions de base du fichier robots.txt

User-agent : Cette instruction indique la liste des moteurs qui sont concernés par vos directives d’exploration. Si vous souhaitez vous adresser à tous les moteurs de recherche, il faut suffit juste d’ajouter le caractère * à la suite de l’instruction user agent.

Disallow : Est comme son nom l’indique, l’instruction qui permet de bloquer le crawl d’une page ou d’un dossier. Le type de contenu est spécifié à la suite de l’instruction.

Allow : Est la consigne inverse. Elle autorise une exploration de page ou du contenu spécifié.

Sitemap: Est l’instruction qui permet de spécifier l’emplacement d’un ou de plusieurs sitemaps aux robots d’indexation.

A savoir : Le indique la présence d’un commentaire

 

Quels sont les éléments importants à ajouter à un fichier robots.txt

La toute première optimisation à faire sur un site WordPress est d’empêcher l’exploration de la page de connexion. Les instructions pour le faire sont les suivantes :

Disallow: /wp-login.php

Ensuite les instructions suivantes peuvent être utiles

 

Les répertoires de WordPress à ne pas indexer :

Les instruction ci-dessous permettront de bloquer l’indexation du dossier wp-include mais également des répertoires contenant les plugins, les thèmes et les contenus cache utilisés par WordPress.

Disallow: /wp-includes 

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

 

Liste des URLS  à ne pas indexer

Pour éviter l’indexation des flux RSS de votre blog, vous pouvez utiliser les instructions qui suivent :

Disallow: */feed

Disallow: */rss2

Autres URLs qu’il est utile de bloquer, concerne les ping et trackback ainsi que les commentaires 

Disallow: */trackback

Disallow: /*/comments

 

Bloquer les fichiers et URLs indésirables

Certains contenus sensibles ne doivent absolument pas remonter dans les moteurs de recherche. Même si Google, Bing et Yahoo ont tendance à bien gérer ce type d’information en ne faisant pas apparaître dans la SERP ce type de contenus sensible, par sécurité il est fortement recommandé de bloquer l’indexation des fichiers qui suivent.

Bien que rarement utilisé de nos jours, le dossier cgi-bin peut malgré tout exister sur certains serveurs. Historiquement ce répertoire était utilisé pour que déposer du code exécutable. 

Disallow: /cgi-bin

Autre optimisation très utile, bloquer l’accès aux URLs qui contiennent un point d’interrogation par exemple : (http://www.mon-domaine.fr/page.php?id=2). Voici comment :

Disallow: /*?

Parmi les URLs qu’il est utile de bloquer, nous avons :

  • Les urls se terminant par “.php”. 
  • Les fichiers .inc qui ne sont pas des pages à proprement parler, mais plutôt un fichier de code à inclure.
  • Les fichiers avec l’extension .gz qui sont des fichiers compressés.
  • Les fichier .cgi ou Common Gateway Interface qui sont des fichiers de scripts pouvant être exécutés sous certaines conditions

Le caractère “$” permet de préciser par quoi doit se terminer l’URL .

Ce qui nous donne le code suivant : 

Disallow: /*.php$

Disallow: /*.inc$

Disallow: /*.gz

Disallow: /*.cgi

Enfin dernière optimisation, pour ne pas être pénalisé sur la recherche mobile, je vous recommande d’autoriser explicitement l’indexation des fichiers CSS et JS

Allow: /css?

Allow: /js?

 

Exemple de fichier robots.txt complet pour WordPress

Si on récapitule, voici le fichier robots.txt complet qu’on obtient après optimisation :

User-agent: *

Disallow: /wp-admin/

Disallow: /wp-login.php

Disallow: /cgi-bin

Disallow: /*?

Disallow: */trackback

Disallow: /*/comments

Disallow: /*.php$

Disallow: /*.inc$

Disallow: /*.gz

Disallow: /*.cgi

 

Disallow: /wp-includes

Disallow: /wp-content/plugins

Disallow: /wp-content/cache

Disallow: /wp-content/themes

 

Disallow: */feed

Disallow: */rss2

 

Allow: /css?

Allow: /js?

Si vous souhaitez renseigner vos sitemaps, ajoutez les ligne suivantes : 

  • Sitemap: http://www.mon-site.com/post-sitemap.xml
  • Sitemap: http://www.mon-site.com/page-sitemap.xml

Personnellement nous préférons indiquer l’emplacement des sitemaps d’un site internet en passant directement par Google Search Console.

 

Comment tester votre fichier Robots.txt ?

Une fois que vous aurez optimisé votre fichier robots.txt, pensez à le vérifier. 

Pour cela utilisez  l’outil de test du fichier robots.txt  de Google.

Outil de test de Google pour le fichier Robots.txt

Pour l’utiliser, vous devez au préalable associer votre site internet à Google Search Console. 

L’outil vous indiquera les éventuelles erreurs de syntaxe ou de logique et vous pourrez les corriger directement dans l’éditeur de texte.

Effectuez les modifications recommandées jusqu’à ce qu’il n’y ait plus d’erreurs

Attention l’outil ne modifie pas le fichier en lui-même mais juste une copie de votre fichier robots.txt. 

Si vous avez corrigé des erreurs, copiez-collez le contenu corrigé dans un nouveau fichier robots.txt sur votre ordinateur puis remplacer l’actuel fichier en déposant la nouvelle version par FTP. 

Vous pouvez également effectuer directement les modifications en ligne comme Yoast (voir ci-dessus).

Que vous souhaitiez le faire manuellement ou en utilisant un plugin dédié, optimiser le fichier Robots.txt est une manière efficace de booster le référencement de votre site, en le rendant plus facile à explorer par les robots des moteurs de recherche.