fbpx

Être présent en première page de Google est souvent l’ambition de nombreuses entreprises. Dès lors que l’on met en ligne un site Internet et qu’il n’est pas paramétré spécifiquement pour ne pas être référencé par les moteurs de recherche ; les pages vont progressivement être indexées.

Cela dit les moteurs de recherche parcourent tous les recoins d’un site Internet et il n’est pas rare que l’on retrouve dans l’index Google des éléments (pages, images, documents …) auxquels l’entreprise n’avait pas pensé et qu’elle ne souhaite pas voir remonter dans les pages de recherche.

De plus l’indexation ne se produit pas en temps réel et il se peut qu’il y ait des décalages entre l’état de votre site et l’index Google, surtout si vous avez procédé à des modifications ou à une refonte de votre site. Ceci peut entre autres provoquer des messages d’erreur ou aiguiller vos visiteurs vers une mauvaise information.

Il est donc utile et nécessaire de parcourir régulièrement l’index Google ne serait-ce que pour vérifier si l’état de l’indexation reflète l’existant.

Comment fonctionne l’index de Google ?

L’index de Google est la base de données de Google qui contient toutes les URL des sites que le moteur de recherche connaît. En 2016 on estimait que cet index contenait plus de 130 000 milliards de pages. Ce qui représenterait plus de 100 000 000 Go de données.

Remarque. Dans cet article nous ne parlons que du fonctionnement de Google mais les autres moteurs de recherche comme Yahoo, Bing et notre très prometeur moteur de recherche français Qwant, fonctionnent sensiblement de la même façon.

L'index de Google est estimé à 130 000 milliards d'URLs Cliquez pour tweeter

Pour maintenir à jour cette base de données colossale, Google scanne de manière automatique les sites Internet (ou effectue ce que l’on nomme des crawls) par l’intermédiaire de robots (ou Googlebot). Le but de ces crawls est de comprendre la nature, le contenu et la qualité d’une page pour ensuite l’associer à une ou plusieurs intentions de recherche.

Selon un très grand nombre de critères (définit par les algorithmes de Google comme Google Panda, Google Penguin, etc …) la page sera plus ou moins bien classée dans la page des résultats de recherche (SERP) sur les requêtes ou intentions de recherche auxquelles elle est associée.

Index Google Mobile First : Depuis 2017, priorité donnée à la version mobile du site

Été 2016, Gary Illyes « l’Analyste Google des tendances Web » commençait à évoquer l’importance de la version mobile pour la construction de l’index sans que l’on sache réellement les implications liées.

Cette évolution ce nomme le projet “Mobile First” et a été présenté par Google fin 2016. Voir l’annonce ici.

Courant 2017 Google a donc commencé à explorer les sites Internet différemment.

Avant 2017, le contenu d’un site était analysé à partir de sa version Desktop.
Depuis l’arrivée de l’index mobile first, l’analyse se fait en priorité à partir de la version mobile.

On comprend donc mieux, l’importance d’optimiser son site pour les mobiles pour garantir un bon référencement naturel.

A Lire : Impact et avantages du responsive web design sur le SEO

Grâce Google Search Console, vous pouvez d’ailleurs vérifier comment votre site a été indexé
Pour le savoir, inspecter une URL. Si ,vous lisez Explorée avec Googlebot pour smartphone, c’est qu’elle a été indexée à partir de sa version mobile.

Vérifier avec Google Search Console avec quelle version de Googlebot votre site est analysé.

En savoir plus sur les effets de l’index de Google sur le trafic de votre site Internet :

Comment connaître mes pages présentes dans l’index de Google ?

Pour connaître les pages de votre site Internet indexées dans un moteur de recherche (Google, Yahoo, Bing …), il suffit de taper dans votre navigateur, l’instruction suivante :

site:votre-nom-de-domaione.com

Les vérifications de base de l’index Google

Connaitre l’index de Google va vous permettre notamment :

  • d’identifier les sources d’erreur 404. En effet si certaines pages, les médias (images, vidéos, fichiers …) qui demeurent présent dans l’index Google, mais qui sont absents de votre site Internet et donc susceptible des générer des erreurs 404
  • d’identifier les modifications non prises en comptes. Vous avez par exemple déplacé un ensemble de fichiers dans un nouveau répertoire et l’index Google continue de faire pointer ces pages indexées sur l’ancien répertoire. Situation à identifier et à corriger le plus rapidement possible, car le risque encouru est de perdre tout le trafic organique généré par ces pages déplacées. La remarque vaut également pour les répertoires renommés ou les permaliens qui ont été modifiés.
  • De vérifier que toutes les données de votre site internet sont bien prises en comptes par Google. Ceci est particulièrement vrai maintenant avec Mobile First. En effet il se peut que votre site n’affiche pas toutes les informations sur la version mobile de vos pages (pages simplifiées, navigation différente, simplification ou absences des données structurées, balises « canonical » absentes … Si c’est le cas, Google mobile first n’en tiendras pas compte lorsqu’il construira son index et votre visibilité sera tronquée.

Les actions mettre en place pour corriger l’index Google

Désindexer les pages dans Google Search Console

L’index Google contient des pages qui n’existent plus sur votre site Internet ou que vous ne souhaitez pas indexer ?

Dans ce cas il existe une fonction de la Google Search Console que l’on retrouve en suivant ce lien.

Ou bien en suivant les instructions suivantes :

Désindexer des pages dans Google Search Console :

Ouvrir Google Search Console

Sélectionner votre site

Sélectionner le menu Index Google > URL à supprimer

Cliquer sur Masquer temporairement

Saisir l’URL à masquer

Choisir supprimer une page ou supprimer un répertoire selon le cas de figure

Cela dit ce signalement est temporaire. Cela ne pose pas de problème pour les pages supprimées puisqu’elles ne pourront plus être de nouveau parcourues par les robots des moteurs de recherche et donc indexées de nouveau.

En revanche, pour des pages existantes, mais que vous souhaitez ne pas voir remonter dans les résultats de recherche il sera nécessaire de réaliser des modifications sur votre site pour spécifier les nouvelles règles d’indexation.

Signaler à Google les pages qu’il ne doit pas indexer avec le fichier robots.txt

Désindexer manuellement de l’index Google les pages inopportunes peut parfois s’avérer fastidieux. Dans ce cas il est recommandé d’utiliser le fichier robots.txt. Ce fichier placé à la racine du site va permettre de spécifier les règles d’indexation aux moteurs de recherche.

User-agent

L’instruction : User-agent va vous permettre de spécifier à quel moteur de recherche s’adresse vos règles.

Exemple

User-agent: Googlebot pour des instructions à destination de Google uniquement.

User-agent: * pour des instructions à destination des tous les moteurs

Allow / Disallow

Les directives Allow / Disallow permet comme leur nom l’indique de spécifier le contenu qui peut ou ne peut pas être exploré pour indexation

Exemples :

Disallow: / empêchera une indexation de l’intégralité du site.

Disallow: /nom-répertoire/ indiquera de ne pas indexer le contenu du répertoire nommer.

Disallow: /nom* spécifiera de ne pas indexer les répertoires commençant par « nom »

Disallow: /*? bloquera l’indexation des URLs qui contiennent un point d’interrogation.

Disallow: /*.asp$ Le caractère $ spécifie la fin d’une URL. Cette directive indique donc que les URLs se terminant par .asp ne devront pas être indexées.

Allow: / indiquera que tout le contenu du site pourra être indexé

Ainsi en associant différentes directives il sera très facile d’indiquer ce qui devra être indexé ou non par les moteurs de recherche.

Exemple :

User-agent: Googlebot
Disallow: /nom-du-répertoire/

User-agent: *
Disallow:

Cet exemple de fichier robots.txt indiquera que le répertoire « nom-du-répertoire » sera bloqué à Google, mais accessible aux autres moteurs de recherche

Gérer les déplacements, les renommages de fichier ou de répertoire avec le fichier .htaccess

Dans le cas où vous avez changé le nom d’un de vos répertoires ou que vos fichiers ont été déplacés, l’index Google ne pointera plus vers les fichiers en question et générera des erreurs 404 (fichier non trouvé).

La solution pour signaler à Google que ces fichiers existent toujours, mais ont été seulement déplacés est d’utiliser le fichier .htaccess.

Le fichier .htaccess est le premier fichier que va lire un serveur Web Apache. Pour cette raison on l’utilise pour y inclure toutes les fonctions que l’on souhaite exécuter avant d’afficher le site.

L’utilisation du fichier .htaccess est une solution simple pour effectuer toutes sortes de redirections. Il est possible par exemple de rediriger une page, un répertoire voir un domaine.

Exemples de redirection d’une page

Redirection permanente 301 redirect 301 /ancienne-page.htm http://www.votre-domaine.com/nouvelle-page.htm

Exemples de redirection d’un répertoire

Redirection permanente 301
redirect 301 /ancien-repertoire http://www.votre-domaine.com/blog/nouveau-repertoire.htm

WordPress

Si vous utilisez WordPress, il existe d’excellents plug-ins pour gérer vos redirections :

  • Yoast SEO : permets de gérer les URLs canoniques et les changements d’URLs.
  • 404 to 301 : permets de logué les erreurs 404 et d’effectuer des redirections 301.
  • Redirection : permets de définir vos règles de redirection et de vérifier les erreurs 404.

Conclusion

Voilà donc quelques conseils de base pour vérifier l’index Google et demander des corrections si celui-ci ne reflète pas la réalité de votre site Internet.

De plus depuis 2017 Google ayant donné la priorité à la version mobile des sites Internet pour construire son index, il est impératif de verifier en priorité non plus la version desktop mais la version smartphone de son site.

De simples vérifications, mais qui peuvent permettre d’optimiser votre référencement naturel et vous aider à gagner des places dans les pages des moteurs de recherche (SERP).