Être présent en première page de Google est souvent l’ambition de nombreuses entreprises. Dès lors que l’on met en ligne un site Internet et qu’il n’est pas paramètré spécifiquement pour ne pas être référencé par les moteurs de recherche ; les pages vont progressivement être indexées.

Cela dit les moteurs de recherche parcourent tous les recoins d’un site Internet et il n’est pas rare que l’on retrouve dans l’index Google des éléments (pages, images, documents …) auxquels l’entreprise n’avait pas pensé et qu’elle ne souhaite pas voir remonter dans les pages de recherche. Pire : le site n’apparaît pas dans Google !

De plus l’indexation ne se produit pas en temps réel et il se peut qu’il y ait des décalages entre l’état de votre site et l’index Google, surtout si vous avez procédé à des modifications ou à une refonte de votre site. Ceci peut entre autres provoquer des messages d’erreur ou aiguiller vos visiteurs vers une mauvaise information.

Mais attention, selon une étude aHrefs 90,63 % des page indexées dans Google ne reçoivent aucun trafic organique. C’est à dire qu’on ne les trouve pas dans les moteurs de recherche.

Il est donc utile et nécessaire de parcourir régulièrement l’index Google ne serait-ce que pour vérifier si l’état de l’indexation reflète l’existant.

Comment fonctionne l’index de Google ?

L’index de Google est la base de données de Google qui contient toutes les URL des sites que le moteur de recherche connaît. En 2016 on estimait que cet index contenait plus de 130 000 milliards de pages. Ce qui représenterait plus de 100 000 000 Go de données.

Remarque. Dans cet article nous ne parlons que du fonctionnement de Google mais les autres moteurs de recherche comme Yahoo, Bing et notre très prometteur moteur de recherche français Qwant, fonctionnent sensiblement de la même façon.

Pour maintenir à jour cette base de données colossale, Google scanne de manière automatique les sites Internet (ou effectue ce que l’on nomme des crawls) par l’intermédiaire de robots (ou Googlebot). Le but de ces crawls est de comprendre la nature, le contenu et la qualité d’une page pour ensuite l’associer à une ou plusieurs intentions de recherche.

Selon un très grand nombre de critères (définit par les algorithmes de Google comme Google Panda, Google Penguin, etc …) la page sera plus ou moins bien classée dans la page des résultats de recherche (SERP) sur les requêtes ou intentions de recherche auxquelles elle est associée.

Index Google Mobile First : La priorité donnée à la version mobile du site

Été 2016, Gary Illyes « l’Analyste Google des tendances Web » commençait à évoquer l’importance de la version mobile pour la construction de l’index sans que l’on sache réellement les implications liées.

Cette évolution ce nomme le projet “Mobile First” et a été présenté par Google fin 2016. Voir l’annonce ici.

Avec Google Mobile First, Google a commencé à explorer les sites Internet différemment.

Avant Mobile First, le contenu d’un site était analysé à partir de sa version Desktop.
Depuis l’arrivée de l’index mobile first, l’analyse se fait en priorité à partir de la version mobile.

On comprend donc mieux, l’importance d’optimiser son site pour les mobiles pour garantir un bon référencement naturel.

Grâce Google Search Console, vous pouvez d’ailleurs vérifier comment votre site a été indexé
Pour le savoir, inspecter une URL. Si ,vous lisez Explorée avec Googlebot pour smartphone, c’est qu’elle a été indexée à partir de sa version mobile.

Optimisation Google pour les smartphone — Vérifier avec Google Search Console avec quelle version de Googlebot votre site est analysé.

Comment connaître mes pages présentes dans l’index de Google ?

Pour connaître les pages de votre site Internet indexées dans un moteur de recherche (Google, Yahoo, Bing …), il suffit de taper dans votre navigateur, l’instruction suivante :

site:votre-nom-de-domaione.com

Les vérifications de base de l’index Google

Connaitre l’index de Google va vous permettre notamment :

d’identifier les sources d’erreur 404. En effet si certaines pages, les médias (images, vidéos, fichiers …) qui demeurent présent dans l’index Google, mais qui sont absents de votre site Internet et donc susceptible des générer des erreurs 404
d’identifier les modifications non prises en comptes. Vous avez par exemple déplacé un ensemble de fichiers dans un nouveau répertoire et l’index Google continue de faire pointer ces pages indexées sur l’ancien répertoire. Situation à identifier et à corriger le plus rapidement possible, car le risque encouru est de perdre tout le trafic organique généré par ces pages déplacées. La remarque vaut également pour les répertoires renommés ou les permaliens qui ont été modifiés.
De vérifier que toutes les données de votre site internet sont bien prises en comptes par Google. Ceci est particulièrement vrai maintenant avec Mobile First. En effet il se peut que votre site n’affiche pas toutes les informations sur la version mobile de vos pages (pages simplifiées, navigation différente, simplification ou absences des données structurées, balises « canonical » absentes … Si c’est le cas, Google mobile first n’en tiendras pas compte lorsqu’il construira son index et votre visibilité sera tronquée.

Les actions mettre en place pour corriger l’index Google

Désindexer les pages dans Google Search Console

L’index Google contient des pages qui n’existent plus sur votre site Internet ou que vous ne souhaitez pas indexer ?

Dans ce cas il existe une fonction de la Google Search Console que l’on retrouve en suivant ce lien.

Ou bien en suivant les instructions suivantes :

Désindexer des pages dans Google Search Console :

Ouvrir Google Search Console

Sélectionner votre site

Sélectionner le menu Index Google > URL à supprimer

Cliquer sur Masquer temporairement

Saisir l’URL à masquer

Choisir supprimer une page ou supprimer un répertoire selon le cas de figure

Cela dit ce signalement est temporaire. Cela ne pose pas de problème pour les pages supprimées puisqu’elles ne pourront plus être de nouveau parcourues par les robots des moteurs de recherche et donc indexées de nouveau.

En revanche, pour des pages existantes, mais que vous souhaitez ne pas voir remonter dans les résultats de recherche il sera nécessaire de réaliser des modifications sur votre site pour spécifier les nouvelles règles d’indexation.

Signaler à Google les pages qu’il ne doit pas indexer avec le fichier robots.txt

Désindexer manuellement de l’index Google les pages inopportunes peut parfois s’avérer fastidieux. Dans ce cas il est recommandé d’utiliser le fichier robots.txt. Ce fichier placé à la racine du site va permettre de spécifier les règles d’indexation aux moteurs de recherche.

User-agent

L’instruction : User-agent va vous permettre de spécifier à quel moteur de recherche s’adresse vos règles.

Exemple

User-agent: Googlebot pour des instructions à destination de Google uniquement.

User-agent: * pour des instructions à destination des tous les moteurs

Allow / Disallow

Les directives Allow / Disallow permet comme leur nom l’indique de spécifier le contenu qui peut ou ne peut pas être exploré pour indexation

Exemples :

Disallow: / empêchera une indexation de l’intégralité du site.

Disallow: /nom-répertoire/ indiquera de ne pas indexer le contenu du répertoire nommer.

Disallow: /nom* spécifiera de ne pas indexer les répertoires commençant par « nom »

Disallow: /*? bloquera l’indexation des URLs qui contiennent un point d’interrogation.

Disallow: /*.asp$ Le caractère $ spécifie la fin d’une URL. Cette directive indique donc que les URLs se terminant par .asp ne devront pas être indexées.

Allow: / indiquera que tout le contenu du site pourra être indexé

Ainsi en associant différentes directives il sera très facile d’indiquer ce qui devra être indexé ou non par les moteurs de recherche.

Exemple :

User-agent: Googlebot
Disallow: /nom-du-répertoire/

User-agent: *
Disallow:

Cet exemple de fichier robots.txt indiquera que le répertoire « nom-du-répertoire » sera bloqué à Google, mais accessible aux autres moteurs de recherche

Cliquez-ci pour voir notre tuto si vous préférer modifier le fichier Robots.txt à l’aide d’un plugin WordPress

Gérer les déplacements, les renommages de fichier ou de répertoire avec le fichier .htaccess

Dans le cas où vous avez changé le nom d’un de vos répertoires ou que vos fichiers ont été déplacés, l’index Google ne pointera plus vers les fichiers en question et générera des erreurs 404 (fichier non trouvé).

La solution pour signaler à Google que ces fichiers existent toujours, mais ont été seulement déplacés est d’utiliser le fichier .htaccess.

Le fichier .htaccess est le premier fichier que va lire un serveur Web Apache. Pour cette raison on l’utilise pour y inclure toutes les fonctions que l’on souhaite exécuter avant d’afficher le site.

L’utilisation du fichier .htaccess est une solution simple pour effectuer toutes sortes de redirections. Il est possible par exemple de rediriger une page, un répertoire voir un domaine.

Exemples de redirection d’une page

Redirection permanente 301 redirect 301 /ancienne-page.htm http://www.votre-domaine.com/nouvelle-page.htm

Exemples de redirection d’un répertoire

Redirection permanente 301

redirect 301 /ancien-repertoire http://www.votre-domaine.com/blog/nouveau-repertoire.htm

WordPress

Si vous utilisez WordPress, il existe d’excellents plug-ins pour gérer vos redirections :

Yoast SEO : permets de gérer les URLs canoniques et les changements d’URLs.
404 to 301 : permets de logué les erreurs 404 et d’effectuer des redirections 301.
Redirection : permets de définir vos règles de redirection et de vérifier les erreurs 404.

Conclusion

Voilà donc quelques conseils de base pour vérifier l’index Google et demander des corrections si celui-ci ne reflète pas la réalité de votre site Internet.

De plus depuis que Google a donné la priorité à la version mobile des sites Internet pour construire son index, il est impératif de vérifier en priorité non plus la version desktop mais la version smartphone de son site.

De simples vérifications, mais qui peuvent permettre d’optimiser votre référencement naturel et vous aider à gagner des places dans les pages des moteurs de recherche (SERP).

5 Commentaires

iDeae sur 18 juin 2018 à 14 h 29 min

Très bon article ! Merci d’aborder ce dossier qui est essentiel.
Réponse
Conseilsdeblog sur 13 mars 2019 à 12 h 55 min

Article très complet et bien expliqué !
On laisse beaucoup trop Google en autonomie alors que la Search Console permet de vraiment gérer son indexation et vérifier son état !
Réponse
Sarah-E sur 19 juillet 2019 à 16 h 23 min

Bravo! très bon article. J’utilise Google Webmaster Tools ( l ancien Google Console depuis 2014) car je suis une impatiente !!!Et effectivement, un bon coup de pied dans les fesses de Google peux le faire indexer plus vite! La méthode marche depuis l’antiquité…:)
Réponse
Medespoir sur 3 février 2020 à 9 h 43 min

Un très bon article, bonne continuité !
https://www.medespoir.ch
Réponse
ROBIN sur 9 juin 2020 à 13 h 24 min

Merci pour cet article !
Google n’indexe pas certains de mes nouveaux articles de blog ce qui me fait perdre de la visibilité sur des thèmes recherchés dans mon domaine.
J’ai beau demander l’indexation manuellement, ensuite je vois sur search console qu’ils seraient indexés mais dans google quand je fais site:nomsite.com avec mon domaine, ils n’y sont pas…
Réponse

Index Google : contrôler et corriger l’indexation de son site