Il peut sembler contre-intuitif qu’une page spécifiquement bloquée de l’indexation par le fichier robots.txt puisse figurer dans les résultats de recherche Google.
Pourtant, ce phénomène est plus fréquent qu’on ne le pense. Plusieurs facteurs expliquent cette situation, et dans la plupart des cas, celle-ci n’a pas d’impact négatif sur le référencement naturel du site.
Pourquoi des pages bloquées apparaissent-elles parfois dans les SERP de Google ?
En premier lieu, il arrive qu’une page ait déjà été indexée par Google avant d’être bloquée par robots.txt. Dans ce cas, le moteur en conserve une trace, même si elle n’est plus accessible aux crawlers. En conséquence, elle continue à apparaître dans les SERP, jusqu’à la mise à jour de l’index.
De même, même si une page est bloquée par robots.txt, le moteur de recherche a la possibilité de la découvrir en suivant des liens entrants provenant d’autres sites. En effet, il est difficile d’empêcher que des backlinks pointent vers une page bloquée.
Les professionnels du SEO s’inquiètent souvent de l’impact de ces pages indexées à tort sur le classement global. Ils craignent que la présence de contenus médiocres ou non pertinents ne dilue la qualité perçue de leur site par les moteurs de recherche.
Une situation généralement bénigne, selon Google
John Mueller, Senior Search Analyst chez Google, a clarifié la position de la firme américaine sur la question. Selon lui, le fait qu’une page bloquée par robots.txt s’affiche dans les résultats de recherche n’a généralement pas d’impact négatif sur le référencement. En effet, si une page est bloquée, Google considère que le propriétaire du site ne souhaite pas qu’elle soit indexée. Par conséquent, même si elle apparaît dans les SERP, elle ne sera pas prise en compte dans le calcul du classement.
Il a ajouté que si une page est bloquée par robots.txt et que la balise « noindex » est également présente, cela n’affecte pas le reste du site.
Pour éviter toute confusion, il est recommandé de vérifier régulièrement son fichier robots.txt pour s’assurer que les instructions qu’il contient sont claires et cohérentes. Pour les pages à retirer, il est préférable d’utiliser conjointement le robots.txt et la balise « noindex ».
Pour plus d’information, contactez une agence de référencement naturel.