Lorsque les internautes lancent une recherche, les robots de crawl parcourent très rapidement toutes les pages des sites, qu’elles soient anciennes ou nouvelles.
Pour gagner du trafic et améliorer son référencement, les propriétaires de sites doivent faire en sorte de diriger ces robots vers les pages les plus pertinentes.
Voici les 3 étapes clés pour améliorer rapidement les résultats du process.
Identifier les pages à exclure pour éviter de gâcher son budget de crawl
La popularité d’un site web détermine son « budget de crawl », c’est-à-dire le temps que les robots des moteurs de recherche lui consacrent. Ce temps étant très limité, il faut que les robots le consacrent au maximum aux pages qui jouent un rôle clé sur les performances SEO.
La première étape consiste à identifier les pages crawlées et non indexées qui gaspillent du temps de crawl. L’onglet « couverture » de la Search Console de Google liste ces pages et indique les raisons de leur exclusion. L’analyse des logs associés au moteur, reconnaissables aux premiers chiffres de leur adresse IP (66.249), et le user-agent « googlebot » permettent de connaître :
- le pourcentage global du site effectivement visité par les crawlers ;
- les pages essentielles pour le SEO ignorées par le moteur ;
- les pages qui font perdre du temps aux robots et font baisser le trafic.
Si un taux de 100 % de pages stratégiques crawlées est difficilement atteignable, il convient de viser au moins 85 %. La situation est alarmante si le taux est inférieur à 25 %, et requiert une action urgente.
Détourner les crawlers des pages à ne pas indexer
Afin d’éviter que les robots ne perdent du temps sur les pages peu pertinentes en matière de SEO, il est possible de ne pas les indexer en insérant la balise <noindex> dans leur code HTML. Les référenceurs doivent actualiser en permanence le fichier robots.txt et mettre en place des règles de crawl du site en ligne avec sa stratégie de référencement globale.
Par exemple, bloquer les URL contenant des filtres permet à Google de se focaliser sur les pages stratégiques, et ainsi, de doper le trafic. Certains professionnels recourent même à des liens en JavaScript pour que les robots ne puissent pas les suivre et évitent ainsi les pages spécifiées.
Lors d’une refonte de site :
- combiner le JS dynamique à un bon maillage permet d’avoir des pages à l’excellente ergonomie non indexées et non crawlées ;
- cette méthode, associée à un usage maîtrisé du fichier robots.txt, donne des résultats des optimaux.
Orienter les robots de crawl vers les pages les plus importantes
Les robots des moteurs de recherche doivent pouvoir accéder aux pages stratégiques pour le référencement naturel en trois clics au maximum. Pour cela, la page d’accueil doit inclure un lien direct vers les pages catégories, et ces dernières, mener en moins de deux clics à chacune des pages produits. Les experts conseillent un système de pagination consistant à fragmenter les numéros de pages de manière à les afficher ou les masquer au gré des clics du visiteur.
Le référenceur doit également optimiser son site en travaillant sur le maillage interne de façon à ce que les pages stratégiques reçoivent davantage de liens internes. Ainsi, les chances que les robots tombent dessus lors de leur parcours augmentent notablement.
Une réponse à “Comment optimiser le crawl et le référencement d’un site web”
[…] à un système de « score », le moteur peut crawler et classer les pages web plus efficacement et dans un délai […]