Une fuite massive de documents internes à Google a été révélée en mai dernier par Rand Fishkin, figure éminente du référencement et fondateur de SparkToro.
Les 2 500 pages incriminées, très probablement issues du Content API Warehouse de la firme, offriraient un éclairage inédit sur les rouages de l’algorithme de classement des sites dans les résultats de recherche.
Des pratiques contraires aux affirmations antérieures de Google
Ces documents de nature technique suggèrent que le géant californien n’a pas été totalement transparent concernant le fonctionnement de son système de référencement. En effet, en contradiction avec ses déclarations antérieures, l’entreprise se livrerait à des pratiques contraires à l’éthique.
Exploitation des données de navigation Chrome pour le classement des sites
Après analyse des documents, Rand Fishkin conclut que « Google se base sur le nombre de clics sur les pages dans Chrome pour identifier les URL les plus populaires ou importantes d’un site, et déterminer son ranking ». Il estime d’ailleurs que « la création du navigateur en 2008 a été notamment motivée par la volonté d’exploiter ces flux de clics ».
NavBoost : analyse des clics et du taux de rebond
Quant à NavBoost, l’on apprend qu’il comptabilise le nombre de clics, analyse le taux de rebond sur les pages et évalue la fiabilité des clics. Or, Google s’est toujours défendu d’utiliser des « signaux utilisateurs » axés sur le clic.
Des listes blanches pour les requêtes sensibles
Autre point clé, pour des requêtes sur des thématiques sensibles, Google met en avant des sites web considérés comme fiables inscrits sur ses « listes blanches ». Les sites gouvernementaux sont souvent priorisés, par exemple pour des questions sanitaires, des élections et autres événements importants. Cette approche peut également concerner des sites privés pertinents, comme les plateformes de réservation de voyages.
Des doutes sur l’importance du critère E-A-T
Rand Fishkin exprime son scepticisme quant à l’importance réelle du critère E-E-A-T (expérience, expertise, autorité et fiabilité) pour le moteur. Absent des documents divulgués, il pourrait être moindre que ce que la plupart des acteurs du secteur imaginent.
Une collecte de données sur les auteurs de contenu
En revanche, il apparait que Google collecte des données sur les auteurs de contenu, notamment un champ permettant d’identifier si une personne est à l’origine du contenu sur une page. Or, l’entreprise a toujours soutenu que la fonction principale des pages d’auteur est d’optimiser l’expérience utilisateur, sans modifier le référencement.
Une hiérarchisation des liens en fonction de la qualité des clics
La qualité des liens pour le classement est déterminée par le nombre et la source des clics qu’ils génèrent. Ceux avec un volume élevé de clics provenant d’appareils fiables (« haute qualité ») influencent positivement le PageRank d’un site, tandis que les liens de mauvaise qualité (« basse qualité ») sont ignorés et n’ont aucun impact négatif.
L’authenticité des documents confirmée par des experts
Rand Fishkin précise avoir consulté des employés de l’entreprise de Mountain View, ainsi que l’expert technique en SEO Mike King, et confirme l’authenticité des documents obtenus. D’après ce professionnel, « les documents proviennent de la division Recherche de la firme », ce qui renforce leur crédibilité. Par ailleurs, ils dévoilent des informations inédites qui pourraient améliorer la compréhension du fonctionnement interne du moteur.
Si Google n’a pas réagi officiellement à l’incident, son porte-parole a tenu à mettre en garde contre les interprétations hâtives. Davis Thompson a insisté sur le risque de conclusions erronées basées sur des informations fragmentées, prises hors contexte ou obsolètes.
Mais bon, toujours intéressant, is’nt it…