Informations Yuma: tuyaux référencement

L'algorithme de Google enfin dévoilé ?

Ecrit par Davidd dans la rubrique SEO & SEM : lu 1249 fois :

Trouvé sur Vox in a blog de Francois Goube, cet article sur SEOmoz qui propose une formule simplifiée de l’algorithme de Google. SEOmoz avait déjà commis un guide très complet et pointus : Le référencement naturel pour débutants, traduit en français par 7 Dragons. Voici la formule de l’algorithme Google que propose Randfish, l'auteur :

GoogScore = (Score Densité de mots clés * 0.3) + (Force du nom de domaine * 0.25) + (Poids des liens entrants * 0.25) + (Statistiques utilisateurs * 0.1) + (Qualité du contenu * 0.1) + (optimisation manuelle) - (Pénalités automatiques ou manuelles)

Au delà des pourcentages approximatifs et les questions d’arbitrage sur la pondération exacte de chaque critère, la méthode est très intéressante et facilite je trouve la compréhension et l’appréhension de quelques-uns des rouages du référencement naturel sur Google.

En 2003, il y avait eu la révélation de la formule de calcul du PageRank, elle pour de vrais :

PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))

Depuis cette publication, l’importance et la fiabilité de la valeur indiquée dans la petite barre verte a pris un sérieux coup chez les référenceurs. Le PageRank n’est plus un critère à prendre en compte en référencement naturel, il n’apparaît d’ailleurs pas non plus dans les critères donnés par SEOmoz. J’ai ajoutés quelques critères en gras et si vous en connaissez d’autres, indiquez-les en commentaire :)

Densité de mots clés :

MC dans la balise title
MC dans la balise description
MC dans le corps du document
MC dans le libellé du maillage interne
MC dans le nom de domaine et/ou l’URL
MC entre balise Hx
MC dans l’attribut ALT

Force du nom de domaine :

Historique du domaine
Ancienneté du nom de domaine
Popularité des liens pointant vers le nom de domaine
Thématique connexe des liens entrants et sortants du domaine
Lien du domaine avec des sites de confiance
Extensions du nom de domaine
Hébergement du nom de domaine

Poids des liens entrants :

Age des liens
Qualité/Pertinence des domaines liés
Qualité/Pertinence des pages liées
Le libellé des liens sur les pages liées
Adéquation des liens avec le thème du site
Liens depuis des sites de confiance

Statistiques utilisateurs :

Historique du taux de clic dans les pages de résultats organiques
Temps passé par l’utilisateur sur la page
Nombre de recherches par URL/nom de domaine
Historique des visites par URL/nom de domaine via un service Google (barre d’outils Google Toolbar, Google Wifi, Google Analytics, etc.)

Qualité des contenus :

Potentiellement écrit à la main pour les recherches et pages populaires
Evaluateur humain Google Eval
Algorithme pour noter la qualité et la lisibilité des contenus
Détection des duplications de contenu
Accessibilité et spécifications W3C

Difficile de résumer tout ceci en une formule simple, c’est pourtant ce que Rand à réussi tout en nous montrant que le référencement naturel est un art, il est empirique car il se base à la fois sur l’expérience utilisateur (que Google intègre de plus en plus) et votre propre expérience vis-à-vis de votre site web, son histoire, sa vie, et son passé aussi.

On me demande souvent comment faire pour être bien référencé sur Google. Au delà de la réponse bloguesque "fais-toi lemeuriser", un article de SEOmoz Blog intitulé "A Little Piece of the Google Algorithm - Released" me semble être la meilleure réponse possible. De manière simple, Randfish tente de comprendre comment fonctionne l'algoritme de Google pour classer les résultats. Voici son équation:

GoogScore = (KW Usage Score * 0.3) + (Domain Strength * 0.25) + (Inbound Link Score * 0.25) + (User Data * 0.1) + (Content Quality Score * 0.1) + (Manual Boosts) - (Automated & Manual Penalties)

KeyWord Usage Factors : il s'agît de l'ensemble des éléments que Google interprète pour définir les poids des mots clés de votre site web : présence du mot clé dans le titre de la page, dans les metatags, dans vos articles, dans votre nom de domaine ou url, et les liens internes pointant vers la page liée au mot clé.

Domain Strenght : on retrouve ici tout ce qui touche à votre nom de domaine : ancienneté du domaine, nombre de liens pointant vers le domaine, historique général du domaine et de ses liens...

Inbound Link Score : Google prend en compte l'âge des liens, la qualité des sites d'où proviennent les liens (d'où l'intérêt d'être lemeuriser... ), la qualité des pages d'où proviennent les liens (évites les pages "liens" présentes sur encore beaucoup de sites), le texte derrière lequel le lien est réalisé (en effet il vaut mieux un lien comme emarketing que ça), et enfin le sujet dont traitent les pages qui vous lient.

User Data : Google parvient également à analyser les comportement des internautes grâce à des outils de tracking (toolobars, analytics, wifi...), aussi a-t-il évidemment la possibilité de modérer ces résultats par des données utilisateurs. On peut également envisager que le moteur de recherche prend en compte le temps passé par les internautes, le nombre de requêtes pour trouver le site, etc...

Content Quality Score : a priori, Google prend également en compte l'accessibilité de votre site, veillez donc à le concevoir dans les rêgles de l'art. L'article parle également d'intervention humaine, mais nous laisserons cela de côté tant le sujet est polémique...

Pour faire bref, pour tous ceux qui veulent savoir comment être mieux trouvés sur Google, pensez bien à donner de la force à votre contenu. Soyez intéressant sur un sujet, on vous lira et liera. Si vous le pouvez choisissez un nom de domaine en rapport avec votre sujet, et rendez votre site accessible. Ce sera déjà un gros chantier...

Update : Je tenais à vous préciser que personne ne connait l'algoritme de Google, néanmoins cette approche permet de comprendre et de mesurer quels sont les principaux éléments à prendre en compte.

http://www.visiref.com/

https://www.google.com/a/cpanel/yumaservices.com/SelectServicesAction

http://www.rankquest.com/tools/Keyword-Density-Analyzer.php

http://www.seomoz.org/

90% du JavaScript reste ignoré par les robots de Google.

http://www.keyword-search-engine.com/

http://www.moklic.com/

http://inventory.overture.com/d/searchinventory/suggestion/?mkt=fr

http://www.google.com/trends

http://suggest.yooda.com/search/mcsim.php?mot=r%E9f%E9rencement&IDM=418

http://www.secrets2moteurs.com/barometre.html

En 2004, une équipe de chercheurs de l'université de Cornell a publié les résultats d'une étude du suivi du regard des internautes dans les pages de résultats de Google (PDF). Ils ont analysé combien de temps ces internautes passent à regarder chaque zone de la page de résultats, et où ils cliquent. Retour sur cette étude...

L'étude a porté sur 397 requêtes effectuées par 26 participants. Voici les résultats exprimés sous la forme d'un graphique dans lequel les couleurs sont choisies en fonction du nombre de clics :

Résultats de l'étude de suivi du regard de Cornell University

La 1ère colonne de chiffres indique le pourcentage moyen de clics effectués sur chaque position (#1 à #10). On constate que le 1er résultat est cliqué environ 4 fois plus que le 2ème résultat ! Même si cette valeur peut en étonner certains, elle n'est pas éloignée de celle que l'on a pu trouver en analysant les données d'AOL cet été, où le rapport était proche de 3.

Le graphique suivant compare les résultats de l'étude de Cornell University et ceux issus des données d'AOL :

Répartition des clics dans les pages de résultats

La 2nde colonne du premier graphique indique le pourcentage moyen de temps passé par les participants à regarder chaque résultat. On constate que les internautes passent presque autant de temps à regarder le 2ème résultat que le 1er, alors qu'ils cliquent 4 fois plus souvent sur le 1er que sur le 2ème... Peut-être veulent-ils vérifier si le 2ème résultat ne leur semble pas plus pertinent que le 1er, et si à la vue du titre et du snippet (description) ils ne sont pas convaincus, ils cliquent sur le 1er résultat, faisant confiance au moteur de recherche qui a classé les résultats ?

L'analyse précise du regard des participants a permis de savoir quels résultats ils regardent avant de cliquer. Le graphique ci-dessous synthétise ces résultats :

Analyse des résultats

Voici comment il faut interpréter ce graphique :

les internautes qui ont cliqué sur le 1er résultat ont regardé en moyenne 1,03 résultat en-dessous. Cela signifie que l'immense majorité de ceux qui ont cliqué sur le 1er résultat n'ont regardé que le 2ème, mais pas les résultats #3 à #10.
les internautes qui ont cliqué sur le 2ème résultat ont regardé en moyenne 0,68 résultat en-dessous et 0,79 résultat au-dessus
les internautes qui ont cliqué sur le 10ème résultat ont regardé en moyenne 5,5 résultats au-dessus

Il semble y avoir un point particulier sur la position #7, peut-être due à quelques résultats de recherche hors-normes. D'ailleurs on peut objecter que cette étude n'est pas assez fiable car elle n'a pas porté sur un nombre de requêtes suffisant, et encore moins pour le nombre de participants.

http://msdewey.com/

https://www.google.fr/webmasters/tools/siteoverview?hl=fr

http://www.google.com/advanced_search?hl=fr

http://www.deboref.com/referencement-gratuit-referencement-automatique.html