mercredi 15 novembre 2006

tuyaux référencement

L'algorithme de Google enfin dévoilé ?

Trouvé sur Vox in a blog de Francois Goube, cet article sur SEOmoz qui propose une formule simplifiée de l’algorithme de Google. SEOmoz avait déjà commis un guide très complet et pointus : Le référencement naturel pour débutants, traduit en français par 7 Dragons. Voici la formule de l’algorithme Google que propose Randfish, l'auteur :

GoogScore = (Score Densité de mots clés * 0.3) + (Force du nom de domaine * 0.25) + (Poids des liens entrants * 0.25) + (Statistiques utilisateurs * 0.1) + (Qualité du contenu * 0.1) + (optimisation manuelle) - (Pénalités automatiques ou manuelles)

Au delà des pourcentages approximatifs et les questions d’arbitrage sur la pondération exacte de chaque critère, la méthode est très intéressante et facilite je trouve la compréhension et l’appréhension de quelques-uns des rouages du référencement naturel sur Google.

En 2003, il y avait eu la révélation de la formule de calcul du PageRank, elle pour de vrais :

PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))

Depuis cette publication, l’importance et la fiabilité de la valeur indiquée dans la petite barre verte a pris un sérieux coup chez les référenceurs. Le PageRank n’est plus un critère à prendre en compte en référencement naturel, il n’apparaît d’ailleurs pas non plus dans les critères donnés par SEOmoz. J’ai ajoutés quelques critères en gras et si vous en connaissez d’autres, indiquez-les en commentaire :)

Densité de mots clés :

  • MC dans la balise title
  • MC dans la balise description
  • MC dans le corps du document
  • MC dans le libellé du maillage interne
  • MC dans le nom de domaine et/ou l’URL
  • MC entre balise Hx
  • MC dans l’attribut ALT

Force du nom de domaine :

  • Historique du domaine
  • Ancienneté du nom de domaine
  • Popularité des liens pointant vers le nom de domaine
  • Thématique connexe des liens entrants et sortants du domaine
  • Lien du domaine avec des sites de confiance
  • Extensions du nom de domaine
  • Hébergement du nom de domaine

Poids des liens entrants :

  • Age des liens
  • Qualité/Pertinence des domaines liés
  • Qualité/Pertinence des pages liées
  • Le libellé des liens sur les pages liées
  • Adéquation des liens avec le thème du site
  • Liens depuis des sites de confiance

Statistiques utilisateurs :

  • Historique du taux de clic dans les pages de résultats organiques
  • Temps passé par l’utilisateur sur la page
  • Nombre de recherches par URL/nom de domaine
  • Historique des visites par URL/nom de domaine via un service Google (barre d’outils Google Toolbar, Google Wifi, Google Analytics, etc.)

Qualité des contenus :

  • Potentiellement écrit à la main pour les recherches et pages populaires
  • Evaluateur humain Google Eval
  • Algorithme pour noter la qualité et la lisibilité des contenus
  • Détection des duplications de contenu
  • Accessibilité et spécifications W3C

Difficile de résumer tout ceci en une formule simple, c’est pourtant ce que Rand à réussi tout en nous montrant que le référencement naturel est un art, il est empirique car il se base à la fois sur l’expérience utilisateur (que Google intègre de plus en plus) et votre propre expérience vis-à-vis de votre site web, son histoire, sa vie, et son passé aussi.

On me demande souvent comment faire pour être bien référencé sur Google. Au delà de la réponse bloguesque "fais-toi lemeuriser", un article de SEOmoz Blog intitulé "A Little Piece of the Google Algorithm - Released" me semble être la meilleure réponse possible. De manière simple, Randfish tente de comprendre comment fonctionne l'algoritme de Google pour classer les résultats. Voici son équation:

GoogScore = (KW Usage Score * 0.3) + (Domain Strength * 0.25) + (Inbound Link Score * 0.25) + (User Data * 0.1) + (Content Quality Score * 0.1) + (Manual Boosts) - (Automated & Manual Penalties)

  • KeyWord Usage Factors : il s'agît de l'ensemble des éléments que Google interprète pour définir les poids des mots clés de votre site web : présence du mot clé dans le titre de la page, dans les metatags, dans vos articles, dans votre nom de domaine ou url, et les liens internes pointant vers la page liée au mot clé.
  • Domain Strenght : on retrouve ici tout ce qui touche à votre nom de domaine : ancienneté du domaine, nombre de liens pointant vers le domaine, historique général du domaine et de ses liens...
  • Inbound Link Score : Google prend en compte l'âge des liens, la qualité des sites d'où proviennent les liens (d'où l'intérêt d'être lemeuriser... ;-)), la qualité des pages d'où proviennent les liens (évites les pages "liens" présentes sur encore beaucoup de sites), le texte derrière lequel le lien est réalisé (en effet il vaut mieux un lien comme emarketing que ça), et enfin le sujet dont traitent les pages qui vous lient.
  • User Data : Google parvient également à analyser les comportement des internautes grâce à des outils de tracking (toolobars, analytics, wifi...), aussi a-t-il évidemment la possibilité de modérer ces résultats par des données utilisateurs. On peut également envisager que le moteur de recherche prend en compte le temps passé par les internautes, le nombre de requêtes pour trouver le site, etc...
  • Content Quality Score : a priori, Google prend également en compte l'accessibilité de votre site, veillez donc à le concevoir dans les rêgles de l'art. L'article parle également d'intervention humaine, mais nous laisserons cela de côté tant le sujet est polémique...


Pour faire bref, pour tous ceux qui veulent savoir comment être mieux trouvés sur Google, pensez bien à donner de la force à votre contenu. Soyez intéressant sur un sujet, on vous lira et liera. Si vous le pouvez choisissez un nom de domaine en rapport avec votre sujet, et rendez votre site accessible. Ce sera déjà un gros chantier...

Update : Je tenais à vous préciser que personne ne connait l'algoritme de Google, néanmoins cette approche permet de comprendre et de mesurer quels sont les principaux éléments à prendre en compte.

http://www.visiref.com/

https://www.google.com/a/cpanel/yumaservices.com/SelectServicesAction

http://www.rankquest.com/tools/Keyword-Density-Analyzer.php

http://www.seomoz.org/

90% du JavaScript reste ignoré par les robots de Google.

http://www.keyword-search-engine.com/

http://www.moklic.com/

http://inventory.overture.com/d/searchinventory/suggestion/?mkt=fr

http://www.google.com/trends

http://suggest.yooda.com/search/mcsim.php?mot=r%E9f%E9rencement&IDM=418

http://www.secrets2moteurs.com/barometre.html

En 2004, une équipe de chercheurs de l'université de Cornell a publié les résultats d'une étude du suivi du regard des internautes dans les pages de résultats de Google (PDF). Ils ont analysé combien de temps ces internautes passent à regarder chaque zone de la page de résultats, et où ils cliquent. Retour sur cette étude...

L'étude a porté sur 397 requêtes effectuées par 26 participants. Voici les résultats exprimés sous la forme d'un graphique dans lequel les couleurs sont choisies en fonction du nombre de clics :

Résultats de l'étude de suivi du regard de Cornell University

La 1ère colonne de chiffres indique le pourcentage moyen de clics effectués sur chaque position (#1 à #10). On constate que le 1er résultat est cliqué environ 4 fois plus que le 2ème résultat ! Même si cette valeur peut en étonner certains, elle n'est pas éloignée de celle que l'on a pu trouver en analysant les données d'AOL cet été, où le rapport était proche de 3.

Le graphique suivant compare les résultats de l'étude de Cornell University et ceux issus des données d'AOL :

Répartition des clics dans les pages de résultats

La 2nde colonne du premier graphique indique le pourcentage moyen de temps passé par les participants à regarder chaque résultat. On constate que les internautes passent presque autant de temps à regarder le 2ème résultat que le 1er, alors qu'ils cliquent 4 fois plus souvent sur le 1er que sur le 2ème... Peut-être veulent-ils vérifier si le 2ème résultat ne leur semble pas plus pertinent que le 1er, et si à la vue du titre et du snippet (description) ils ne sont pas convaincus, ils cliquent sur le 1er résultat, faisant confiance au moteur de recherche qui a classé les résultats ?

L'analyse précise du regard des participants a permis de savoir quels résultats ils regardent avant de cliquer. Le graphique ci-dessous synthétise ces résultats :

Analyse des résultats

Voici comment il faut interpréter ce graphique :

  • les internautes qui ont cliqué sur le 1er résultat ont regardé en moyenne 1,03 résultat en-dessous. Cela signifie que l'immense majorité de ceux qui ont cliqué sur le 1er résultat n'ont regardé que le 2ème, mais pas les résultats #3 à #10.
  • les internautes qui ont cliqué sur le 2ème résultat ont regardé en moyenne 0,68 résultat en-dessous et 0,79 résultat au-dessus
  • les internautes qui ont cliqué sur le 10ème résultat ont regardé en moyenne 5,5 résultats au-dessus

Il semble y avoir un point particulier sur la position #7, peut-être due à quelques résultats de recherche hors-normes. D'ailleurs on peut objecter que cette étude n'est pas assez fiable car elle n'a pas porté sur un nombre de requêtes suffisant, et encore moins pour le nombre de participants.

http://msdewey.com/

https://www.google.fr/webmasters/tools/siteoverview?hl=fr

http://www.google.com/advanced_search?hl=fr

http://www.deboref.com/referencement-gratuit-referencement-automatique.html

Aucun commentaire: