Rankbrain et Algorithme Google : dernières évolutions

L’objectif de Google est de répondre aux internautes, à ses usages (utilisation du mobile, recherches locales ou vocales…) et à ses intentions de recherche : informationnelles ou transactionnelles.

Le défi technique de Google est aussi celui de prendre en charge, organiser et hiérarchisé un nombre de page se développant de manières exponentielles.

Quand on fait appel à un consultant seo, faut il suivre les mises à jour de Google ?

Un bon consultant a normalement déjà anticipé les mises à jour futures et respecter les standards attendus.  Il va en revanche mesurer les impactes et adopter des actions si besoin.

Machine Learning, l’algorithme qui apprend constamment

L’apprentissage machine est une application de l’intelligence artificielle (IA) qui permet aux systèmes d’apprendre et de s’améliorer automatiquement à partir de l’expérience sans être explicitement programmés.

Cela veut dire que le comportement des internautes est mesuré et interprété : CTR, pogostiking, dwell time… ces éléments constitue l’approche SXO

L’apprentissage machine se concentre sur le développement de programmes informatiques qui peuvent accéder à des données et les utiliser pour apprendre par eux-mêmes.

Quels sont les avantages du machine learning en programation informatique ?

Voir la réponse de Google

 

1.      Les différentes évolutions de Google

Les algorithmes de Google décident si votre site web, dont vos articles de blog, se positionnera en première ou en dernière position des résultats de recherche. Ils peuvent faire prospérer votre entreprise, ou l’exposer à d’importants risques financiers si son référencement est pénalisé.

 

Les différentes mises à jour de l’algorithme de google classés par date de déploiement depuis 2010 sont :

  • Caffeine
  • Panda
  • Top heavy
  • Penguin
  • Pirate
  • Exact Match Domain (EMD)
  • Payday
  • Hummingbird – Colibri
  • Pigeon
  • Mobile friendly
  • RankBrain
  • Phantom (ou Quality)
  • Google double la longueur des descriptions
  • August 2018 Core Update
  • June 2019 Core Update
  • Site Diversity Update
  • September 2019 Core Update
  • Bert

Ci-après quelques informations sur les algorithmes de Google parce que la totalité des algorithmes est un secret bien trop gardé.

Cependant, certaines parties de l’algorithme de Google sont régulièrement mises à jour. De plus, les connaître permet d’acquérir une vision globale du SEO, d’analyser l’impact qu’ont certaines de ces mises à jour et, peut-être, aussi de comprendre un peu mieux ce que veulent vraiment dire le webmaster ou l’expert SEO quand il parle de pingouins ou de pandas. De plus cela pourrait en surprendre plus d’un, mais le classement de Google ne repose pas sur un algorithme unique. En réalité, plusieurs algorithmes fonctionnent en parallèle.

2.    Les évolutions Historiques

a.    Caffeine

algorithme caffeine

Déployé en juin 2010, Caffeine est une refonte du système d’indexation de Google. L’algorithme Caffeine permet de crawler puis d’indexer une page instantanément. Avant sa mise en place, Google ne pouvait procéder à l’indexation de pages qu’après avoir extrait, analysé et compris leur contenu. Un processus qui pouvait prendre jusqu’à 30 jours.

En effet, Carrie Grimes, ingénieur logiciel chez Google, nous apprend dans un article que l’ancien index reposait sur différentes couches qui n’étaient pas actualisées simultanément. Ce qui entrainait des délais entre la découverte d’une nouvelle page et sa présentation dans les résultats de recherche. Le nouvel index de recherche analyse le web par petites portions et de manière constante rendant possible l’ajout de nouvelles ressources sans l’utilisation de couches.

Grâce à ce nouveau système qui facilite et augmente la rapidité d’indexation, Google est désormais capable de proposer dans ses résultats de recherche, du contenu et des articles 50% plus récents qu’avant l’implémentation de l’algorithme.

Impact de Caffeine sur le référencement

Officiellement, puisque Caffeine n’est pas une modification de l’alogorithme du moteur de recherche, aucun impact sur le référencement. Cependant, lorsque les données sont indexées plus rapidement et sous une autre forme, la présentation des résultats de recherche change et avec elle le placement des sites internet sur les SERPs.

Voir Plus sur Caffeine

b.    Pandas

algo google panda

L’algorithme Panda est un « filtre de recherche ». Introduit pour la première fois en février 2011, il pénalise le référencement des sites web dont le contenu est de faible qualité. Ce filtre vise essentiellement à lutter contre les sites de contenu, créés uniquement pour le référencement et le spam.

L’algorithme Panda est mis à jour régulièrement pour permettre aux sites précédemment pénalisés de récupérer leur référencement après avoir amélioré la qualité de leur contenu, ou au contraire, pour pénaliser les sites qui ne respectent plus les directives de Google. Lors de son premier déploiement, Panda a eu un impact majeur sur la configuration des résultats de recherche en altérant 12% des SERPs aux États-Unis !

Après la mise à jour 4.2 le 18 Juillet 2015, la qualité du contenu est devenue un facteur de référencement et l’intégration de Panda à l’algorithme principal de Google a été confirmée en janvier 2016. Google n’annonce désormais donc plus les mises à jour de Panda : cet algorithme est constamment pris en compte pour définir le classement d’un site web dans les pages de résultats de recherche.

Impact de Pandas sur le référencement

Quelques catégories de sites qui ont été très atteints par le filtre Panda :

  • Comparateur de prix
  • Annuaire de sociétés
  • Listing de commerçants (hôtels, évènements, restaurants)

c.     Top heavy

L’algorithme Top Heavy a été déployé en janvier 2012, afin de pénaliser le référencement de sites anormalement surchargés en publicités, notamment au-dessus d’une certaine ligne.

Cependant, cette mise à jour mineure n’a eu qu’un impact de 1% sur les résultats de recherche.

Lire plus

d.    Penguin

L’algorithme Penguin est la bête noire des webmasters, dont chaque mise à jour fut très fortement discutée sur le web et entraîna des vagues de panique et de questionnement sur les réseaux sociaux. Les experts pourront le confirmer : à chaque fluctuation des SERPs, la communauté SEO s’affolait en craignant un nouveau changement dans l’algorithme Google dû à Penguin.

Comme Panda, cet algorithme est un filtre de recherche qui fut pour la première fois introduit en avril 2012. Il pénalise le référencement de sites web qui ne respectent pas les directives de Google en matière de création, d’achat ou de réseaux de liens.

Les webmasters pénalisés par Penguin devaient nettoyer leur portfolio de liens en désavouant les liens litigieux. Si ce nettoyage était fait correctement, ils pouvaient espérer récupérer leur référencement d’origine lors de la prochaine mise à jour. Cependant, ce nettoyage fastidieux n’est pas si simple : des mois ou même plusieurs années sont parfois nécessaires avant de pouvoir espérer échapper aux pénalités de référencement de Google.

Le 23 septembre 2016, lors du lancement de la mise à jour 4.0, Google annonça que cette mise à jour serait la dernière. À l’instar de Panda, l’algorithme Penguin a été ajouté dans l’algorithme cœur de Google et il fonctionne maintenant en temps réel.

À présent, la surveillance du portfolio de liens doit donc être un travail constant pour garantir un portfolio de liens sain, qui ne risque pas de pénaliser le référencement de certaines pages.

Qui plus est, l’ajout à l’algorithme principal de Google est une bonne nouvelle, car les webmasters n’auront plus à attendre une nouvelle mise à jour pour pouvoir récupérer leur référencement. En effet, presque deux ans se sont écoulés entre l’avant-dernière mise à jour de l’algorithme et le déploiement de la version 4.0 de Penguin.

Lire plus

e.    Pirate

L’algorithme Pirate est un filtre de recherche déployé en août 2012. Il vise à retirer des SERPs les sites ayant reçu des plaintes pour violation de droits d’auteurs, envoyées via le système DMCA de Google.

Ce filtre est mis à jour de façon régulière afin de faire disparaître les pages qui proposent le téléchargement illégal de films, de séries ou de musique.

f.      Exact Match Domain (EMD)

L’algorithme Exact Match Domain a été déployé en septembre 2012. Il permet d’éviter que des sites de faible qualité soient référencés dans les premiers résultats de recherche, simplement parce que leur nom de domaine correspond à une requête fortement recherchée par les internautes.

En effet, le nom de domaine a une forte influence sur le référencement et certains webmasters avaient trouvé une parade pour améliorer leur référencement, en créant des noms de domaine optimisés à outrance.

Par exemple, avant l’implémentation de cet algorithme, en prenant « www.logiciel-marketing-pas-cher.com » comme nom de domaine, il y avait de fortes chances pour que la page d’accueil de ce site web soit référencée dans les premiers résultats de recherche pour la requête « Logiciel marketing pas cher », même si le contenu de ses pages ne répondait pas forcément aux besoins des internautes. Le déploiement de cet algorithme a permis d’éviter de telles situations.

g.    Payday

Cet algorithme fut déployé en juin 2013. Il vise à améliorer la pertinence des SERPs en supprimant les résultats pour des requêtes très fortement assimilées au spam (sites de jeux en ligne, contenu pour adultes, crédits, contrefaçon…).

h.    Hummingbird (Colibri en français)

Hummingbird a été déployé en septembre 2013. Cet algorithme est l’un des plus importants de Google. Il a eu un fort impact sur la façon dont nous formulons nos recherches. Google a choisi de nommer cet algorithme Hummingbird car, grâce à lui, la recherche devenait précise et rapide.

Grâce à cet algorithme, Google peut dorénavant comprendre une requête ou une phrase dans son ensemble et non plus en fonction d’un ou de quelques mots-clés. Les résultats proposés sont donc de bien meilleure qualité et la recherche a pu devenir plus humaine, grâce à la compréhension de la recherche conversationnelle.

Depuis l’implémentation du nouvel algorithme, il est possible d’obtenir des réponses précises pour des requêtes du type : « Quelle est la boulangerie la plus proche » ou « Quel est le médecin de garde aujourd’hui ». Ce type de recherche était impensable auparavant… Hummingbird aurait-il ouvert la porte aux intelligences artificielles et aux assistants vocaux tels qu’Alexa ou Siri ? Nous verrons dans la suite que cette mise à jour contient l’intelligence artificiel de google qui a optimisé entièrement la manière de comprendre les requêtes de google (Things, not strings).

Lire Plus…

i.       Pigeon

L’algorithme Pigeon fut déployé en juillet 2014, aux États-Unis et en juin 2015 à l’international. Cet algorithme favorise les résultats de recherche locaux pour apporter des solutions plus précises aux requêtes des utilisateurs. Les modifications apportées par cet algorithme sont visibles sur Google et Google Maps.

L’algorithme Pigeon a eu surtout un impact sur les entreprises et business locaux tels que les restaurants, bars ou cabinets de médecins…

j.       Mobile Friendly

Le 21 avril 2015, Google procéda au déploiement de son algorithme Mobile Friendly, qui privilégie le référencement des sites web adaptés au mobile.

Cet algorithme a eu un impact encore plus important que ceux de Penguin ou Panda et il fut même renommé « mobilegeddon » (en référence à l’armageddon) par certains experts SEO : l’Armageddon de la compatibilité mobile.

Cet algorithme a été déployé en temps réel et page par page. Un site pouvait donc conserver un bon référencement global, même si certaines de ses pages n’étaient pas adaptées au format mobile.

Depuis 2015, la compatibilité mobile est une priorité pour Google et un facteur de référencement très important. D’ailleurs, en novembre 2016, Google a annoncé qu’il lancerait son Mobile First Index dans le courant de l’année 2017.

Qu’est-ce que Mobile First Index ? Jusqu’à présent, Google établissait le référencement des sites web en fonction de leur version desktop. Mais le comportement des utilisateurs change et ceux-ci passent plus de temps à surfer sur Internet avec un mobile qu’un ordinateur. Google a donc décidé de prendre en compte la version mobile d’un site web, au détriment de la version bureau afin d’effectuer son référencement.

k.    RankBrain

Rankbrain, lancé au début de l’année 2015, fait en réalité partie de l’algorithme de recherche Hummingbird. Rankbrain est assez particulier et mystérieux, car il s’agirait d’une intelligence artificielle qui serait capable de comprendre le sens de requêtes similaires, mais formulées différemment.

Par exemple, cette intelligence artificielle pourrait comprendre, au fil de son apprentissage, que les requêtes « Barack » et « Mari de Michelle Obama » doivent apporter une réponse similaire qui est « Barack Obama ».

Dans la prolongation de Hummingbird, Rankbrain a pour vocation d’interpréter et de comprendre les recherches les plus abstraites des internautes. Plus important encore, Google a affirmé que Rankbrain faisait partie des trois facteurs de référencement les plus importants (avec la qualité du contenu et les liens).

L’apprentissage de Rankbrain est appliqué sur toutes les recherches, mais il se fait hors ligne. Google l’alimente avec des fichiers de recherches historiques afin qu’il apprenne à faire des prédictions. Ces prédictions sont ensuite testées puis appliquées, si elles s’avèrent être correctes.

Un chapitre entier sera dédié à Rankbrain dans la suite. Nous verrons en détail ce que c’est en réalité, comment il fonctionne, etc.

l.       Phantom (ou Quality)

En mai 2015, la planète SEO s’affolait, car beaucoup de webmasters remarquaient des changements significatifs dans les SERPs. Cependant, lorsque les membres de l’équipe de Google, en charge de la qualité des moteurs de recherche, avaient été interpellés sur Twitter (comme c’est très souvent le cas), ceux-ci répondaient qu’ils n’avaient aucune mise à jour à annoncer.

Les webmasters, convaincus que quelque chose se produisait, décidèrent de nommer cette mise à jour Phantom, en raison de l’absence de réponse de Google, mais des signes évidents de changement.

Quelques semaines plus tard, Google confirma qu’une mise à jour avait effectivement été déployée et qu’elle portait sur la qualité du contenu des sites web. La mise à jour Phantom fut alors rebaptisée « Quality » par Google. Cependant, Google n’a jamais voulu préciser en quoi cette mise à jour était différente de l’algorithme Panda.

Périodiquement, des mises à jour sont remarquées par les experts SEO, mais niées par Google. Il existe donc plusieurs versions de l’algorithme Phantom, baptisées à défaut de meilleur nom, par Phantom 1, 2 ou 3. Cependant leur importance, leurs mécanismes et leur portée restent plus ou moins inconnus.

m. Google double la longueur des descriptions

En novembre 2017, Google a doublé le nombre de caractères affiché dans les descriptions des résultats, passant d’une limite de 160 caractères à une limite de 320 caractères.

Avec cette mise à jour, Google continue à favoriser des phrases complètes et des descriptions qui contiennent suffisamment d’informations pour donner du contexte au lien, afin de mieux orienter l’internaute dans ses recherches. Il est donc possible que le moteur de recherche ne tienne pas compte de votre balise meta-description et coupe ou complète certaines descriptions.

Rappel : Les meta-descriptions ne rentrent pas en compte dans les classements des moteurs de recherche, mais restent essentielles pour inciter vos visiteurs à se rendre sur votre site.

n.    August 2018 Core Update

Lancée le 1er août 2018 en plein cours de l’été, cette Core Update se voit également nommée « Medic Update », et ce, pour plusieurs raisons. Il s’agit d’un format de mise à jour général de l’algorithme, dont les modifications apportées peuvent être plus ou moins importants selon les points qu’elle traite/optimise.

Ici, Google n’a pas plus donné d’indications précises sur ce qui a été apporté au moteur. L’unique communiqué à ce propos évoque le fait de suivre les mêmes conseils génériques que pour la précédente Core Update de mars 2018. Plusieurs spécialistes ont étudié la question de cette mise à jour, car le ranking s’est vu grandement modifié pour plusieurs sites, majoritairement dans :

  • La santé à la grande majorité.
  • La finance et le business.
  • Le secteur du e-commerce.

Plus tard, Google a affirmé que cette Core Update ne concerne pas uniquement les pages YMYL (Your Money Your Life) et les thématiques mentionnées plus haut, en laissant sous-entendre que cela concernait bel et bien tout le monde.

o.    June 2019 Core update

Nouvelle mise à jour majeure de l’algorithme, celle de juin 2019 est plus précisément la première à avoir été officiellement annoncée aux spécialistes par le biais d’un tweet sur Twitter. Dans les faits, ce changement du moteur de recherche s’est vu effectif le 3 juin 2019.

Il s’agit d’une update dont l’objectif est de renforcer les exigences en matière de qualité globale à propos des résultats affichés dans les SERPs, notamment concernant les points suivants :

  • Vitesse de chargement et fluidité de navigation.
  • Couverture globale et pertinente de la thématique concernée.
  • Passage à HTTPS ou encore à un UX/UI full responsive design.

Cette mise à jour avait été un nouveau tournant dans la mise en valeur du contenu type articles de blog de qualité. Les sites de mauvaise qualité voient désormais leur ranking globale diminuer au profit des sites performants, régulièrement nourris avec du contenu bien construit, de qualité et qui répond toujours plus à la requête de l’internaute.

D’un autre côté, cette update diffère de par sa revalorisation dans les SERPs des suggestions de vidéos YouTube au-dessus des résultats de recherche.

p.    Site Diversity Core Update

Cette mise à jour de l’algorithme a été annoncée très peu de temps après la June 2019 Core Update et également lancée au cours de ce même mois de juin 2019. Son nom explicite le principe même des nouvelles règles qu’elle apporte : renforcer la diversité des résultats dans les pages de recherche.

Dans les faits, cette mise à jour vient limiter grandement la possibilité d’avoir plusieurs pages issues d’un même domaine dans les premiers résultats de recherche. Ainsi, sans l’affirmer clairement, Google favorise la concurrence entre les sites, mais aussi facilite le recoupage de sources des particuliers afin d’obtenir des informations toujours plus fiables.

Ce dernier point est donc à mettre en lien avec les critères de sélection du ranking des deux précédentes updates :

  • Un site au contenu structuré, pertinent et fiable.
  • Une expérience de navigation optimale (vitesse de chargement, etc.).
  • Une arborescence de site cohérente et intuitive.

Avec tous ces éléments, Google enterre définitivement des techniques plus ou moins loyales en matière de concurrence, à l’image des pages satellites. Cette méthode consistait à créer une page uniquement pour attirer du trafic issu d’un seul mot-clé ou requête.

q.    September 2019 Core Update

Moins impactant que ses prédécesseurs, ce changement dans le moteur a plus précisément été annoncé sur le Twitter dédié de Google le 24 septembre 2019.

Parmi les principales fluctuations de positionnement, ont été constatées des évolutions sur des sites autrefois moins bien rankés. Autrement dit, cette mise à jour est une revalorisation des résultats précédemment reclus aux positionnements bas dans les SERPs.

De ce fait, Google considère toujours plus chaque résultat existant pour continuer à proposer des SERPs pertinentes avec un contenu de qualité et sûr. Ces sites mal positionnés avaient pu connaître un ralentissement à l’époque de techniques plus abusives pas encore pénalisées par le moteur.

r.     Bert

Acronyme de Bidirectional Encoder Representations from Transformers est annoncée comme la mise à jour la plus importante pour le moteur de recherche de Google depuis 5 ans, BERT a officiellement été déployée en France le 9 décembre 2019, en parallèle du lancement dans de nombreux autres pays.

BERT représente véritablement les prémices d’une intelligence artificielle, à terme, dans le moteur. Cela se traduit par la contextualisation des mots-clés issus d’une requête, non plus considérés individuellement par le moteur, mais dans leur ensemble.

BERT tend à hiérarchiser les termes et expressions d’une requête par importance afin de gagner en compréhension de ce qui est attendu par l’internaute. Celui-ci, utilisant plus que jamais la recherche vocale ou sous forme de question écrite, verra alors les résultats proposés dans les SERPs toujours plus proches de ce qu’il en attendait initialement.

De façon plus détaillée BERT sert aussi à google pour les taches suivantes :

  • Comprendre la cohésion textuelle et enlever toutes ambiguïtés des expressions ou phrases en particulier lorsque des nuances polysémiques pourraient modifier les sens de la recherche
  • Comprendre à quelles entités des pronoms fait référence, c’est particulièrement utile dans les longs paragraphes avec plusieurs entités. La recherche vocale en est une application concrète ;
  • Prédire la phrase suivante
  • Répondre à des questions directement dans les SERP
  • Résoudre les problèmes d’homonymie

L’algorithme de BERT est basé sur les réseaux de neurones et elle a été diffusée en open source en novembre 2018 par Google. Plusieurs variantes de l’algorithme plus ou moins améliorées ont ainsi vu le jour :

  • RoBERTa par Facebook
  • CamemBERT une version française développé par l’INRIA et dérivée de RoBERTa
  • XLNetand ALBERT par Google et Toyota. Sorti en septembre 2019, ALBERT est déjà considéré comme le successeur de BERT, qu’il surpasse dans tous les domaines (notamment en termes de score sur SQuAD 2.0)
  • DistilBERTest une version plus petite, légère et rapide de BERT

Impact de BERT sur le référencement

Comme google l’avait indiqué pour Rankbrain il n’est pas possible d’optimiser pour BERT. C’est pourquoi beaucoup de SEO pensent que BERT est plus une avancée pour Google que pour le référencement.

Selon Google, BERT a un impact sur 10% des recherches (ce chiffre date du lancement avec les requêtes effectuées en anglais aux USA). Cela concerne sans doute moins les requêtes à fort volume constituées de peu de mots.

L’impact sur le ranking pour les mots clés est sans doute bien moins que 10% d’impact, car les requêtes que vous surveillez ne sont sans doute pas formulées en langage naturel

Vous connaissez maintenant un peu mieux tous les éléments qui peuvent influencer vos recherches ou le référencement de votre site web. En revanche, cette liste n’est pas exhaustive, car il existe également Big Daddy, Florida ou Bourbon, des mises à jour de l’algorithme plus anciennes encore.

3.     Rankbrain, une évolution majeure

Plus

La firme Google utilise un système d’intelligence artificielle à apprentissage automatique appelé “Rankbrain” pour l’aider à trier les résultats de ses recherches. Son existence a été publiquement annoncée dans un article de Bloomberg le 26 Octobre 2015, bien que sa date de déploiement exacte ne soit pas connue. Vous vous demandez comment cela fonctionne et comment cela s’intègre dans le système de classement global de Google ? Voici ce que nous savons sur Rankbrain.

Les informations présentées ci-dessous proviennent de plusieurs sources originales et ont été mises à jour au fil du temps, avec des notes indiquant où les mises à jour ont eu lieu. Voici ces sources :

Tout d’abord, l’article de Bloomberg qui a fait connaître Rankbrain. Deuxièmement, des informations supplémentaires que Google a maintenant fournies directement à Search Engine Land. Troisièmement, nos propres connaissances et nos meilleures hypothèses dans les endroits où Google ne fournit pas de réponses et aussi des articles twitter et linkedin des références dans le domaine et des ingénieurs de google. Nous indiquerons clairement où ces sources sont utilisées, lorsque cela sera jugé nécessaire, en dehors des informations générales.

a.    Qu’est-ce que RankBrain ?

Rankbrain est le nom donné par Google à un système d’apprentissage automatique (ou Machine Learning) qui est utilisé pour aider à traiter les résultats de recherche, comme l’a indiqué Bloomberg et comme nous l’a également confirmé Google.

b.    Qu’est-ce que l’apprentissage machine ?

L’apprentissage automatique permet aux programmes informatiques de réaliser des tâches que seuls les humains sont capables d’effectuer avec leurs intelligences ou processus mentaux.

c.     Qu’est-ce que l’intelligence artificielle ?

Selon Larousse :  l’intelligence artificielle est l’ensemble des théories et des techniques mises en œuvre en vue de réaliser des machines capables de simuler l’intelligence

Plus simplement l’intelligence artificielle, ou IA en abrégé, permet à un ordinateur d’être aussi intelligent qu’un être humain, au moins dans le sens où il acquiert des connaissances à la fois en étant enseigné et en s’appuyant sur ce qu’il sait et en établissant de nouvelles connexions. Une telle IA n’existe que dans les romans de science-fiction, bien sûr. En pratique, l’IA est utilisée pour désigner les systèmes informatiques conçus pour apprendre et établir des connexions.

En d’autres termes, l’IA a pour objectif de permettre aux ordinateurs de devenir aussi intelligent que les humains par des approches mathématiques et statistiques.

Autrement dit, ils seront capables :

  • D’apprendre grâce à l’expérience ;
  • D’organiser leur mémoire ;
  • De raisonner afin de résoudre des problèmes d’eux-mêmes.

Pour faire simple, tout commence à partir d’un modèle que la machine va utiliser pour son apprentissage. Généralement, ce modèle est introduit par un humain à partir de certaines données. La machine va utiliser le modèle et les données pour s’entrainer ou résoudre des taches pratiques qui ne sortent pas du cadre de son modèle. Selon les retours sur la qualité de ses réponses ou résultats, le programme réajuste les paramètres et ensuite le modèle.

En définitive, l’apprentissage automatique est l’endroit où un ordinateur ou programme automatique apprend de lui-même à faire quelque chose, plutôt que d’être enseigné par des humains ou de suivre une programmation détaillée. Il arrive souvent que les concepteurs ne comprennent plus complètement comment marche la chose après. C’est ce qui est arrivé d’après les ingénieurs de google qui ne comprennent plus complètement comment fonctionne Rankbrain.

Lire plus sur le sujet

Relation entre Rankbrain et les autres algorithmes

Vous l’avez lu plutôt Rankbrain est une partie de l'”algorithme” de recherche global de Google Hummingbird. Tout comme une voiture a un moteur global. Le moteur lui-même peut être composé de différentes parties, comme un filtre à huile, une pompe à carburant, un radiateur, etc. De la même manière, Hummingbird englobe différentes parties, Rankbrain étant l’une des plus récentes.

Cette conclusion est tirée de l’article de Bloomberg dans lequel Greg Corrado (le sénior auteur de l’article sur l’existence de Rankbrain) indiquait clairement  que Rankbrain prenait seulement en charge les 15% de requêtes que le système de Google n’a jamais encore traité.

 

Il est de ce fait intéressant de se demander pourquoi Google à lancer son machine learning ?

 

Hummingbird contient également d’autres parties dont les noms sont familiers à ceux de l’espace de référencement, comme Panda, Penguin et Payday conçu pour lutter contre le spam, Pigeon conçu pour améliorer les résultats locaux, Top Heavy conçu pour rétrograder les pages à forte publicité, Mobile Friendly conçu pour récompenser les pages adaptées aux mobiles et Pirate conçu pour lutter contre la violation des droits d’auteur.

Rankbrain est différent de PageRank

Le PageRank fait partie de l’algorithme général qui couvre une façon spécifique de donner du crédit aux pages en fonction des liens d’autres pages qui y pointent.

Le PageRank est spécial car c’est le premier nom que Google a donné à l’une des parties de son algorithme de classement, à l’époque où le moteur de recherche a commencé, en 1998.

Qu’en est-il de ces “signaux” que Google utilise pour le classement ?

Les signaux sont des éléments que Google utilise pour déterminer comment classer les pages web. Par exemple, il lira les mots d’une page web, donc les mots sont un signal. Si certains mots sont en gras, cela peut être un autre signal qui est noté (parce que cela voudrait dire que c’est important). Les calculs utilisés dans le cadre du PageRank donnent à une page un score de PageRank qui est utilisé comme un signal. Si une page est notée comme étant adaptée aux mobiles, c’est un autre signal qui est enregistré.

Aujourd’hui Rankbrain est considéré comme le troisième signal le plus important parmi les plus de 200 facteurs de classement de google. Ainsi les trois signaux les plus importants sont :

  • Les backlinks
  • Le contenu
  • Rankbrain

Si vous souhaitez un guide plus visuel des signaux de classement, consultez notre tableau périodique des facteurs de réussite en matière de référencement :

Tableau périodique des facteurs de succès de l’optimisation des moteurs de recherche 2015

 

C’est un bon guide, à notre avis, des choses générales que les moteurs de recherche comme Google utilisent pour aider à classer les pages web.

Rankbrain est l’un des “centaines” de signaux qui entrent dans un algorithme qui détermine quels résultats apparaissent sur une page de recherche Google et où ils sont classés, a déclaré M. Corrado. En quelques mois de déploiement, RankBrain est devenu le troisième signal le plus important contribuant au résultat d’une requête de recherche, a-t-il dit.

 

Pourquoi RANKBRAIN ?

Personnellement nous pensons que les principales raisons pour son lancement sont :

  • Les difficultés d’interprétations des requêtes jamais traitées auparavant ;
  • Le caractère manuel du codage des algorithmes existantes pour y apporter des changements

Les difficultés d’interprétations des requêtes jamais traitées auparavant

A ses débuts, le moteur de recherche se basait principalement sur la présence sur les pages web des mots présents dans une requête pour afficher ses résultats.

Par exemple, si vous recherchez « avocats », le moteur de recherche va s’occuper de fournir les pages qui contiennent ces mots.

De plus, la moindre variation dans les expressions utilisées pouvait conduire à des résultats différents.

Par exemple, le moteur de recherche ne pouvait pas donner les mêmes résultats pour « vêtement » et « vêtements ». Il en va de même pour les requêtes « les meilleures bottes de jardin » et « les meilleures chaussures de jardin ».

Mais le problème ne s’arrête pas. Car ce fonctionnement a donné l’opportunité à certains référenceurs “black hat” de répéter des mots et expressions dans leur contenu pour se retrouver en tête des résultats. Et ceci, même si leur contenu est de mauvaise qualité. Un exemple ici.

Google a beaucoup évolué depuis ce temps. Le moteur de recherche parvient désormais à détecter et punir les sites web qui font usages des pratiques SEO Black Hat avec notamment les algorithmes Penguin et Panda.

Du côté des recherches, la firme a naturellement aussi fait de grands progrès. En effet, le moteur de recherche arrive aujourd’hui de plus en plus à comprendre les requêtes, et à les associer entre elles si elles veulent dire la même chose.

Les mises à jour Hummigbird, Stemming et le Knowledge Graph ont incarné la transition de Google à considérer les mots comme des “entités” et non une simple composition de caractères.

Stemming permet d’appréhender les variations d’un même mot du genre : mangue, manquier, mangues. Le Knowledge Graph quant à lui a été un moyen pour Google de mieux comprendre les relations en les mots du genre lorsque l’on cherche « Paris » l’utilisateur veut probablement chercher les monuments, les activités, les personnes en rapport avec la capitale de la France.

Le caractère manuel du codage des mises à jour des algorithmes

Des statistiques montrent que le moteur doit constamment faire face à des requêtes que personne n’avait jamais encore recherchées. Environ 15% soit près de 870 millions de recherches par jours.

Pour appliquer des modifications à l’algorithme afin d’avoir de meilleurs résultats suivant les requêtes, il fallait manuellement travailler dessus et vu la taille de ces recherches vous comprenez facilement que ce n’est pas chose facile. Alors là pas du tout.

Que fait exactement RankBrain ?

Avec un exemple ce sera plus facile. Imaginez un stagiaire qui réalise environ 5,8 milliards de taches par jours. A chaque tache ses supérieurs donnent des avis sur le travail :

  • C’est parfait : C’est exactement ce que je voulais !
  • Ce n’est pas encore parfait : Il y a encore du boulot à faire dessus ;
  • Non, tu n’as pas résolu la tâche : Je voulais plutôt ceci.

Le stagiaire se souvient bien de toutes les réactions de ses supérieurs pour mieux faire demain, où seulement 15% seront de nouvelles taches. C’est comme cela que marche Rankbrain dans cette analogie où il est le stagiaire et les utilisateurs sont les supérieurs et les recherches les taches à faire.

 

RankBrain, quant à lui, apprend directement de la façon dont nous interagissons avec ses résultats. Gary Illyes de Google le décrit de cette façon : « [RankBrain] examine les données sur les recherches antérieures et en se basant sur ce qui a bien fonctionné pour ces recherches, il essaiera de prédire ce qui fonctionnera le mieux pour une certaine requête.  Cela fonctionne mieux pour les requêtes de longue traîne et les requêtes que nous n’avons jamais vues. »

Par conséquent, le système est complètement autonome et n’a pas besoin qu’on lui indique que tel résultat est mauvais et qu’il faut régler le problème de telle manière.

RankBrain a déjà des critères, notamment les autres signaux de classement, qui lui permettent de savoir si un résultat répond parfaitement à une requête ou non. Il dispose d’une grande base de données d’anciens résultats de recherche qui lui permettent de prendre de bonnes décisions. Ainsi si vous recherchez “baskets”, il pourrait comprendre que vous voulez aussi dire “chaussures de course”. Elle a même acquis quelques notions de base, pour comprendre qu’il y a des pages sur “Apple”, la société technologique, et “Apple”, le fruit.

C’est la raison principale pour laquelle RankBrain a réalisé de plus belles performances que les ingénieurs de Google. RankBrain prédit ce qui fonctionnera le mieux, le teste, et si le changement fonctionne, il le maintien.

RankBrain est-il vraiment utile ?

Bien que les exemples ci-dessus soient loin d’être convaincants pour témoigner de la grandeur de Rankbrain, je crois vraiment qu’il a probablement un grand impact, comme le prétend Google. La société est assez conservatrice en ce qui concerne son algorithme de classement. Elle fait tout le temps de petits tests. Mais elle ne lance de grands changements que lorsqu’elle a un grand degré de confiance.

 

L’intégration de RankBrain, dans la mesure où il est censé être le troisième signal le plus important, est un changement énorme.

RankBrain est-il toujours en train d’apprendre ?

Tout ce que Rankbrain apprend est hors ligne, nous dit Google. Il effectue des lots de recherches historiques et apprend à faire des prédictions à partir de celles-ci.

Ces prédictions sont testées et, si elles s’avèrent bonnes, la dernière version de RankBrain est mise en ligne. Ensuite, le cycle d’apprentissage hors ligne et de test est répété.

RankBrain fait-il plus qu’affiner les requêtes ?

En règle générale, la manière dont une requête est affinée n’est pas considérée comme un facteur ou un signal de classement.

Les signaux sont généralement des facteurs liés au contenu, tels que les mots d’une page, les liens pointant vers une page, le fait qu’une page se trouve sur un serveur sécurisé, etc. Ils peuvent également être liés à un utilisateur, comme le lieu où se trouve un chercheur ou son historique de recherche et de navigation.

Alors, quand Google parle de Rankbrain comme du troisième signal le plus important, cela signifie-t-il vraiment un signal de classement ? Oui. Google nous a confirmé qu’il y a un élément où Rankbrain contribue directement, d’une manière ou d’une autre, au classement d’une page.

 

Rankbrain essaie de comprendre les requêtes en évaluant dans quelle mesure les SERPs antérieurs ont satisfait l’intention du chercheur. La machine learning utilise ensuite ces données pour faire des prédictions sur ce que les gens recherchent vraiment pour la requête.

Ces prédictions proviennent de la vaste compréhension de RankBrain de la façon dont les mots sont reliés entre eux. Ce qui nous amène à la notion de vecteurs de mots.

LES VECTEURS DE MOTS

Nous avons déjà vu que Google se sert du Knowledge Graph pour relier les mots aux concepts qui existent en relation les uns avec les autres.

Source : Yashuseth

Mais cela ne fonctionne qu’avec les informations qui sont présentent dans sa base de données.

Pour aller plus loin avec la machine learning, Google s’est tourné vers les vecteurs de mots puisqu’il avait besoin d’apprendre le sens caché derrière les mots.

Pour que cela soit effectif, Google a développé un outil open source nommé « Word2vec » :

Cet outil utilise l’apprentissage automatique et le traitement du langage naturel afin de comprendre de lui-même la signification réelle des mots.

Exemple Vecteur de Mot

 

Google améliore continuellement son système et les conséquences se font souvent remarquer au niveau du classement des résultats qu’il propose. Il s’agit de l’une des raisons pour lesquelles il est peu probable de conserver une position donnée dans les SERPs.

Les spécialistes du SEO s’efforcent donc de connaître les tendances liées aux différents facteurs qui peuvent affecter le positionnement de leur site web.

C’est le cas de Rankbrain qui continue de profiter d’un certain mystère quant à son fonctionnement et sa relation avec les autres facteurs de classement.