Intelligence Artificielle et Analyse de texte par des machines

12 mai 2020
SXO : SEO Marketing

No Comments

Rate this post

Qu’est ce que Google Rankbrain met en oeuvre pour analyser le contenu des pages ? Il s’agit ici plus d’une réflexion par rapport aux critères vraisemblablement utilisés par Google, ou par rapport aux schémas que l’on connait bien, par exemple le modèle TF-IDF (term frequency / inverse document frequency).

La problématique est la suivante : barbouiller sa page d’un large spectre lexical suffit-il à acquérir de la pertinence pour une thématique donnée ? Probablement pas, bien que certains « black hat » se fasse une spécialité de créer des sites avec de la bouillie de mots.

On va donc essayer de réfléchir un peu aux quelques modèles d’analyse mêlant syntaxe et sémantique.

Analyse sémantique ou analyse syntaxique ?

Avant tout, faisons un petit distinguo entre syntaxe et sémantique ; les deux termes disposent en effet chacun d’une définition bien précise.

La sémantique s’occupe du fond, et la syntaxe de la forme. En d’autres termes, la sémantique s’intéresse au sens des mots, et la syntaxe à leur combinaison au sein des phrases.

Alors quid de l’analyse sémantique et syntaxique ? Là encore, c’est simple à piger : l’analyse sémantique s’occupe exclusivement du sens formé par un mot ou une combinaison de mots, et l’analyse syntaxique se focalise sur les positions et les relations d’un mot par rapport à un autre mot, ou à un groupe de phrases. Le fond et la forme qu’on vous dit !

Vous voyez, le web n’est pas seulement sémantique, il est aussi marié à la syntaxe. Il faut dire que les deux compères partagent un important point commun : la caractérisation d’un énoncé dans sa globalité. Fondamentalement, et sans strictement parler web, chaque unité lexicale possède un potentiel sémantique (modulé selon les autres éléments lexicaux et syntaxiques aux alentours) qui participe au sens global de la phrase. Rien de compliqué là-dedans ; pour faire une métaphore, plusieurs perles mises bout à bout forment un collier… Mais une perle seule ne fait pas un collier (quoique, ça reste très joli).

Google prend-il en compte dans ses calculs les relations syntaxiques entre les mots et expressions ? Vous avez deviné, c’est toute la question.

Schema LSA – L’Analyse Sémantique Latente

L’analyse sémantique latente et Kintsch

Si vous vous êtes intéressé un peu à la chose, vous devez certainement connaître le LSA, « l’analyse sémantique latente ». C’est ce qu’on appelle de la sémantique vectorielle : chaque mot se voit associer un vecteur, le tout dans un espace multidimensionnel. Si ça ne vous parle pas, ce petit schéma devrait être assez explicite ->

Du coup, calculer les proximités de sens entre les différents mots devient très facile (et surtout… très automatique) : il suffit de calculer le cosinus de l’angle des différents vecteurs. Le LSA souffre néanmoins d’un problème majeur, à savoir que les différentes significations d’un mot ne sont absolument pas prises en compte. Difficile de faire du web sémantique intelligent dans ces conditions…

Faisons un peu plus compliqué. En 2001, Kintsch (un monsieur de l’Institut des Sciences Cognitives à l’université du Colorado) a décidé d’enrichir la formule avec des vecteurs qui ne soient plus exclusifs aux seuls mots, mais à des phrases du type Nom + Verbe (on voit donc ici apparaître la notion de syntaxe). En d’autres termes, la signification précise d’un verbe dépend du nom auquel il est rattaché. Pour peaufiner le tout, Kintsch utilise des « marqueurs » (choisis par un humain, et non par une machine) qui, étiquetés à un mot ou à une expression, permettent d’en interpréter le sens, et ce par rapport à d’autres marqueurs.

Ce qu’il y a de bien, c’est que l’algorithme de Kintsch permet d’aborder quatre grands problèmes sémantiques actuels : les métaphores, les interférences de causalité, les jugements similaires et les homonymies. Ce qu’il y a de moins bien, c’est qu’une partie du travail est fait à la main… et que cela requiert des ressources considérables.

Le lexique génératif de Pustejovsky

Pustejovsky est un prof américain d’informatique, et son dada, c’est le traitement automatique des langues. C’est lui qui est à l’origine du Lexique Génératif, dont l’objectif est de répondre, entre autres, aux problèmes d’interprétation des mots dans leur contexte (ambigüité de sens, polysémie).

Pustejovsky est parti du principe que les lexiques, habituellement énumératifs, ne peuvent pas rendre compte du sens des mots dans un contexte donné. Pour pallier à ce problème, notre ami propose de spécifier, pour chaque unité lexicale, différentes entrées (qui elles-mêmes peuvent avoir plusieurs sens…) :

La structure argumentale, qui spécifie le nombre et le type d’arguments.
La structure évènementielle, qui s’attache à décrire les verbes en termes de processus, d’états ou de transitions.
La structure de qualia, qui spécifie les attributs du mot, son origine, sa fonction, ce qui le distingue d’un domaine plus large…
La structure d’héritage lexical. Cette dernière est intéressante parce qu’elle prend en compte la position du mot dans un réseau lexical ! On cause donc toujours syntaxe.
Malheureusement, le modèle proposé par Pustejovsky se heurte à deux grosses difficultés : non seulement il n’existe pas de méthodologie pour la construction des différentes entrées lexicales ci-dessus, mais réaliser un lexique génératif à grande échelle est aussi long que coûteux.

Enlevez la ponctuation, et le sens change !

Sacrée ponctuation. Bien souvent omise, bafouée, humiliée (De Gaulle, sortez d’ici), il s’agit pourtant d’un élément primordial impactant aussi bien la syntaxe que la sémantique. Et pour cause : une virgule, un point, et le sens change de tout au tout. Comme le dit si bien Wiki, la ponctuation a trois fonctions :

Les indications prosodiques (rapport aux accents et intonations de la langue orale).
Les rapports syntaxiques (comment sont liés et subordonnés entre eux les éléments du discours ?).
Les informations sémantiques (quel sens logique lie ces éléments ?).
Allez, prenons un exemple simple : « Le spammeur dit Matt Cutts est un mécréant ». Deux sens possibles à cette phrase (on fait donc jouer la sémantique) :

« Le spammeur, dit Matt Cutts, est un mécréant ».
« Le spammeur dit : « Matt Cutts est un mécréant ».

Nous touchons là aux limites de la machine. Aucun ordinateur (et à fortiori Google) n’est encore assez intelligent pour saisir les subtilités sémantiques de ce genre de phrase, et il faudra sans doute attendre un embryon d’intelligence artificielle pour que cela arrive.

Mais faisons confiance à Google sur ce point : nul doute qu’ils sauront nous surprendre dans les années à venir… Et peut-être pas agréablement.

Texte écrit par Axel du site « balisage sémantique » en 2014

Spécialiste en growthacking et en e-commerce, vous profiterez de notre expérience pour développer vos contacts et votre chiffre d'affaires en un temps record !

SEOCAmp Paris 2020
Étude de cas du cycle Black Hat

Comment autofinancer sa startup avec un netlinking agressif ? ou l’histoire du lancement d'une plateforme qui sans branding, sans réseaux sociaux, sans partenaires (marketing) et sans mentions légales... a générer 100 000€ avec seulement quelques pages web, un bon marketing et un bon SEO !

Retour sur Investissement

Saviez vous que le référencement google est le pilier central de votre communication ? Sans aucun doute le bras de levier le plus rentable autour duquel doivent s'articuler vos actions publicitaires payantes.

Audit SEO

Devis gratuit

Nous offrons des services de référencement professionnel qui aident les sites Web à augmenter considérablement leur score de recherche afin de concourir avec les classements les plus élevés, même en ce qui concerne les mots-clés hautement compétitifs.

Devis

Recevez un conseil gratuit par semaine

Nos dernières actus

Voir toutes les publications

Référencement de Centres de Formation : étude de cas

Aujourd’hui, qu’il s’agisse d’un établissement public ou d’une entreprise à but lucratif,…

Le Cocon Sémantique : Onsite, Onpage, Offsite… tous les Secrets

Tout le monde a entendu parler du cocon sémantique comme LA méthode…

Secrets de Ligne Éditoriale SEO avec Christian Méline

Une discussion passionnante avec Christian qui nous partagera sa méthodologie de travail…

Noms de Domaines SEO Vs Branding : EMD, TLD Exotiques & Focus .fr

De nombreuses personnes demandent à des consultants seo si un Nom De…

Agence web

Bref, une agence digitale fonctionne comme un orchestre : comme différents musiciens,…

Quelle Plate-forme de netlinking choisir ?

Comment faire une campagne de netlinking ? Comment créer une campagne Netlinking…

Netlinking.fr

Est-ce qu'une stratégie est obligatoire ? Un entrepreneur doit nécessairement appliquer une…

Quels sont les éléments importants pour optimiser le référencement naturel du site ?

Comment choisir ses mots-clés pour le référencement ? Je vous donne une…

Toutes les publications

No Comments

caudron christelle

15:18 05 Apr 20

Merci Nicolas pour cette formation Référencement Ecommerce et Ebusiness de très grande qualité, avec des exemples concrets.

Aurélien Denis

13:42 05 Apr 20

Derrière le flegme du surfeur se cache un professionnel aguerri aux techniques de webmarketing avancées qui vous permettront de surclasser vos... concurrents. Nicolas est un professionnel que je recommande !plus

David Perot

11:44 05 Apr 20

Une vision complète des enjeux digitaux. Merka-TIC nous offert un vrai soutien pour mettre en place notre visibilité digitale. Je recommande.

berthomieu claire

10:42 05 Apr 20

Les services de Merka-Tic m'ont permis de démarrer une activité avec un niveau de référencement google élevé. je leur suis très reconnaissante. Je... recommande sans hésiter. Merci Merka-Tic!!plus

DIM E

08:51 05 Apr 20

Un professionnel consciencieux. Une expertise poussée dans le référencement naturel, qui donnera un coup de pouce à votre entreprise.

Philippe Blanc

08:42 05 Apr 20

Nicolas Mercadieu est un spécialiste du référencement web. Si vous avez un site ou ou boutique en ligne à booster, n’hésitez pas à faire appel à lui.

FREDERIC PASCAL

08:37 05 Apr 20

Merci à Merka-TIC pour la pertinence des conseils. Très efficace pour être référencé rapidement. 👍

ronan auger

14:42 14 Jan 19

Merka-TIC a parfaitement positionné mon site internet, et ce en un temps record. Je suis totalement satisfait de son travail, d'autant plus en... comparaison avec les autres agences avec lesquelles j'ai travaillé.plus

Intelligence Artificielle et Analyse de texte par des machines

Analyse sémantique ou analyse syntaxique ?

L’analyse sémantique latente et Kintsch

Le lexique génératif de Pustejovsky

Enlevez la ponctuation, et le sens change !

SEOCAmp Paris 2020
Étude de cas du cycle Black Hat

Retour sur Investissement

Devis gratuit

Articles récents

Recevez un conseil gratuit par semaine

Nos dernières actus

Référencement de Centres de Formation : étude de cas

Le Cocon Sémantique : Onsite, Onpage, Offsite… tous les Secrets

Secrets de Ligne Éditoriale SEO avec Christian Méline

Noms de Domaines SEO Vs Branding : EMD, TLD Exotiques & Focus .fr

Agence web

Quelle Plate-forme de netlinking choisir ?

Netlinking.fr

Quels sont les éléments importants pour optimiser le référencement naturel du site ?

+33619036906

Lundi - Vendredi 9h00 - 18h00

Recevez un conseil gratuit par semaine

Intelligence Artificielle et Analyse de texte par des machines

Analyse sémantique ou analyse syntaxique ?

L’analyse sémantique latente et Kintsch

Le lexique génératif de Pustejovsky

Enlevez la ponctuation, et le sens change !

SEOCAmp Paris 2020Étude de cas du cycle Black Hat

Retour sur Investissement

Devis gratuit

Articles récents

Recevez un conseil gratuit par semaine

Nos dernières actus

Lundi - Vendredi 9h00 - 18h00

Recevez un conseil gratuit par semaine

SEOCAmp Paris 2020
Étude de cas du cycle Black Hat