Inteligencia artificial y análisis de texto automático

Sin comentarios

¿Qué utiliza Google Rankbrain para analizar el contenido de las páginas? Esto es más una reflexión en relación con los criterios probablemente utilizados por Google , o en relación con los esquemas que conocemos bien, por ejemplo, el modelo TF-IDF (frecuencia de término / frecuencia de documento inverso).

La problématique est la suivante : barbouiller sa page d’un large spectre lexical suffit-il à acquérir de la pertinence pour une thématique donnée ? Probablement pas, bien que certains “black hat” se fasse une spécialité de créer des sites avec de la bouillie de mots.

Por tanto, intentaremos reflexionar un poco sobre los pocos modelos de análisis que combinan sintaxis y semántica.

¿Análisis semántico o análisis sintáctico?

En primer lugar, hagamos una pequeña distinción entre sintaxis y semántica; de hecho, los dos términos tienen cada uno una definición muy precisa.

La semántica se encarga del contenido y la sintaxis se encarga de la forma. En otras palabras, la semántica se ocupa del significado de las palabras y la sintaxis de su combinación dentro de las oraciones.

Entonces, ¿qué pasa con el análisis semántico y sintáctico? Aquí, de nuevo, es fácil de dibujar: el análisis semántico se ocupa exclusivamente del significado formado por una palabra o una combinación de palabras, y el análisis sintáctico se centra en las posiciones y relaciones de una palabra en relación con otra palabra, o un grupo de frases. ¡El contenido y la forma te lo contamos!

Verá, la web no es solo semántica, también está unida a la sintaxis. Hay que decir que los dos amigos comparten un punto importante en común: la caracterización de un enunciado en su conjunto. Básicamente, y sin hablar estrictamente de la web, cada unidad léxica tiene un potencial semántico (modulado de acuerdo con los demás elementos léxicos y sintácticos circundantes) que participa en el significado general de la oración. Nada complicado allí; para hacer una metáfora, varias perlas colocadas de punta a punta forman un collar… Pero una perla sola no hace un collar (aunque sigue siendo muy bonito).

¿Google tiene en cuenta en sus cálculos las relaciones sintácticas entre palabras y expresiones? Adivinaste, ese es el punto.

Esquema LSA: análisis semántico latente

Análisis semántico latente y Kintsch

Si ha estado un poco interesado en esto, seguramente debe conocer LSA, "Análisis semántico latente" . Esto se llama semántica vectorial: cada palabra está asociada con un vector, todo en un espacio multidimensional. Si eso no le atrae, este pequeño diagrama debería ser bastante autoexplicativo ->

De repente, calcular las proximidades de significado entre las distintas palabras se vuelve muy fácil (y sobre todo ... muy automático): basta con calcular el coseno del ángulo de los diferentes vectores. Sin embargo, LSA tiene un problema importante, a saber, que los diferentes significados de una palabra no se tienen en cuenta en absoluto. Difícil hacer una web semántica inteligente en estas condiciones ...

Hagámoslo un poco más complicado. En 2001, Kintsch (un señor del Instituto de Ciencias Cognitivas de la Universidad de Colorado) decidió enriquecer la fórmula con vectores que ya no son exclusivos solo de palabras, sino de oraciones del tipo Nombre + Verbo ( por tanto, vemos aparecer aquí la noción de sintaxis) . En otras palabras, el significado preciso de un verbo depende del sustantivo al que se adjunta. Para pulirlo todo, Kintsch utiliza "marcadores" (elegidos por un ser humano y no por una máquina) que, etiquetados con una palabra o una expresión, permiten interpretar el significado, y esto en relación con los demás. marcadores.

Lo bueno es que el algoritmo de Kintsch aborda cuatro grandes problemas semánticos actuales: metáforas, interferencia causal, juicios similares y desambiguación. Lo que es menos bueno es que parte del trabajo se hace a mano ... y requiere recursos considerables.

Léxico generativo de Pustejovsky

Pustejovsky es un profesor de informática estadounidense y su caballo de batalla es el procesamiento automático del lenguaje. Es él quien está en el origen del Léxico Generativo, cuyo objetivo es responder, entre otras cosas, a los problemas de interpretación de las palabras en su contexto (ambigüedad de significado, polisemia).

Pustejovsky partió del principio de que los léxicos, generalmente enumerativos, no pueden explicar el significado de las palabras en un contexto dado. Para superar este problema, nuestro amigo sugiere especificar, para cada unidad léxica, diferentes entradas (que a su vez pueden tener varios significados ...):

La estructura de argumentos, que especifica el número y tipo de argumentos.
La estructura del evento, que intenta describir los verbos en términos de procesos, estados o transiciones.
La estructura de los qualia, que especifica los atributos de la palabra, su origen, su función, que la distingue de un dominio más amplio ...
La estructura de herencia léxica . ¡Esto último es interesante porque tiene en cuenta la posición de la palabra en una red léxica! Entonces siempre hablamos de sintaxis.
Lamentablemente, el modelo propuesto por Pustejovsky tropieza con dos grandes dificultades: no solo no existe una metodología para la construcción de las distintas entradas léxicas anteriores, sino que realizar un léxico generativo a gran escala es tan largo como caro.

Elimina la puntuación y el significado cambia.

Puntuación sagrada. Muy a menudo omitido, ridiculizado, humillado (De Gaulle, lárgate de aquí), es sin embargo un elemento primordial que impacta tanto en la sintaxis como en la semántica. Y por una buena razón: una coma, un punto y el significado cambia por completo. Como bien dice Wiki, la puntuación tiene tres funciones:

Indicaciones prosódicas (relación con acentos y entonaciones del lenguaje oral).
Relaciones sintácticas (¿cómo están vinculados y subordinados los elementos del habla?).
Información semántica (¿qué sentido lógico vincula estos elementos?).
Vamos, tomemos un ejemplo simple: "Spammer dice que Matt Cutts es un incrédulo". Dos posibles significados para esta oración (por lo tanto, jugamos la semántica):

"El spammer", dice Matt Cutts, "es un incrédulo".
“El spammer dice, 'Matt Cutts es un incrédulo'.

Aquí estamos llegando a los límites de la máquina . Ninguna computadora (y más aún Google) es lo suficientemente inteligente como para captar las sutilezas semánticas de este tipo de oración, y probablemente tendremos que esperar a que un embrión de inteligencia artificial suceda.

Pero confiemos en Google en este punto: sin duda podrán sorprendernos en los próximos años… Y quizás no gratamente.

Texte écrit par Axel du site “balisage sémantique ” en 2014

Especialista en growthacking y e-commerce, ¡te beneficiarás de nuestra experiencia para desarrollar tus contactos y tu facturación en un tiempo récord!

    SEOCAmp París 2020
    Estudio de caso de Black Hat Cycle

    ¿Cómo autofinanciar su startup con netlinking agresivo? o la historia del lanzamiento de una plataforma que sin branding, sin redes sociales, sin partners (marketing) y sin avisos legales ... generó 100.000 € con solo unas pocas páginas web , buen marketing y buen SEO!

    Retorno de la inversión

    ¿Sabías que la referencia a Google es el pilar central de tu comunicación? Sin duda el apalancamiento más rentable en torno al cual deben girar tus acciones publicitarias pagas.

    Cotización Gratis

    Ofrecemos servicios profesionales de SEO que ayudan a los sitios web a aumentar drásticamente su puntaje de búsqueda para competir con las clasificaciones más altas, incluso cuando se trata de palabras clave altamente competitivas.

    Reciba un consejo gratis por semana

    Nuestras ultimas noticias

    Ver todas las publicaciones
    Sin comentarios