Intelligenza artificiale e analisi del testo macchina

Non ci sono commenti

Cosa utilizza Google Rankbrain per analizzare il contenuto delle pagine? Questa è più una riflessione in relazione ai criteri probabilmente utilizzati da Google , o in relazione ai modelli che conosciamo bene, ad esempio il modello TF-IDF (termine frequenza / frequenza documento inversa).

Il problema è il seguente: è sufficiente imbrattare la tua pagina con un ampio spettro lessicale per acquisire rilevanza per un dato tema? Probabilmente no, anche se alcuni "black hat" sono specializzati nella creazione di siti con poltiglia di parole.

Cercheremo quindi di riflettere un po 'sui pochi modelli di analisi che combinano sintassi e semantica.

Analisi semantica o analisi sintattica?

Prima di tutto, facciamo una piccola distinzione tra sintassi e semantica; i due termini infatti hanno ciascuno una definizione molto precisa.

La semantica si prende cura del contenuto e la sintassi si prende cura della forma. In altre parole, la semantica si occupa del significato delle parole e la sintassi con la loro combinazione all'interno delle frasi.

E per quanto riguarda l'analisi semantica e sintattica? Anche in questo caso è facile disegnare: l'analisi semantica si occupa esclusivamente del significato formato da una parola o da una combinazione di parole, e l'analisi sintattica si concentra sulle posizioni e le relazioni di una parola in relazione a un'altra parola, o un gruppo di frasi. Il contenuto e la forma che ti diciamo!

Vedi, il web non è solo semantico, è anche sposato con la sintassi. Va detto che i due amici condividono un punto in comune importante: la caratterizzazione di un'affermazione nel suo insieme. In sostanza, e senza parlare strettamente del web, ogni unità lessicale ha un potenziale semantico (modulato secondo gli altri elementi lessicali e sintattici circostanti) che partecipa al significato complessivo della frase. Niente di complicato lì; per fare una metafora, diverse perle messe un capo all'altro formano una collana ... Ma una perla da sola non fa una collana (anche se rimane molto carina).

Google tiene conto nei suoi calcoli delle relazioni sintattiche tra parole ed espressioni? Hai indovinato, questo è il punto.

Schema LSA - Analisi semantica latente

Analisi semantica latente e Kintsch

Se sei stato un po 'interessato a questo, dovresti sicuramente conoscere LSA, "Analisi semantica latente" . Questa si chiama semantica vettoriale: ogni parola è associata a un vettore, il tutto in uno spazio multidimensionale. Se questo non ti parla, questo piccolo diagramma dovrebbe essere abbastanza autoesplicativo ->

Improvvisamente, calcolare le distanze di significato tra le diverse parole diventa molto facile (e soprattutto ... molto automatico): basta calcolare il coseno dell'angolo dei diversi vettori. Tuttavia, LSA soffre di un grave problema, vale a dire che i diversi significati di una parola vengono completamente ignorati. Difficile creare un web semantico intelligente in queste condizioni ...

Rendiamolo un po 'più complicato. Nel 2001, Kintsch (un gentiluomo dell'Istituto di scienze cognitive dell'Università del Colorado) ha deciso di arricchire la formula con vettori che non sono più esclusivi delle sole parole, ma di frasi di tipo Nome + Verbo (vediamo quindi la nozione di sintassi vengono visualizzati qui) . In altre parole, il significato preciso di un verbo dipende dal nome a cui è collegato. Per raffinare il tutto, Kintsch utilizza "marker" (scelti da un essere umano, e non da una macchina) che, etichettati con una parola o un'espressione, permettono di interpretare il significato, e questo in relazione ad altri.

La cosa buona è che l'algoritmo di Kintsch affronta quattro principali problemi semantici attuali: metafore, interferenza causale, giudizi simili e disambiguazione. Quel che è peggio è che parte del lavoro viene svolto a mano ... e che richiede risorse considerevoli.

Il lessico generativo di Pustejovsky

Pustejovsky è un insegnante di informatica americano e il suo cavallo di battaglia è l'elaborazione automatica del linguaggio. È lui all'origine del Lessico Generativo, il cui obiettivo è rispondere, tra l'altro, ai problemi di interpretazione delle parole nel loro contesto (ambiguità di significato, polisemia).

Pustejovsky è partito dal principio che i lessici, solitamente enumerativi, non possono spiegare il significato delle parole in un dato contesto. Per ovviare a questo problema, il nostro amico suggerisce di specificare, per ogni unità lessicale, diverse voci (che a loro volta possono avere più significati ...):

La struttura degli argomenti , che specifica il numero e il tipo di argomenti.
La struttura dell'evento , che tenta di descrivere i verbi in termini di processi, stati o transizioni.
La struttura di qualia, che specifica gli attributi della parola, la sua origine, la sua funzione, che la distingue da un dominio più ampio ...
La struttura dell'ereditarietà lessicale. Quest'ultimo è interessante perché tiene conto della posizione della parola in una rete lessicale! Quindi parliamo sempre di sintassi.
Purtroppo, il modello proposto da Pustejovsky incontra due grosse difficoltà: non solo non esiste una metodologia per la costruzione delle varie voci lessicali sopra, ma realizzare un lessico generativo su larga scala è fintanto che è costoso.

Rimuovi la punteggiatura e il significato cambia!

Punteggiatura sacra. Molto spesso omesso, schernito, umiliato (De Gaulle, esci di qui), è tuttavia un elemento primordiale che influisce sia sulla sintassi che sulla semantica. E per una buona ragione: una virgola, un punto e il significato cambiano completamente. Come Wiki dice così bene, la punteggiatura ha tre funzioni:

Indicazioni prosodiche (relazione con accenti e intonazioni del linguaggio orale).
Relazioni sintattiche (come sono collegati e subordinati gli elementi del discorso?).
Informazioni semantiche (quale senso logico collega questi elementi?).
Dai, facciamo un semplice esempio: "Lo spammer dice che Matt Cutts è un miscredente". Due possibili significati per questa frase (suoniamo quindi la semantica):

"Lo spammer", dice Matt Cutts, "è un miscredente".
"Lo spammer dice:" Matt Cutts è un miscredente ".

Qui stiamo raggiungendo i limiti della macchina . Nessun computer (e ancor di più Google) è ancora abbastanza intelligente da cogliere le sottigliezze semantiche di questo tipo di frase, e probabilmente dovremo aspettare un embrione di intelligenza artificiale perché ciò accada.

Ma fidiamoci di Google su questo punto: non c'è dubbio che sapranno sorprenderci negli anni a venire… E forse non piacevolmente.

Testo scritto da Axel dal sito “semantic balisage” nel 2014

Specialista in growthacking ed e-commerce, approfitterai della nostra esperienza per sviluppare i tuoi contatti e il tuo fatturato in tempi record!

    SEOCAmp Parigi 2020
    Case study sul ciclo di Black Hat

    Come autofinanziare la tua startup con un netlinking aggressivo? o la storia del lancio di una piattaforma che senza branding, senza social network, senza partner (marketing) e senza note legali ... ha generato 100.000 € con poche pagine web , buon marketing e buon SEO!

    Ritorno sull'investimento

    Sapevi che la referenziazione di Google è il pilastro centrale della tua comunicazione? Indubbiamente la leva più redditizia attorno alla quale dovrebbero ruotare le tue azioni pubblicitarie a pagamento.

    Preventivo gratuito

    Offriamo servizi SEO professionali che aiutano i siti web ad aumentare notevolmente il loro punteggio di ricerca per competere con le classifiche più alte anche quando si tratta di parole chiave altamente competitive.

    Articoli recenti

    Ricevi un consiglio gratuito alla settimana

    Le nostre ultime novità

    Visualizza tutte le pubblicazioni
    Non ci sono commenti