• Elaborazione del linguaggio naturale NLP

    Ricerca e sviluppo per applicazioni aziendali

Cos’è la NLP

Natural Language Processing (NLP) è un campo di intelligenza artificiale che consente ai computer di analizzare e comprendere il linguaggio umano. In particolare, come programmare i computer per elaborare e analizzare grandi quantità di dati in linguaggio naturale. Le sfide nell’elaborazione del linguaggio naturale implicano spesso il riconoscimento vocale, la comprensione del linguaggio naturale e la generazione del linguaggio naturale. La piattaforma Questit NLP è stata sviluppata per l’analisi testuale.La piattaforma è in grado, dato un input di testo normale, di produrre un oggetto strutturato restituito tramite API come JSON. Questo oggetto è una sorta di testo “avanzato” che contiene campi pieni di informazioni prodotte a diversi livelli di analisi:

  • morfologico
  • sintattico
  • semantico

La piattaforma NLP ha diversi livelli di analisi. Ogni livello eredita le proprietà dell’analisi dal precedente.

In che modo la NLP utilizza le reti neurali profonde

Le reti neurali sono un insieme di algoritmi, modellati liberamente dal cervello umano, progettati per riconoscere i modelli. Interpretano i dati sensoriali attraverso una sorta di percezione della macchina, etichettatura o input grezzo di clustering. Gli schemi che riconoscono sono numerici, contenuti in vettori, in cui tutti i dati del mondo reale devono essere tradotti, che si tratti di immagini, suoni, testo o serie temporali.
La nostra piattaforma NLP utilizza l’architettura e gli algoritmi Deep Learning. L’apprendimento approfondito ha dimostrato di essere efficace nell’area della NLP. Tecniche come la codifica di parti vocali (tagging POS), la generazione di caratteri e gli embeddings di parole di apprendimento sono applicazioni comuni di Deep Learning.

Incorporamento di parole (Word embedding)

Il nome collettivo per un insieme di tecniche di modellazione linguistica e di apprendimento delle caratteristiche nell’elaborazione del linguaggio naturale (NLP) in cui parole o frasi del vocabolario sono mappate a vettori di numeri reali. Concettualmente implica un incorporamento matematico da uno spazio con una dimensione per parola a uno spazio vettoriale continuo con una dimensione molto inferiore.
Word2vec è una rete neurale a due livelli che elabora il testo. Rileva le somiglianze tra le parole matematicamente imparando il contesto nelle parole circostanti. Il suo input è un corpus di testo e il suo output è un insieme di vettori: vettori di feature per le parole in quel corpus. Mentre Word2vec non è una rete neurale profonda, trasforma il testo in una forma numerica che le reti profonde possono comprendere

Layers of analysis

  1. Tokenizer
  2. Sentencer
  3. Lemmatizer
  4. POS Tagger
  5. Collocation Detector
  6. Chunker
  7. WSD
  8. NER
  9. NotNER
  10. SVC/SVO Extractor
  11. Domain Tagger
  12. Main Concepts Extractor
  13. Main Words Extractor
  14. Sentiment Analysis
  15. Quote Extractor
  16. Emotion Analysis

WSD, that is Word Sense Disambiguation which produces the right sense of a word given its context (returns also similar lemmas given that sense);

  1. input:’i put money in the bank’ -> [bank] -> Sense:[a financial institution that accepts deposits and channels the money into lending] , similar lemmas:[depository financial institution, banking company, banking concern]

where these sense IDs have the right semantic defined by similar lemmas:
v:W0000017835: put,place,set,lay,position, pose
n:W0000129954: money
n:W0000078346: bank, banking company, banking concern, depository financial institution

Which splits text into chunks, that is syntagmas 

NERNamed Entity Recognition (NER)

Seeks to locate and classify named entities in text into pre-defined categories such as the names of persons, organizations or locations, Detects entities classified as “Proper Noun” by assigning a label that represents the type of the entity.

NotNER

Like Named Entity Recognition, detects entities classified as “Common Noun” like  expressions of times, quantities, monetary values, percentages etc.

Temporal Expression Extractor

The NLP Platform detects the temporal expression and the IE Platform normalize it in a specific day (day/month/year) using a powerful reasoning engine

WSD, that is Word Sense Disambiguation which produces the right sense of a word given its context (returns also similar lemmas given that sense);

Sentiment Analysis, which detects the sentiment polarity (negative or positive) of the text;

  1. input:’i hate war’ we can see words which have a sentiment:

and we can also get the overall score on the text:

Emotion Analysis, which detects all emotions of the text;

  1. input:’I’m very happy’

we can see words which have an emotion:
and we can also an overall score on the text:

Restiamo in contatto

Acconsento

Acconsento al trattamento dei dati.