myGhostWriter

  • myghostwriter progetto

    Progetto myGhostWriter

    Generazione automatica di contenuti testuali per Social Media Marketing

SINTESI

Il Social Media Marketing è la branca del marketing che si occupa di generare visibilità su Social Media e Comunità Virtuali (Facebook, Twitter, LinkedIn, blog, …), al fine di creare affinità con utenti/consumatori. La pubblicazione di materiale opportunamente scelto è diventato un elemento cruciale nelle strategie di marketing aziendale: serve una attenta preparazione e valutazione della qualità dei contenuti, che devono essere rilevanti, personalizzati, di lunghezza appropriata e ben contestualizzati rispetto a ciò che è già stato pubblicato sul Web o sui Social Media stessi. Da queste premesse scaturisce l’idea alla base del progetto MyGhostwriter.

Il presente progetto si propone infatti di sviluppare una tecnologia innovativa ed all’avanguardia sia nel contesto nazionale che internazionale che verrà utilizzata sia per realizzare un nuovo prodotto sia come integrazione di soluzioni informatiche già esistenti per sopperire alle necessità di chi si occupa della creazione di contenuti orientati al Digital Marketing. In particolare, il presente progetto porterà alla realizzazione di un Sistema Cognitivo che, sfruttando informazioni contenute in grandi collezioni di dati (Big Data), sarà in grado di raggiungere i due seguenti obiettivi progettuali:

  1. Anticipare gli effetti della pubblicazione di un contenuto “valutandone automaticamente la qualità”;
  2. “Generare automaticamente” i contenuti testuali appropriati.

Il primo obiettivo prevede il setup di strumenti per poter valutare la qualità di un contenuto pronto per la pubblicazione, facendo previsioni concrete e contestualizzate sul suo impatto in funzione della linea editoriale impostata.

Il secondo obiettivo si concentra sulla generazione automatica di contenuti testuali, sia dal punto di vista della “riformulazione” e “sintesi automatica” di contenuti esistenti, che dal punto di vista della generazione di testo che descriva informazioni strutturate di interesse per l’utente (tabelle, grafici, …).

MyGhostwriter è motivato dai recenti trend del mercato in ambito Digital Marketing, dove si osservano crescenti aspettative sulla produzione di contenuti personalizzati “customer centric” e su soluzioni basate su algoritmi di Intelligenza Artificiale. La generazione automatica di linguaggio rappresenta una sfida complessa per le tecnologie “state of the art” ma, allo stesso tempo, è un tema di elevato interesse sia per la comunità scientifica che per il mondo dell’industria ed in Italia non osserviamo la presenza di importanti player.

MyGhostwriter nasce nel contesto di QuestIT S.r.l., costituita da personale con esperienze di ricerca in ambito Intelligenza Artificiale e, in particolare, Machine Learning. QuestIT dispone di soluzioni tecnologiche già affacciate sul mercato, come la piattaforma MySnooper, che consente di monitorare molteplici sorgenti informative (Social Network inclusi) e stimare i trend di spicco correlati a brand di interesse o a certi elementi selezionati dalla linea editoriale dell’utente.

Idea alla base del progetto

L’economia digitale, sta vivendo un importante percorso di evoluzione che, partendo da  sistemi principalmente “desktop” (cioè legati all’uso di postazioni fisse), è approdata ad un sistema prima mobile-friendly e poi mobile-first (che in alcuni contesti viene ormai considerato “mobile only”). Questa evoluzione ha portato ad una vera e propria rivoluzione nella comunicazione, ampliando enormemente le possibilità di fruizione di contenuti: sono aumentati i dispositivi, i fruitori ed i canali. Il risultato di questa trasformazione è che al centro della comunicazione abbiamo adesso i contenuti (e di conseguenza la loro produzione) e così il marketing digitale ha la necessità di trasformare se stesso per poter dare una risposta efficace alle esigenze di questo mercato, in cui l’utente finale non può essere più unicamente il destinatario di proposte commerciali, ma diventa un soggetto attivo, che riceve contenuti di suo interesse, contribuendo ad arricchirli ed a condividerli. E in questo modello, detto anche di “Content Marketing”, l’utente è sia consumatore (dei prodotti/servizi correlati ai contenuti promossi) sia promotore.

Una importante difficoltà introdotta da un modello di marketing che mette al centro i contenuti, è quella della produzione dei contenuti stessi. Tali contenuti devono essere sempre attuali, personalizzati, rilevanti. Il modello classico di produzione dei contenuti, quello dell’editoria, legato alla presenza di fonti “autorevoli” (giornalisti, redattori, blogger, etc.), non riesce più a stare al passo con questa sempre crescente fame di contenuti.

Il progetto si propone quindi di studiare e sviluppare Sistemi Cognitivi per la creazione di contenuti orientati al Digital Marketing: dal supporto parziale al completo automatismo redazionale. In particolare, il progetto getta le basi per un nuovo prodotto che è orientato a tutte quelle categorie di utenti che si occupano della stesura di contenuti per Digital Marketing: agenzie e uffici di comunicazione, Social Media Manager, uffici di marketing, etc.

L’azienda Smart Insights, specializzata in Actionable Marketing Advice, nell’elencare i trend che faranno da traino al mercato mondiale in ambito Digital Marketing nel resto del 2017, include Content Marketing, Marketing Automation, e Social Media Marketing nelle prime 5 posizioni (in particolare, Content Marketing è in prima posizione:

http://www.smartinsights.com/managing-digital-marketing/marketing-innovation/digital-marketing-trends-2016-2017/).

Le previsioni per il 2018 e per il 2020, continuano a porre l’enfasi sulla produzione di contenuti personalizzati, “customer centric” e su soluzioni basate su algoritmi di Intelligenza Artificiale: (http://www.smartinsights.com/digital-marketing-strategy/7-major-digital-marketing-trends-2018/, http://www.smartinsights.com/manage-digital-transformation/digital-marketing-2020-glimpse-future/).

L’idea alla base di questo progetto è motivata da tali previsioni di mercato e può essere descritta attraverso due macro categorie di obiettivi fortemente interconnesse, che indichiamo con “valutazione” e “composizione” automatica di contenuti.

Il primo obiettivo del progetto è costruire un sistema in grado di supportare in modo accurato le attività editoriali degli utenti, offrendo loro strumenti automatici per la “valutazione” della qualità e attrattività dei contenuti candidati alla pubblicazione, sia in funzione della propria linea editoriale che in base alle caratteristiche del target di utenti/clienti a cui sono destinati. In questo modo l’utente ha la possibilità non solo di migliorare la qualità dei contenuti pubblicati, ma anche di ridurre i tempi e costi di lavoro, beneficiando del potenziale incremento del ritorno economico generato dalla condivisione di materiale di qualità. Anche le tecnologie che si occupano di “suggerimento” automatico di contenuti pertinenti alla linea editoriale definita possono sfruttare tali meccanismi di “valutazione” per poter vincolare i suggerimenti a criteri più raffinati legati alla qualità dei contenuti ricercati.

In secondo obiettivo del progetto è focalizzato sul processo di “composizione” automatica di contenuti, in particolare “riformulazione” e “sintesi” di testo in linguaggio naturale. Questo è un forte passo avanti verso il completo automatismo redazionale, visto che la piattaforma diventa un provider di strumenti di modifica automatica del linguaggio usato nei contenuti in fase di pubblicazione e uno strumento di generazione automatica di tale linguaggio secondo i piani editoriali e le preferenze predisposte dall’utente (che includono le caratteristiche dell’audience atteso).

Il progetto si contestualizza nell’ambito dell’esperienza che QuestIT ha maturato con il suo prodotto MySnooper (http://www.mysnooper.net/), frutto di anni di lavoro e ricerca in settori come Analisi del Linguaggio Naturale, Web Monitoring, Web Reputation. MySnooper è una piattaforma Web che permette all’utente di monitorare la diffusione online (Social Network inclusi) di temi di interesse, quali marchi, prodotti, competitor, keyword, etc., fornendo “suggerimenti” sui contenuti più correlati a tali temi. La componente di MySnooper per la gestione di contenuti “social” è attualmente usata da oltre 500 utenti abbonati, che comprendono da un lato il parco clienti di MySnooper e dall’altro quello di ADA Social Content, il sistema di gestione social pensato per l’utenza “mobile” e commercializzato da TheDigitalBox SpA (http://www.thedigitalbox.net/).

MySnooper ha consentito a QuestIT di acquisire un grosso bagaglio di esperienze concrete in ambito di mercato e di sviluppare tecnologie proprietarie propedeutiche a questo progetto ed alle sue idee di base. Lo stesso bacino attuale di utenti MySnooper potrebbe anche rappresentare quel segmento di mercato su cui direttamente impiegare i risultati (tecnologia, conoscenze, soluzioni e prodotti) di questo progetto e per questo riteniamo che il progetto possa avere un concreto e rapido impatto sul business dell’azienda.

Stato dell’arte

Figura 1.  Il progetto MyGhostwriter si concentra nelle fasi di Content Evaluation e Generation, sfruttando tecnologie già consolidate in ambito di Content Gathering (MySnooper).

Il progetto si colloca nell’ambito di due delle tre fasi principali nel processo di Content Management che riportiamo in Figura 1: selezione e collezione di contenuti relativi alla linea editoriale impostata dall’utente (Gathering); valutazione delle proposte di pubblicazione in accordo con le specifiche dell’utente (Evaluation); generazione automatica e personalizzata di contenuti da pubblicare (Generation). La prima fase rappresenta un processo abilitante per le altre e per il quale QuestIT dispone già di tecnologie all’avanguardia (MySnooper). Il progetto MyGhostwriter si focalizza invece nelle altre due fasi, che analizzeremo di seguito indicandole con (a) e (b).

(a) La Valutazione Automatica di Contenuti – Automatic Content Evaluation (ACE) – si colloca in quella sezione critica del processo di Digital Marketing in cui ci si appresta a valutare una o più “proposte di contenuti” da pubblicare. ACE rappresenta un elemento essenziale attraverso il quale analizzare le proposte rispetto ad alcuni parametri predefiniti, quali attrattività, capacità di evitare la propagazione di fenomeni di spam, coerenza con il piano di comunicazione, etc.

La letteratura scientifica internazionale presenta una varietà di approcci di valutazione di contenuti, ad esempio per poter quantificare la “viralità” di un contenuto o l’importanza di articoli e news [14,15,16,17,18,19,20,21]. Nel caso di questo progetto, le due tecnologie abilitanti che consideriamo sono la Selezione Automatica di Contenuti – Automatic Content Gathering (ACG) – e Analisi Semantica del Linguaggio Naturale. Il sistema deve infatti poter monitorare le sorgenti informative alla ricerca di contenuti in linea con le direttive dell’utente (il ruolo di ACG) prima di poter “valutare” la qualità e la coerenza del nuovo contenuto candidato per la pubblicazione. Allo stesso tempo, per poter valutare il nuovo contenuto serve modellare una forma di comprensione dello stesso attraverso Analisi Semantica del testo.

La Selezione Automatica di Contenuti – Automatic Content Gathering (ACG) – coinvolge tecniche di Information Retrieval fortemente personalizzabili, che permettano di effettuare ricerche su grandi basi di dati e di costruire un ranking dei risultati più pertinenti rispetto al topic di interesse ed altri vincoli. Ad esempio, si suppone che l’utente possa specificare una serie di attributi descrittivi e vincoli caratteristici della propria linea editoriale, e che il sistema sia in grado di scoprire ed evidenziare contenuti in linea con essi. Per garantire la freschezza dei risultati proposti sono necessarie procedure di Web Monitoring, basate su Analisi Semantica del Linguaggio Naturale, settori nei quali QuestIT ha accumulato un notevole bagaglio di esperienze e tecnologie. In particolare, QuestIT è composta da un team proveniente dal gruppo di ricerca di Intelligenza Artificiale del Dipartimento di Ingegneria dell’Informazione dell’Università di Siena, ed ha un’esperienza più che decennale in ambito di Analisi Semantica del Linguaggio Naturale e di Business Intelligence, sviluppando tecnologie proprietarie all’avanguardia, anche considerando il panorama internazionale. Sfruttando tali tecnologie, QuestIT ha prodotto in questi ultimi anni MySnooper (http://www.mysnooper.net/), un portale Web che permette all’utente di effettuare ACS “monitorando” in modo costante la percezione, la reputazione e la diffusione online (inclusi Social Network) di temi di interesse, quali marchi, prodotti, competitors, keywords, etc.  Parte della tecnologia di MySnooper è inoltre in uso all’interno del prodotto ADA Social Content, un modulo di gestione dei social media da dispositivi mobili, commercializzato da The Digital Box S.p.A. all’interno della piattaforma ADA (http://www.thedigitalbox.net/).

(b) La Generazione Automatica di Linguaggio Naturale – Natural Language Generation (NLG) – è un argomento di elevato interesse all’interno della comunità scientifica internazionale [1] e che ha una ricaduta pratica immediatamente tangibile in ambito aziendale: generare descrizioni testuali, in linguaggio naturale, di collezioni di dati. Nell’era dei Big Data e dei tool per Data Analytics, uno strumento avanzato di NLG rappresenta il modo più diretto ed efficace per descrivere dati e risultati di elaborazioni all’utente, rendendo tali risultati facilmente accessibili. Pensiamo ad esempio ai dati memorizzati nei database di molteplici aziende (coprendo una vasta gamma settori), oppure alle informazioni che possono essere prelevate dal Web o, nello specifico, da Social Network.

Distinguiamo tra sorgenti strutturate e non strutturate. Nel primo caso possiamo immaginare algoritmi che, ad esempio, a partire dai contenuti di una tabella di un database (struttura: schema della tabella) generano descrizioni in linguaggio naturale di contenuti. La struttura può anche includere informazioni relazionali di livello più alto (relazioni). Pensiamo, ad esempio, alla descrizione testuale di alcuni risultati numerici di una serie di operazioni commerciali o al testo che descrive in modo sintetico il grafico con il numero di clienti dell’azienda in un certo periodo di tempo.

Per sorgenti non strutturare consideriamo invece tutte quelle collezioni di testo prive di una struttura che ne organizzi i contenuti (testo “plain”). In questo caso, includiamo nella gamma di approcci di NLG tecniche per la generazione automatica di riassunti di porzioni di testi (Summarizing) [10-11], e tecniche per la ri-formulazione di frasi usando parole / espressioni diverse da quelle originali (Paraphrasing) [12]. Algoritmi basati su Sequence-to-Sequence learning, nati per affrontare problemi di traduzione automatica [13], si stanno diffondendo anche in modelli di generazione di linguaggio per altri task [5], e rappresentano una innovazione radicale, completamente Data Driven, rispetto agli approcci “classici” basati su algoritmi costruiti ad-hoc per affrontare un task specifico. Infatti, l’algoritmo impara automaticamente ad associare sequenze di parole (frasi) in altre sequenze di parole (altre frasi), il tutto sfruttando grosse quantità di sequenze in cui l’associazione è nota (Big Data). Pensiamo, ad esempio, alla riformulazione di contenuti con linguaggio personalizzato rispetto a parametri impostati dall’utente, oppure alla sintesi di brevi articoli in modo da trasformarli in frasi concise e rilevanti, più adatte alla pubblicazione in Social Media.

Nell’ambito dell’Editoria Digitale possiamo facilmente immaginare l’importanza di approcci che siano in grado di generare contenuti testuali a partire da sorgenti informative multiple, tutto questo rispettando criteri editoriali impostati dall’utente. Ancora più nello specifico, il Digital Marketing orientato alla pubblicazione di contenuti studiati al fine di massimizzare il ritorno di immagine di un’azienda o di un prodotto rappresenta una direzione di grande interesse per QuestIT, nel quale NLG ruola un gioco determinante. Tra i parametri della generazione consideriamo anche feature emozionali (Figura 2), per poter personalizzare in modo ancora più significativo il linguaggio generato (pensiamo ad esempio alle differenze nel linguaggio usato per esprimere rabbia oppure ottimismo nel presentare il medesimo contenuto).

Figura 2.  Robert Plutchik – Wheel of Emotions (1980)

L’interesse della comunità scientifica internazionale verso NLG è cresciuto molto negli ultimi anni, soprattutto in ambito Intelligenza Artificiale e, più nello specifico, Apprendimento Automatico (Machine Learning). I recenti progressi ottenuti con tecniche di Deep Learning stanno velocemente mostrando risultati allo stato dell’arte in molteplici task di Natural Language Processing, e anche nel caso di NLG possiamo apprezzare contributi scientifici presso le più note conferenze di Machine Learning e Linguistica Computazionale (“Conference on Neural Information Processing Systems – NIPS”, “International Conference of the Association of Computational Linguistics – ACL”) oltre alla più focalizzata “International Conference on Natural Language Generation” (arrivata alla decima edizione). In [1] è possibile trovare un recente survey sul tema, mentre [2-9] sono alcuni tra i più recenti lavori sul tema basati su tecniche di Apprendimento Automatico.

Negli ultimi anni abbiamo potuto assistere alla nascita ed ascesa di alcuni importanti player in ambito NLG negli Stati Uniti d’America, come Automated Insights, Yseop o Narrative Science (fondata nel 2010), mentre in Inghilterra possiamo trovare Arria NLG (fondata nel 2009, da un gruppo di ricerca della University of Aberdeen). La popolare Gartner, Inc. (research and advisory company, USA) ha recentemente toccato il tema NLG in un articolo interno, dicendo che: “By 2019, natural-language generation will be a standard feature of 90% of modern BI and analytics platforms.”

(http://www.gartner.com/smarterwithgartner/nueral-networks-and-modern-bi-platforms-will-evolve-data-and-analytics/).

Nonostante questo, in Italia non verifichiamo la presenza di importanti player che offrano soluzioni basate su questa tecnologia, nonostante il mercato internazionale di riferimento stia crescendo rapidamente. Aziende molto conosciute in ambito di Analisi Automatica del Linguaggio (in primis, Expert System, Synthema, Celi) non offrono prodotti basati su NLG. Un aspetto che, congiuntamente con quelli già menzionati, sottolinea il carattere innovativo, attraente e tecnologicamente avanzato di questo progetto.

Restiamo in contatto

Acconsento

Acconsento al trattamento dei dati.

  • myghostwriter progetto

    Progetto myGhostWriter

    Generazione automatica di contenuti testuali per Social Media Marketing

SINTESI

Il Social Media Marketing è la branca del marketing che si occupa di generare visibilità su Social Media e Comunità Virtuali (Facebook, Twitter, LinkedIn, blog, …), al fine di creare affinità con utenti/consumatori. La pubblicazione di materiale opportunamente scelto è diventato un elemento cruciale nelle strategie di marketing aziendale: serve una attenta preparazione e valutazione della qualità dei contenuti, che devono essere rilevanti, personalizzati, di lunghezza appropriata e ben contestualizzati rispetto a ciò che è già stato pubblicato sul Web o sui Social Media stessi. Da queste premesse scaturisce l’idea alla base del progetto MyGhostwriter.

Il presente progetto si propone infatti di sviluppare una tecnologia innovativa ed all’avanguardia sia nel contesto nazionale che internazionale che verrà utilizzata sia per realizzare un nuovo prodotto sia come integrazione di soluzioni informatiche già esistenti per sopperire alle necessità di chi si occupa della creazione di contenuti orientati al Digital Marketing. In particolare, il presente progetto porterà alla realizzazione di un Sistema Cognitivo che, sfruttando informazioni contenute in grandi collezioni di dati (Big Data), sarà in grado di raggiungere i due seguenti obiettivi progettuali:

  1. Anticipare gli effetti della pubblicazione di un contenuto “valutandone automaticamente la qualità”;
  2. “Generare automaticamente” i contenuti testuali appropriati.

Il primo obiettivo prevede il setup di strumenti per poter valutare la qualità di un contenuto pronto per la pubblicazione, facendo previsioni concrete e contestualizzate sul suo impatto in funzione della linea editoriale impostata.

Il secondo obiettivo si concentra sulla generazione automatica di contenuti testuali, sia dal punto di vista della “riformulazione” e “sintesi automatica” di contenuti esistenti, che dal punto di vista della generazione di testo che descriva informazioni strutturate di interesse per l’utente (tabelle, grafici, …).

MyGhostwriter è motivato dai recenti trend del mercato in ambito Digital Marketing, dove si osservano crescenti aspettative sulla produzione di contenuti personalizzati “customer centric” e su soluzioni basate su algoritmi di Intelligenza Artificiale. La generazione automatica di linguaggio rappresenta una sfida complessa per le tecnologie “state of the art” ma, allo stesso tempo, è un tema di elevato interesse sia per la comunità scientifica che per il mondo dell’industria ed in Italia non osserviamo la presenza di importanti player.

MyGhostwriter nasce nel contesto di QuestIT S.r.l., costituita da personale con esperienze di ricerca in ambito Intelligenza Artificiale e, in particolare, Machine Learning. QuestIT dispone di soluzioni tecnologiche già affacciate sul mercato, come la piattaforma MySnooper, che consente di monitorare molteplici sorgenti informative (Social Network inclusi) e stimare i trend di spicco correlati a brand di interesse o a certi elementi selezionati dalla linea editoriale dell’utente.

Idea alla base del progetto

L’economia digitale, sta vivendo un importante percorso di evoluzione che, partendo da  sistemi principalmente “desktop” (cioè legati all’uso di postazioni fisse), è approdata ad un sistema prima mobile-friendly e poi mobile-first (che in alcuni contesti viene ormai considerato “mobile only”). Questa evoluzione ha portato ad una vera e propria rivoluzione nella comunicazione, ampliando enormemente le possibilità di fruizione di contenuti: sono aumentati i dispositivi, i fruitori ed i canali. Il risultato di questa trasformazione è che al centro della comunicazione abbiamo adesso i contenuti (e di conseguenza la loro produzione) e così il marketing digitale ha la necessità di trasformare se stesso per poter dare una risposta efficace alle esigenze di questo mercato, in cui l’utente finale non può essere più unicamente il destinatario di proposte commerciali, ma diventa un soggetto attivo, che riceve contenuti di suo interesse, contribuendo ad arricchirli ed a condividerli. E in questo modello, detto anche di “Content Marketing”, l’utente è sia consumatore (dei prodotti/servizi correlati ai contenuti promossi) sia promotore.

Una importante difficoltà introdotta da un modello di marketing che mette al centro i contenuti, è quella della produzione dei contenuti stessi. Tali contenuti devono essere sempre attuali, personalizzati, rilevanti. Il modello classico di produzione dei contenuti, quello dell’editoria, legato alla presenza di fonti “autorevoli” (giornalisti, redattori, blogger, etc.), non riesce più a stare al passo con questa sempre crescente fame di contenuti.

Il progetto si propone quindi di studiare e sviluppare Sistemi Cognitivi per la creazione di contenuti orientati al Digital Marketing: dal supporto parziale al completo automatismo redazionale. In particolare, il progetto getta le basi per un nuovo prodotto che è orientato a tutte quelle categorie di utenti che si occupano della stesura di contenuti per Digital Marketing: agenzie e uffici di comunicazione, Social Media Manager, uffici di marketing, etc.

L’azienda Smart Insights, specializzata in Actionable Marketing Advice, nell’elencare i trend che faranno da traino al mercato mondiale in ambito Digital Marketing nel resto del 2017, include Content Marketing, Marketing Automation, e Social Media Marketing nelle prime 5 posizioni (in particolare, Content Marketing è in prima posizione:

http://www.smartinsights.com/managing-digital-marketing/marketing-innovation/digital-marketing-trends-2016-2017/).

Le previsioni per il 2018 e per il 2020, continuano a porre l’enfasi sulla produzione di contenuti personalizzati, “customer centric” e su soluzioni basate su algoritmi di Intelligenza Artificiale: (http://www.smartinsights.com/digital-marketing-strategy/7-major-digital-marketing-trends-2018/, http://www.smartinsights.com/manage-digital-transformation/digital-marketing-2020-glimpse-future/).

L’idea alla base di questo progetto è motivata da tali previsioni di mercato e può essere descritta attraverso due macro categorie di obiettivi fortemente interconnesse, che indichiamo con “valutazione” e “composizione” automatica di contenuti.

Il primo obiettivo del progetto è costruire un sistema in grado di supportare in modo accurato le attività editoriali degli utenti, offrendo loro strumenti automatici per la “valutazione” della qualità e attrattività dei contenuti candidati alla pubblicazione, sia in funzione della propria linea editoriale che in base alle caratteristiche del target di utenti/clienti a cui sono destinati. In questo modo l’utente ha la possibilità non solo di migliorare la qualità dei contenuti pubblicati, ma anche di ridurre i tempi e costi di lavoro, beneficiando del potenziale incremento del ritorno economico generato dalla condivisione di materiale di qualità. Anche le tecnologie che si occupano di “suggerimento” automatico di contenuti pertinenti alla linea editoriale definita possono sfruttare tali meccanismi di “valutazione” per poter vincolare i suggerimenti a criteri più raffinati legati alla qualità dei contenuti ricercati.

In secondo obiettivo del progetto è focalizzato sul processo di “composizione” automatica di contenuti, in particolare “riformulazione” e “sintesi” di testo in linguaggio naturale. Questo è un forte passo avanti verso il completo automatismo redazionale, visto che la piattaforma diventa un provider di strumenti di modifica automatica del linguaggio usato nei contenuti in fase di pubblicazione e uno strumento di generazione automatica di tale linguaggio secondo i piani editoriali e le preferenze predisposte dall’utente (che includono le caratteristiche dell’audience atteso).

Il progetto si contestualizza nell’ambito dell’esperienza che QuestIT ha maturato con il suo prodotto MySnooper (http://www.mysnooper.net/), frutto di anni di lavoro e ricerca in settori come Analisi del Linguaggio Naturale, Web Monitoring, Web Reputation. MySnooper è una piattaforma Web che permette all’utente di monitorare la diffusione online (Social Network inclusi) di temi di interesse, quali marchi, prodotti, competitor, keyword, etc., fornendo “suggerimenti” sui contenuti più correlati a tali temi. La componente di MySnooper per la gestione di contenuti “social” è attualmente usata da oltre 500 utenti abbonati, che comprendono da un lato il parco clienti di MySnooper e dall’altro quello di ADA Social Content, il sistema di gestione social pensato per l’utenza “mobile” e commercializzato da TheDigitalBox SpA (http://www.thedigitalbox.net/).

MySnooper ha consentito a QuestIT di acquisire un grosso bagaglio di esperienze concrete in ambito di mercato e di sviluppare tecnologie proprietarie propedeutiche a questo progetto ed alle sue idee di base. Lo stesso bacino attuale di utenti MySnooper potrebbe anche rappresentare quel segmento di mercato su cui direttamente impiegare i risultati (tecnologia, conoscenze, soluzioni e prodotti) di questo progetto e per questo riteniamo che il progetto possa avere un concreto e rapido impatto sul business dell’azienda.

Stato dell’arte

Figura 1.  Il progetto MyGhostwriter si concentra nelle fasi di Content Evaluation e Generation, sfruttando tecnologie già consolidate in ambito di Content Gathering (MySnooper).

Il progetto si colloca nell’ambito di due delle tre fasi principali nel processo di Content Management che riportiamo in Figura 1: selezione e collezione di contenuti relativi alla linea editoriale impostata dall’utente (Gathering); valutazione delle proposte di pubblicazione in accordo con le specifiche dell’utente (Evaluation); generazione automatica e personalizzata di contenuti da pubblicare (Generation). La prima fase rappresenta un processo abilitante per le altre e per il quale QuestIT dispone già di tecnologie all’avanguardia (MySnooper). Il progetto MyGhostwriter si focalizza invece nelle altre due fasi, che analizzeremo di seguito indicandole con (a) e (b).

(a) La Valutazione Automatica di Contenuti – Automatic Content Evaluation (ACE) – si colloca in quella sezione critica del processo di Digital Marketing in cui ci si appresta a valutare una o più “proposte di contenuti” da pubblicare. ACE rappresenta un elemento essenziale attraverso il quale analizzare le proposte rispetto ad alcuni parametri predefiniti, quali attrattività, capacità di evitare la propagazione di fenomeni di spam, coerenza con il piano di comunicazione, etc.

La letteratura scientifica internazionale presenta una varietà di approcci di valutazione di contenuti, ad esempio per poter quantificare la “viralità” di un contenuto o l’importanza di articoli e news [14,15,16,17,18,19,20,21]. Nel caso di questo progetto, le due tecnologie abilitanti che consideriamo sono la Selezione Automatica di Contenuti – Automatic Content Gathering (ACG) – e Analisi Semantica del Linguaggio Naturale. Il sistema deve infatti poter monitorare le sorgenti informative alla ricerca di contenuti in linea con le direttive dell’utente (il ruolo di ACG) prima di poter “valutare” la qualità e la coerenza del nuovo contenuto candidato per la pubblicazione. Allo stesso tempo, per poter valutare il nuovo contenuto serve modellare una forma di comprensione dello stesso attraverso Analisi Semantica del testo.

La Selezione Automatica di Contenuti – Automatic Content Gathering (ACG) – coinvolge tecniche di Information Retrieval fortemente personalizzabili, che permettano di effettuare ricerche su grandi basi di dati e di costruire un ranking dei risultati più pertinenti rispetto al topic di interesse ed altri vincoli. Ad esempio, si suppone che l’utente possa specificare una serie di attributi descrittivi e vincoli caratteristici della propria linea editoriale, e che il sistema sia in grado di scoprire ed evidenziare contenuti in linea con essi. Per garantire la freschezza dei risultati proposti sono necessarie procedure di Web Monitoring, basate su Analisi Semantica del Linguaggio Naturale, settori nei quali QuestIT ha accumulato un notevole bagaglio di esperienze e tecnologie. In particolare, QuestIT è composta da un team proveniente dal gruppo di ricerca di Intelligenza Artificiale del Dipartimento di Ingegneria dell’Informazione dell’Università di Siena, ed ha un’esperienza più che decennale in ambito di Analisi Semantica del Linguaggio Naturale e di Business Intelligence, sviluppando tecnologie proprietarie all’avanguardia, anche considerando il panorama internazionale. Sfruttando tali tecnologie, QuestIT ha prodotto in questi ultimi anni MySnooper (http://www.mysnooper.net/), un portale Web che permette all’utente di effettuare ACS “monitorando” in modo costante la percezione, la reputazione e la diffusione online (inclusi Social Network) di temi di interesse, quali marchi, prodotti, competitors, keywords, etc.  Parte della tecnologia di MySnooper è inoltre in uso all’interno del prodotto ADA Social Content, un modulo di gestione dei social media da dispositivi mobili, commercializzato da The Digital Box S.p.A. all’interno della piattaforma ADA (http://www.thedigitalbox.net/).

(b) La Generazione Automatica di Linguaggio Naturale – Natural Language Generation (NLG) – è un argomento di elevato interesse all’interno della comunità scientifica internazionale [1] e che ha una ricaduta pratica immediatamente tangibile in ambito aziendale: generare descrizioni testuali, in linguaggio naturale, di collezioni di dati. Nell’era dei Big Data e dei tool per Data Analytics, uno strumento avanzato di NLG rappresenta il modo più diretto ed efficace per descrivere dati e risultati di elaborazioni all’utente, rendendo tali risultati facilmente accessibili. Pensiamo ad esempio ai dati memorizzati nei database di molteplici aziende (coprendo una vasta gamma settori), oppure alle informazioni che possono essere prelevate dal Web o, nello specifico, da Social Network.

Distinguiamo tra sorgenti strutturate e non strutturate. Nel primo caso possiamo immaginare algoritmi che, ad esempio, a partire dai contenuti di una tabella di un database (struttura: schema della tabella) generano descrizioni in linguaggio naturale di contenuti. La struttura può anche includere informazioni relazionali di livello più alto (relazioni). Pensiamo, ad esempio, alla descrizione testuale di alcuni risultati numerici di una serie di operazioni commerciali o al testo che descrive in modo sintetico il grafico con il numero di clienti dell’azienda in un certo periodo di tempo.

Per sorgenti non strutturare consideriamo invece tutte quelle collezioni di testo prive di una struttura che ne organizzi i contenuti (testo “plain”). In questo caso, includiamo nella gamma di approcci di NLG tecniche per la generazione automatica di riassunti di porzioni di testi (Summarizing) [10-11], e tecniche per la ri-formulazione di frasi usando parole / espressioni diverse da quelle originali (Paraphrasing) [12]. Algoritmi basati su Sequence-to-Sequence learning, nati per affrontare problemi di traduzione automatica [13], si stanno diffondendo anche in modelli di generazione di linguaggio per altri task [5], e rappresentano una innovazione radicale, completamente Data Driven, rispetto agli approcci “classici” basati su algoritmi costruiti ad-hoc per affrontare un task specifico. Infatti, l’algoritmo impara automaticamente ad associare sequenze di parole (frasi) in altre sequenze di parole (altre frasi), il tutto sfruttando grosse quantità di sequenze in cui l’associazione è nota (Big Data). Pensiamo, ad esempio, alla riformulazione di contenuti con linguaggio personalizzato rispetto a parametri impostati dall’utente, oppure alla sintesi di brevi articoli in modo da trasformarli in frasi concise e rilevanti, più adatte alla pubblicazione in Social Media.

Nell’ambito dell’Editoria Digitale possiamo facilmente immaginare l’importanza di approcci che siano in grado di generare contenuti testuali a partire da sorgenti informative multiple, tutto questo rispettando criteri editoriali impostati dall’utente. Ancora più nello specifico, il Digital Marketing orientato alla pubblicazione di contenuti studiati al fine di massimizzare il ritorno di immagine di un’azienda o di un prodotto rappresenta una direzione di grande interesse per QuestIT, nel quale NLG ruola un gioco determinante. Tra i parametri della generazione consideriamo anche feature emozionali (Figura 2), per poter personalizzare in modo ancora più significativo il linguaggio generato (pensiamo ad esempio alle differenze nel linguaggio usato per esprimere rabbia oppure ottimismo nel presentare il medesimo contenuto).

Figura 2.  Robert Plutchik – Wheel of Emotions (1980)

L’interesse della comunità scientifica internazionale verso NLG è cresciuto molto negli ultimi anni, soprattutto in ambito Intelligenza Artificiale e, più nello specifico, Apprendimento Automatico (Machine Learning). I recenti progressi ottenuti con tecniche di Deep Learning stanno velocemente mostrando risultati allo stato dell’arte in molteplici task di Natural Language Processing, e anche nel caso di NLG possiamo apprezzare contributi scientifici presso le più note conferenze di Machine Learning e Linguistica Computazionale (“Conference on Neural Information Processing Systems – NIPS”, “International Conference of the Association of Computational Linguistics – ACL”) oltre alla più focalizzata “International Conference on Natural Language Generation” (arrivata alla decima edizione). In [1] è possibile trovare un recente survey sul tema, mentre [2-9] sono alcuni tra i più recenti lavori sul tema basati su tecniche di Apprendimento Automatico.

Negli ultimi anni abbiamo potuto assistere alla nascita ed ascesa di alcuni importanti player in ambito NLG negli Stati Uniti d’America, come Automated Insights, Yseop o Narrative Science (fondata nel 2010), mentre in Inghilterra possiamo trovare Arria NLG (fondata nel 2009, da un gruppo di ricerca della University of Aberdeen). La popolare Gartner, Inc. (research and advisory company, USA) ha recentemente toccato il tema NLG in un articolo interno, dicendo che: “By 2019, natural-language generation will be a standard feature of 90% of modern BI and analytics platforms.”

(http://www.gartner.com/smarterwithgartner/nueral-networks-and-modern-bi-platforms-will-evolve-data-and-analytics/).

Nonostante questo, in Italia non verifichiamo la presenza di importanti player che offrano soluzioni basate su questa tecnologia, nonostante il mercato internazionale di riferimento stia crescendo rapidamente. Aziende molto conosciute in ambito di Analisi Automatica del Linguaggio (in primis, Expert System, Synthema, Celi) non offrono prodotti basati su NLG. Un aspetto che, congiuntamente con quelli già menzionati, sottolinea il carattere innovativo, attraente e tecnologicamente avanzato di questo progetto.

Restiamo in contatto

Acconsento

Acconsento al trattamento dei dati.