Approccio semiautomatico per riconoscere ironia e humor nei commenti di Facebook

Ironia e humor si possono analizzare nell’ambito di un testo pubblicato sui famosi social network? Le difficoltà non mancano, nuove possibilità sono fornite dalla ricerca sui fenomeni sintattico-semantici dell’italiano giovanile usato in Facebook. Alcuni spunti per creare un approccio semiautomatico al riconoscimento dell’ironia e humor in Facebook sono stati trattati nella tesi di laurea magistrale in Linguistica Teorica, Applicata e delle Lingue Moderne del Dott. Andrea Martocchi presso l’Università degli Studi di Pavia.

Un problema complesso

L’Opinion Mining (OM) fornisce strumenti per l’estrazione automatica di opinioni e valutazioni soggettive da un testo, perciò sta conoscendo un notevole sviluppo in molti ambiti: strategie di marketing, servizi per la cura del cliente, analisi politiche. Un sistema di Opinion Mining deve considerare la presenza di ironia e humor, fenomeni che incidono profondamente nell’interpretazione di un testo scritto e che sono assai frequenti. Infatti, la mancata individuazione della sola ironia verbale (ironia che trasmette un significato opposto a quello letterale) può ridurre del 30% la precisione di un sistema di OM.

La questione, complessa e ancora poco studiata, è complicata dal fatto che ironia e humor dipendono ampiamente da fattori esterni al testo: per esempio, nel caso di un commento di Facebook occorre conoscere il contesto di enunciazione (il contenuto del post a cui il commento si riferisce) e condividere un insieme di conoscenze con l’autore del testo (Common Shared Knowledge), poiché spesso l’ironia evidenzia il sovvertimento di regole e situazioni comuni.

Vantaggi dei modelli integrati

Servono dunque dei modelli integrati che valutino allo stesso tempo fattori linguistici e contestuali; ma questi fattori, specialmente quelli contestuali, variano molto a seconda del tipo di testo e della situazione comunicativa (chi parla, a chi si rivolge, che mezzo usa).

Elaborare una teoria “generale” di ironia e humor applicabile a un algoritmo per fargliele riconoscere in un testo resta altamente improbabile. Un obiettivo più fattibile riguarda modelli ad hoc per individuare ironia e humor, ad esempio, in una determinata comunità online. Ne è un esempio il lavoro descritto nella tesi di laurea di Bernardini, che ha analizzato il comportamento dei commentatori della pagina Il Fatto Quotidiano Online scoprendo che la maggioranza dei commenti ironici sono prodotti da un ristretto gruppo di utenti abituali (+500 commenti sul sito). Bernardini ha combinato questa e altre osservazioni con un sistema di riconoscimento dei segni espliciti di ironia (risate, emoticon, punteggiatura enfatica ecc.); è stato così ottenuto un algoritmo per stabilire la probabilità che un commento sia ironico o meno.

Il rapporto tra comicità e popolarità nell’italiano dell’ignoranza

Lo studio di Bernardini ha una base sociologica (identità e comportamento degli utenti; interazione tra gruppi di utenti abituali) e probabilistica, perché mira a calcolare la probabilità che un commento sia ironico senza nemmeno leggerlo; questi aspetti sono centrali nella ricerca semiautomatica di ironia e humor  svolta in questa tesi di laurea.

Obiettivo primario del lavoro di tesi qui presentato era creare un corpus di commenti di Facebook per studiare l’italiano dell’ignoranza, una forma di italiano giovanile che prevede l’impiego comico/ironico di tratti linguistici del parlato colloquiale e dei dialetti, come la costruzione transitiva del verbo uscire (ho uscito la penna).

Data la definizione dell’italiano dell’ignoranza, occorreva raccogliere commenti che avessero intento comico o ironico. Classificare i commenti manualmente avrebbe significato lavorare su una quantità di dati insufficiente per il tipo di analisi linguistiche da condurre. Per evitare questo problema, è stato ideata una procedura che incrementasse la probabilità di trovare commenti ironici o comici senza leggerli. Il metodo è semiautomatico, poiché prevede sia operazioni manuali che automatiche.

Analisi delle comunità online

Si inizia con la selezione manuale del “dominio”, cioè la ricerca di pagine pubbliche create a scopo di intrattenimento comico, popolari (oltre 200.000 Mi Piace) e frequentate soprattutto da giovani, un esempio è indicato nell’immagine successiva.

esempio di post comico/ironico con il suo commento più popolare
Esempio di post comico/ironico con il suo commento più popolare.

Si osserva che queste pagine (circa una quarantina) sono suddivisibili in due classi in base agli atteggiamenti e alle intenzioni delle rispettive comunità di utenti:

  • pagine post-oriented: gli utenti leggono e condividono in modo “acritico” i post comici pubblicati dalla pagina, i commenti hanno un ruolo marginale e solitamente non contengono testo;
  • pagine comment-oriented: produzione e lettura di commenti comici o ironici sono obiettivi primari; i commenti ritenuti più sagaci sono valorizzati dalla comunità (tramite Mi Piace e reazioni) e sono tra i primi a comparire quando si apre un post.

Una statistica condotta su 50 post per pagina, scelti casualmente, mostra che le pagine tendono a essere costantemente comment-oriented o costantemente post-oriented. Sono state scelte 15 pagine comment-oriented, per le quali vale la corrispondenza “comicità del commento = popolarità”.

Utilizzo di Facepager

La parte automatica del procedimento è svolta da Facepager disponibile su https://github.com/strohne/Facepager , un software che estrae contenuti pubblici sfruttando il Facebook Graph API. Nell’immagine seguente il meccanismo di estrazione dei post dalla pagina Facebook tramite Facepager.

Descrizione dell’estrazione di dati pubblici con Facepager
Descrizione dell’estrazione di dati pubblici con Facepager.

Un pregio di Facepager consiste nello scaricare i commenti a un post secondo l’ordine di relevance («pertinenza, rilevanza» ma anche «popolarità»), ovvero chiedendo al programma 10 commenti per post, vengono scaricati i 10 commenti più “rilevanti”. Il parametro principale (anche se non l’unico) per stabilire la relevance è il numero di Mi Piace/reazioni: per cui, tra i primi 10 commenti ci sarà un’altra probabilità di trovare i commenti con più Mi Piace/reazioni, ossia quelli ritenuti “più comici/ironici” dagli utenti. In questo modo sono stati raccolti oltre 35.000 commenti in cui i tratti dell’italiano dell’ignoranza compaiono molto frequentemente, come riepilogato nell’immagine successiva.

tesiMartocchi3.jpg
Finestra principale di Facepager. La seconda linea indica il post e alcuni dati come il numero di condivisioni (shares.count). Al livello inferiore vi sono i commenti al post: quello con più Mi Piace compare in cima.

Conclusioni: pro e contro del metodo semiautomatico

La procedura ha alcuni difetti: è efficace solo su un dominio prestabilito, la distinzione tra ironia e humor (importante in OM) non è valutabile e vi sono commenti né ironici né comici che però hanno alta relevance (commenti degli admin, commenti con pochi Mi Piace ma molte risposte ecc.).

Ciononostante, si tratta di un metodo efficace sulle pagine selezionate, economico (buona resa con risorse limitate) e applicabile a grandi quantità di dati. Bisogna sottolineare che su Facebook l’osservazione di abitudini e comportamenti delle comunità di utenti è un parametro fondamentale, da unire alle tecniche di social media mining per ottenere modelli integrati sempre più precisi e affidabili.

Bibliografia

– Sull’incidenza di ironia in un sistema di OM:  Sarmento et al. 2009. Automatic creation of a reference corpus for political opinion mining in user-generated content. Proceedings of the 1st international CIKM workshop on topic-sentiment analysis for mass opinion. ACM. 29– 36. Link: https://dl.acm.org/citation.cfm?id=1651468

– Per la ricerca di Bernardini sul Fatto Quotidiano Online: Bernardini, Lorenzo. 2014. Un nuovo parametro per l’individuazione automatica dell’ironia: la fonte dell’enunciato. Tesi di Laurea Magistrale in Linguistica Teorica e Applicata. Pavia: Università di Pavia.

 Martocchi, Andrea. 2017. Transitivizzazione e inaccusativizzazione nell’italiano “dell’ignoranza” su Facebook: creazione e analisi di un corpus di commenti. Tesi di laurea magistrale in Linguistica teorica, applicata e delle lingue moderne. Manoscritto: Università degli Studi di Pavia. Relatrice: prof.ssa Elisabetta Ježek.      

Breve CV dell’autore della tesi di laurea
Andrea Martocchi è nato a Chiavenna (SO) nel 1992, dopo la maturità scientifica ha conseguito la laurea triennale in Lettere Moderne presso l’Università degli Studi di Milano, seguita dalla laurea magistrale in Linguistica Teorica, Applicata e delle Lingue Moderne presso l’Università degli Studi di Pavia, con una tesi su alcuni fenomeni sintattico-semantici dell’italiano giovanile di Facebook.
Si occupa di corpus linguistics e di sociolinguistica applicate a Facebook, di sociofonetica dei dialetti della Valchiavenna (SO) e di alcuni aspetti dell’interazione tra lessico e sintassi nell’italiano contemporaneo. Sta curando un atlante toponomastico del Comune di Piuro (SO) e sta lavorando sull’uso della punteggiatura nei social network. I suoi interessi futuri sono rivolti all’insegnamento superiore e all’attività di ricerca negli ambiti del Social Media Mining, della linguistica teorica e della dialettologia.
Si può contattare su LinkedIn con https://www.linkedin.com/in/andrea-martocchi-230929153/

Andrea Martocchi
Andrea Martocchi