La linguistica computazionale per l'ambiente: Crowd for the Environment

L’Autrice, professoressa Johanna Monti, è responsabile scientifica dell’UNIOR NLP Research Group e delegata di Terza Missione dell’Università degli Studi di Napoli “L’Orientale”.

Molti si chiederanno in che modo la linguistica e in particolare la linguistica computazionale possa essere a servizio dell’ambiente. La risposta viene dal progetto PON Crowd for the Environment (C4E): Monitoraggio degli sversamenti illegali attraverso l’impiego sinergico di tecnologie avanzate e delle segnalazioni spontanee del cittadino, coordinato dal CIRA S.c.p.A. e da Analist Group s.r.l., e che vede come partner l’Università degli Studi di Napoli “L’Orientale” con il gruppo di ricerca UNIOR NLP Research Group coordinato dalla prof.ssa Johanna Monti, insieme all’Università degli Studi di Cassino e del Lazio Meridionale, Expert AI S.p.A., Major Bit Consulting s.r.l., AI Tech s.r.l., MapSat s.r.l.

L’idea alla base delle attività del gruppo di ricerca di linguistica computazionale dell’Orientale è che i cittadini possono rappresentare delle antenne sul territorio per la segnalazione di reati ambientali sui social media. I social media infatti costituiscono uno dei mezzi di comunicazione più comuni al giorno d’oggi. L’innumerevole quantità di dati linguistici disponibili su Internet possono essere usati per ottenere informazioni utili per il monitoraggio ambientale e contrastare in questo modo azioni criminali sul territorio. Grazie alla linguistica computazionale, una disciplina che si pone tra la linguistica e l’informatica e che ha come obiettivo la formalizzazione del linguaggio naturale così da poter essere elaborato da algoritmi di intelligenza artificiale, è possibile monitorare i social media per individuare segnalazioni di reati ambientali. Una prima raccolta di dati può essere fatta attraverso gli hashtag (#), ovvero etichette prodotte dai frequentatori e utenti di social media per evidenziare il tema principale dei post. Ma basta l’hashtag per aggregare informazioni intorno al tema dei crimini ambientali? Pensiamo al famigerato hashtag #terradeifuochi usato molto frequentemente su Twitter: nel periodo 2013-2020 considerato dallo studio, l’hashtag è stato menzionato ben 92.322 volte sia per segnalazioni di crimini ambientali (fig.1), così come anche per attacchi personali a personaggi noti, invettive politiche, o generiche opinioni personali.

Per discriminare testi contenenti informazioni relative a crimini ambientali pubblicati sui social media da cittadini, ONG, organizzazioni locali e giornali online, da testi che non sono tali è necessario ricorrere a un’analisi linguistica approfondita che consente di individuarne le salienti caratteristiche linguistiche e stilistiche. L’attività di ricerca realizzata dall’Orientale si è dunque concentrata sullo sviluppo di una metodologia innovativa che integra approfondite analisi linguistiche e testuali con tecnologie per l'elaborazione di grandi quantità di dati e tecnologie di machine learning. Le fasi iniziali del progetto hanno riguardato la costruzione di un corpus testuale, l’UNIOR Eye corpus, costituito da 228.412 tweet in lingua italiana, contenenti menzioni di specifici hashtag e parole chiave. Il corpus è stato poi esaminato da linguisti esperti che hanno individuato le caratteristiche linguistiche e stilistiche proprie dei tweet di denuncia ambientale, in base alle quali si è proceduto ad annotare i testi distinguendo tra ALERT (segnalazioni di crimini ambientali) e NO ALERT. Grazie al corpus annotato è stato possibile addestrare degli algoritmi di Machine Learning in grado di identificare i tweet di ALERT e ricavarne così informazioni preziose per gli addetti alla salvaguardia e monitoraggio ambientale, come ad esempio luogo, ora, tipo di reato. E’ stato infine sviluppato un dimostratore con ottime capacità predittive nella classificazione del tipo di tweet sottoposto all’analisi: il sistema infatti è in grado di individuare correttamente nell’88% dei casi se il tweet analizzato è un ALERT o un NO ALERT. Il dimostratore sviluppato dall’UNIOR NLP Research Group è stato poi integrato in un’applicazione realizzata da Expert.AI, una società leader nel settore dell’Intelligenza Artificiale, che usa tecnologie di estrazione automatica di informazioni strutturate da post testuali, da audiomessaggi e da video mediante algoritmi di Speech Analysis e di Natural Language Processing. A completare la ricerca dell’Orientale grazie alle informazioni
estrapolate da Twitter, è stata realizzata una mappa dei reati ambientali segnalati in Italia, su cui è possibile visualizzare luoghi, frequenza e tipo di reato ambientale, e da cui sorprendentemente emerge che i reati ambientali sono ampiamente diffusi su tutto il territorio nazionale ad eccezione di alcune regioni come Toscana e l’Umbria.

Tutte le informazioni sul progetto sono disponibli alla pagina https://sites.google.com/view/c4e-crowdfortheenvironment/home-page.

In conclusione, le ricerche condotte nell’ambito del progetto C4E dimostrano come l’Intelligenza Artificiale possa avere un impatto positivo sulla società, in questo caso, grazie allo sviluppo di innovazioni tecnologiche che offrono un grande potenziale per la salvaguardia dell’ambiente.