Stimare le intenzioni di voto con Twitter? Si può fare, ma con metodo

Da quando Twitter è esploso in Italia (3,64 milioni di utenti attivi a Settembre 2012, +111% sull’anno precedente – fonte Audiweb/Nielsen) ha assunto un ruolo nel dibattito politico. Ogni giorno vengono pubblicati migliaia di post, contenuti, commenti sulle vicende politiche italiane (il 6% del totale dei post). Tutto ciò rappresenta un’immensa fonte di dati alla quale è possibile attingere liberamente per condurre delle analisi.

Un gruppo di ricercatori – Andrea Ceron, Luigi Curini e Stefano M. Iacus dell’Università degli studi di Milano e Giuseppe Porro dell’Università dell’Insubria, autori del progetto Voices from the Blogs (VfB) – ha pensato di analizzare questi dati con l’obiettivo di identificare le preferenze politiche degli utenti e quindi fare una stima attendibile delle intenzioni di voto. Facile a dirsi, ma in che modo? Quale metodologia adottare per ottenere risultati vicini a quelli dei sondaggi tradizionali (effettuati con metodo CATI o CAWI)?

Uno dei metodi più utilizzati nell’analisi dei contenuti dei social media è la Sentiment Analysis, volta a estrarre informazioni dai post pubblicati su internet, con l’obiettivo di identificarne il significato, il giudizio o il sentimento. Queste analisi prevedono la creazione di un dizionario ontologico predefinito, che attribuisce un post a una specifica categoria di opinione qualora presenti al suo interno determinate parole. Un software classifica i contenuti automaticamente in base a tale dizionario. Ma questo metodo presenta un grosso difetto: utilizzando una codifica automatica non è in grado di valutare un eventuale tono ironico o sarcastico di alcune espressioni, e in questi casi potrebbe fornire una codifica errata.

Nel loro paper – che verrà presentato lunedì 28 Gennaio presso la Facoltà di Scienze Politiche dell’Università degli Studi di Milano – gli autori spiegano di aver utilizzato una metodologia che va oltre la classica Sentiment Analysis, prendendo spunto dagli studi degli americani Daniel Hopkins e Gary King. Questa metodologia si basa su un processo a due fasi: nella prima fase un gruppo di codificatori (umani) analizza un sottocampione dei post pubblicati. Il sottocampione codificato servirà a identificare le categorie di opinione che verrano utilizzate per classificare i post. La codifica umana permette di cogliere le sfumature all’interno dei testi, andando oltre la semplice individuazione dei termini positivi/negativi ed evitando di interpretare in maniera errata i post ironici. Il secondo step prevede che, attraverso un algoritmo statistico, la codifica venga estesa a tutti i post rimanenti che non erano stati letti.

Applicando questa metodologia ai post di Twitter, i ricercatori hanno condotto alcune analisi sui trend delle intenzioni di voto in occasione di diversi appuntamenti elettorali, ottenendo più volte risultati molto simili a quelli dei sondaggi tradizionali.

Uno di questi esperimenti è stato condotto durante la campagna per le primarie del centrosinistra del 25 Novembre 2012. Analizzando più di 500mila tweet gli autori hanno monitorato le intenzioni di voto degli utenti a partire da Ottobre fino al giorno delle elezioni. Come possiamo vedere dal grafico seguente, il risultato dell’ultima rilevazione si avvicina molto a quelli reali, con un errore medio inferiore al 2%.

Inoltre, confrontando i risultati dei sondaggi con l’analisi di VfB, si nota come quest’ultima sia stata anche più precisa di alcune indagini tradizionali nello stimare il distacco tra Bersani e Renzi. Se si considera che sui social network Renzi godeva di molte più menzioni (e molto più consenso), come testimoniavano alcune analisi sul volume dei tweet, in questo caso la metodologia ha permesso di distinguere tra un sentimento diffuso in rete e le reali intenzioni di voto.

Lo stesso è accaduto per le elezioni presidenziali americane. Barack Obama godeva di un seguito su Twitter enormemente superiore rispetto a Mitt Romney (16.8 milioni di follower contro meno di 600mila) ma ciò non ha inficiato il risultato dell’analisi, che ha previsto un vantaggio da parte del candidato Democratico nel voto popolare del 3,5%, che poi nella realtà si è rivelato del 3,85%.

Un’altra indagine è stata effettuata in Francia in occasione delle elezioni presidenziali. Sono stati sondati circa 244mila tweet nelle settimane precedenti alle elezioni, e anche in questo caso il risultato previsto (la vittoria di Hollande) si è confermato poi nelle urne, seppur con una leggera sovrastima del candidato socialista: 54.9% contro il 51.64% dei voti effettivi.

Un esperimento ancora più arduo è stato condotto, sempre in Francia, per le elezioni legislative. Si trattava di stimare le intenzioni di voto per i partiti e in questo caso sono venuti fuori alcuni limiti dell’indagine. Nonostante il margine di errore medio sia stato molto contenuto (2,38%), i partiti della sinistra sono stati sovrastimati, mentre il partito di estrema destra Front National è risultato sottostimato.

Questi risultati portano alla luce alcune possibili distorsioni all’interno della ricerca, che possono essere dovute sia alla non rappresentatività degli utenti online rispetto ai reali votanti (ad esempio gli elettori più anziani sono sottorappresentati, quelli di sinistra sono sovrarappresentati), sia al fattore della “desiderabilità sociale”, per cui un utente non esprime pubblicamente idee o preferenze per un partito che pensa non goda delle simpatie del resto della popolazione elettorale. Tuttavia questi due fattori di distorsione sono comuni anche ai sondaggi tradizionali. Ad esempio la non rappresentatività del campione rispetto all’elettorato reale è uno degli ostacoli delle indagini CAWI, mentre la desiderabilità sociale può essere presente anche quando si utilizza il CATI. Inoltre le Sentiment Analysis, pur non essendo equiparabili ai sondaggi di opinione (poiché non si basano su un campione statistico) presentano alcuni vantaggi rispetto a essi: non vi sono bias dovute al questionario, perché non c’è alcun questionario; si può attingere da Twitter tutti i giorni, osservando in tempo reale le reazioni a un determinato evento; oppure si può fare una retrospettiva, utilizzando i dati passati.

In conclusione, le ricerche svolte dagli autori di VfB mostrano che l’analisi dei dati provenienti dai social media, se condotta con il metodo corretto, in ottica futura potrà diventare uno strumento affidabile da affiancare ai sondaggi tradizionali. Sarà interessante vedere nelle prossime settimane quali saranno i risultati delle indagini sulle imminenti elezioni politiche.

3 commenti

Cancella la risposta

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.

Alessandro ha detto:

5 Febbraio 2013 alle 15:18

Salve, da poco tempo mi sto interessando, per un lavoro di tesi, alla pratica della Sentiment Analysis. Mi stavo chiedendo se lei avesse la possibilità di indicarmi quali sono gli strumenti più usati dalle aziende per queste ricerche e se esiste qualche libro più approfondito sull’argomento.

In rete si fatica a trovare informazioni omogenee e lei mi sembra preparato.

Grazie mille!

Rispondi
- Salvatore Borghese ha detto:
  
  5 Febbraio 2013 alle 15:53
  
  Ti rispondiamo via mail 😉
  
  Rispondi
andrea ha detto:

7 Maggio 2013 alle 16:06

salve anche io mi sto interessando a questo argomento da poco perchè sto svolgendo la tesi mi poteva dare anche a me le stesse informazione del ragazzo che le ha scritto sopra, cioè quali sono gli strumenti più usati dalle aziende per queste ricerche e se esiste qualche libro più approfondito sull’argomento.

la ringrazio per la sua disponibilità

andrea

Rispondi

3 commenti

Cancella la risposta

I nostri canali social

Contatti

Vuoi partecipare ai nostri sondaggi?

Stimare le intenzioni di voto con Twitter? Si può fare, ma con metodo

Pietro Dinoia

3 commenti

Cancella la risposta

I nostri canali social

Contatti

Vuoi partecipare ai nostri sondaggi?