YouTrend
Andamento errore dei sondaggi Regionali 2010

Andamento errore dei sondaggi Regionali 2010

Le passate elezioni regionali sono state caratterizzate da 148 sondaggi ufficialmente pubblicati sul sito del Ministero, dal 14 gennaio 2010 sino all’11 marzo 2010. Dopo tale data, la legge prevede che vi sia stato il blocco delle pubblicazioni di sondaggi.

La domanda che ci poniamo è la seguente: “quale è stata la dinamica dell’errore nel valutare ogni candidato in ogni sondaggio?”. La domanda è legittima, ma ne deriva una risposta non immediata. Vediamo perché.

A circa un mese dalle elezioni, avvenute tra il 28 e 29 marzo 2010, sono state ufficializzate le liste elettorali in ogni regione.

Tuttavia, ben prima di questa data, i vari istituti di sondaggi pubblicarono le loro previsioni: per alcune regioni nulla cambiò, per altre vi furono dei cambiamenti, come nel Lazio con la ormai famosa vicenda della lista del Popolo della Libertà.

Tutto questo ha un impatto immediato sul modo di leggere le varie proiezioni e quantificarne l’errore commesso. Consideriamo il seguente esempio.

– Supponiamo che all’Istituto XYZ ad inizio febbraio 2010 venga commissionato nella regione Puglia un sondaggio sulle intenzioni di voto per le elezioni regionali del 28-29 marzo. Questo istituto stima con un errore campionario del 3% che il candidato del Centro Sinistra otterrà il 50% dei consensi, quello del Centro Destra il 41%, quello del Centro il 7% e tutte gli altri candidati il 2% complessivo. Oggi sappiamo che Vendola ottenne il 48,7%, Palese il 42,2%, la Poli Bortone l’8,7% e gli altri candidati lo 0,4%.

Domanda: quanto è corretto affermare che l’Istituto XYZ abbia commesso, per esempio relativamente a Vendola, un errore assoluto dell’1,3% di sovrastima e del 2,6% relativo sempre di sovrastima?

Risposta: estremamente sbagliato. Certo, rispetto al dato ufficiale emerso dopo lo scrutinio è un’affermazione apparentemente corretta, ma cela un errore di ingenuità statistica e politica contemporaneamente. L’ingenuità politica è dovuta al fatto che il clima politico nel corso di un mese e mezzo può cambiare, ed infatti cambia a volte anche notevolmente. Pensare che il dato di inizio febbraio sia immutabile per circa un mese è mezzo è quantomeno improbabile, se non impossibile. Secondo aspetto: quando un istituto pubblica un sondaggio elettorale, ciò che afferma è che nel momento del campionamento, ovvero quando si sono interpellati i cittadini, il dato della rilevazione è, entro i margini di errore campionario, quello che si legge nel report ufficiale. Non vuol dire che domani, se nuovamente intervistati una porzione rappresentativa dei cittadini dello stesso dato luogo, questo dato non possa cambiare.

Ecco perché gli istituti di sondaggi tendono a monitorare costantemente gli elettori, a scadenze settimanali o addirittura più frequenti. Al fine di poter osservare gli andamenti temporali, valutarne la dinamica ed eventualmente estrapolare il dato nella data prestabilita delle elezioni con le dovute analisi statistiche ed inferometriche. Questo procedimento si chiama tracking.

Tornando al nostro esempio, il 50% associato a Vendola (stesso ragionamento vale per tutti gli altri candidati, per tutte le possibili regioni ed istituti) viene inficiato da almeno 3 errori:

  • errore campionario: l’errore che si commette, adottando una certa metodologia di indagine, nel porre una certa domanda e registrarne la relativa risposta
  • errore sistematico interno: l’errore che, storicamente, l’istituto tende a commettere nelle proprie analisi post-campionamento. Questo errore può essere migliorato dalla bontà dei ricercatori dell’istituto stesso, ma ne devono essere consapevoli
  • errore sistematico esterno: l’errore che si commette nel porre una domanda ad un mese e mezzo dalle elezioni, se si vuole pubblicare non l’intenzione di voto non tramite il quesito “se oggi ci fossero le elezioni, chi voterebbe”, piuttosto “quale candidato ha intenzione di votare il 28-29 marzo?”

Per i primi due errori, qualche accorgimento si può trovare se si vuole quantificare la discrepanza tra il valore che l’istituto ha stimato per il candidato Mario Rossi nella data regione il tal giorno ed il dato reale.

Per il terzo errore, le cose si fanno più complicate: l’analista quantitativo che volesse calcolare di quanto effettivamente abbia sbagliato l’istituto nello stimare Mario Rossi dovrebbe conoscere non solo la variazione temporale dell’errore sistematico interno, ma anche trovare una funzione matematica esplicita che associ all’errore sistematico interno un fattore relativo all’errore sistematico esterno.

In altre parole, il 50% dato a Vendola ad inizio febbraio, al netto dei primi due errori, a quanto corrispondeva nella realtà il giorno in cui è stato pubblicato? E se quel 50% non era la stima dell’intenzione in quel momento, ma la stima del giorno delle elezioni, quale errore si è commesso in quel sondaggio?

Per ovvi motivi, nessun analista potrà mai svelarvi il proprio procedimento nei dettagli (la concorrenza potrebbe illecitamente appropriarsi della metodologia), ma è possibile fornire degli spunti per quel lettore che fosse interessato all’argomento.

La nostra metodologia contempla i seguenti passaggi:

  1. registrare in modo corretto le stime di ogni sondaggio per ogni regione, indicando chiaramente la data di pubblicazione
  2. predisporre un modo per determinare una sequenza ordinata degli eventi: una data indicata come 17/02/2010 è poco utile se si vuole usare un software statistico. Ogni software ha il proprio modo di “tradurre” tale dato in un formato numerico univoco. Trovato il modo in cui Excel, Spss, Matlab, R o Statistica traduce una data, usare quel formato per poter calcolare differenze temporali in modo numerico
  3. Concepire una funzione esplicita che abbia queste caratteristiche
    – derivabile nel suo dominio R
    – monotona decrescente (valori più alti per i dati più recenti, valori più bassi per quelli meno recenti)
    – la derivata prima sia un o-piccolo della funzione, al fine di non imporre condizioni di decrescenza troppo eccessive. Il famoso sito www.fivethirtyeight.com afferma di usare una funzione esponenziale negativa. Tale funzione è eccellente se si hanno molti dati per ogni giorno. In Italia i sondaggi sono meno frequenti, e tale funzione ha un tempo di dimezzamento troppo rapido per il nostro caso. Si consiglia di adottare funzioni logaritmiche composte, perché sono più “gentili” nel decrescere. Ma totale libertà di scelta, l’importante che funzioni, ovviamente.
  4. Trovare un sistema per associare un peso al sondaggio nel giorno X sfruttando la funzione di cui sopra
  5. Calcolare l’errore sistematico interno di ogni istituto
  6. Disegnare il grafico degli errori pesati

Di seguito, un esempio pratico di quale possa essere l’andamento degli errori registrati durante le Regionali 2010, per i candidati del Centro Destra, Centro Sinistra e Centro. Tali grafici sono da considerarsi solo degli stimoli per il lettore interessato, e devono essere considerati come i definitivi. Quelli definitivi verranno usati per un prossimo articolo che comparirà sul nostro sito.

Le ascisse rappresentano la formulazione numerica di una certa data. Il flusso temporale va da destra a sinistra (a destra i sondaggi meno recenti, a sinistra quelli più recenti).

Le ordinate rappresentano l’errore relativo pesato con la funzione test per ogni sondaggio.

Dinamica degli errori commessi nello stimare il candidato di Centro Destra in tutte le regioni. Il dettaglio per istituto può essere calcolato allo stesso modo.

Dinamica degli errori commessi nello stimare il candidato di Centro Sinistra in tutte le regioni. Il dettaglio per istituto può essere calcolato allo stesso modo.

Dinamica degli errori commessi nello stimare il candidato di Centro in tutte le regioni. Il dettaglio per istituto può essere calcolato allo stesso modo.

 

Per creare questi grafici è stata usata una funzione logaritmica razionale, con coefficiente di decadimento estratto da un’interpolazione polinomiale “stepwise”.

Commenta

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.

Send this to a friend