“Non sono tanto le cose che non sappiamo a metterci nei guai, quanto quelle che sappiamo e che non sono così.”
Artemus Ward
Gli esseri umani sono sempre stati abituati a comunicare tra di loro per mezzo di una lingua, il linguaggio dei segni e l’ausilio di diverse forme di comunicazione. Ma nell’epoca recente, e ancor di più oggi è nato un nuovo linguaggio: la statistica. La statistica è una forma di comunicazione che si è evoluta nel tempo, tanto da diventare la risorsa più preziosa nell’analisi e presentazione dei dati per vari scopi, da quelli sociali a quelli economici. Quindi, nell’era in cui i dati sono la materia prima più importante, la statistica si afferma come il linguaggio principale per poter decodificare e trasmettere le importantissime informazioni che questi celano.
Ogni giorno, ognuno di noi si trova a leggere statistiche di qualsiasi tipo, come quelle che si trovano nelle presentazioni dei corsi di laurea, per esempio la retribuzione media o la percentuale di occupati a 3 anni dal conseguimento del titolo oppure la percentuale di persone che non sviluppano carie usando un determinato dentifricio, le statistiche sui fumatori di sigarette, quelle riguardanti i trend nei ricavi delle aziende e molto altro. Insomma, siamo inondati di statistiche, grafici e molte persone, aziende e governi le usano per prendere decisioni. Ed è qui che emerge l’importanza della statistica, utilizzata per prendere decisioni che potrebbero avere un impatto più o meno enorme sulle nostre vite. Sostanzialmente la statistica è affascinante, ma nasconde insidie tanto per gli addetti ai lavori quanto e soprattutto per le persone che hanno poche conoscenze in questo campo. Le problematiche principali riguardano il fatto che la statistica viene usata per mentire, deviare, confondere e sensazionalizzare. Infatti, molte delle statistiche con cui ci confrontiamo sono colme di “errori” e di tentativi più o meno intenzionali di indirizzare il nostro comportamento e sono fortemente convinto che la maggior parte delle persone non si ponga le domande necessarie per comprendere come siano stati raccolti, analizzati e illustrati quei dati. Spesso ciò accade perché non si hanno le conoscenze o si crede ciecamente nell’algoritmo utilizzato e altre volte perché tali informazioni vengono omesse nelle ricerche.
Il presente articolo, pertanto, si pone l’obiettivo di analizzare alcune delle principali problematiche nell’utilizzo delle statistiche, in modo da fornire informazioni essenziali per una loro corretta lettura e per evitare di cadere nei tranelli che spesso le accompagnano.
Il primo grande problema nell’elaborazione di dati riguarda il campionamento delle unità sulle quali verrà svolta l’analisi. È importante chiarire fin da subito che qualsiasi tipo di indagine statistica non viene effettuata sull’intera popolazione o universo come viene chiamato nel linguaggio tecnico, perché non vi sono gli strumenti e le condizioni e perché sarebbe eccessivamente costoso. Pertanto, si estrae, casualmente, un campione rappresentativo di quella popolazione su cui effettuare le indagini. Prima di concentraci sulle problematiche va spiegato cosa significhi “campione rappresentativo”. Un campione è rappresentativo di una popolazione quando al suo interno rispecchia le proporzioni, in termini di età, sesso, salario ecc., che si osservano all’interno dell’intero universo di riferimento. In secondo luogo, tale campione deve essere estratto casualmente, come quando si lancia un dado, per evitare sue costruzioni ad hoc che potrebbero falsificare i risultati. Inoltre, il campione deve essere numeroso per far si che le analisi siano affidabili. Il problema che emerge in questo contesto riguarda il modo in cui si esegue il campionamento, perché in molti casi i campioni sono piccoli o strutturalmente sbagliati o entrambi.
Per capire al meglio tale situazione si può utilizzare un esempio di statistica che appare nei siti di ogni università per ogni corso di laurea: retribuzione media e percentuale di occupazione. Molto spesso leggiamo che la retribuzione media a 3 anni dalla laurea è di 35.516,77 euro (un numero preso a caso). Innanzitutto, bisogna tenere presente che qualsiasi numero preciso è inevitabilmente falso, ci torneremo, e subito dopo bisognerebbe domandarsi se il campione dal quale il dato è stato ricavato può essere considerato buono. Infatti, non è detto che tale campione sia sufficientemente numeroso e/o rappresentativo, perché nel momento in cui si effettuano questi tipi di indagine non è sempre possibile rintracciare tutte le persone che frequentavano quel corso di laurea e soprattutto perché risponderanno al questionario, in cui vengono fornite informazioni personali, solo coloro che godono di una buona retribuzione, mentre gli ex studenti che non stanno ottenendo ciò che speravano eviteranno di rispondere, perciò la retribuzione media sarà un dato con poca rilevanza perché mancano i dati di coloro che la abbasserebbero, inoltre il dato non discrimina le situazioni in cui qualcuno ha trovato un lavoro in un settore diverso rispetto a ciò che ha studiato, rendendo di fatto la media una sintesi con poco significato se si vuole prendere una decisione. È un dato fasullo. Quindi, il dato è rappresentativo solo del campione di studenti con una buona retribuzione, ma non dell’intera popolazione. Lo stesso tipo di problemi si riscontrano per quanto riguarda la percentuale di occupati post-laurea, perché è molto probabile che il numero si riferisca solo a chi ce l’ha fatta e in aggiunta non discrimina tra situazioni di impiego a tempo indeterminato o meno. Pertanto, se stavate pensando di scegliere il vostro futuro corso di laurea solo sulla base di questi dati, fate molta attenzione. Altri esempi di questo tipo riguardano le statistiche sui fumatori. Dati recenti constatavano che solo il 20% dei fumatori contrae il cancro, insomma un dato abbastanza rassicurante per poter iniziare a fumare in tranquillità, visto che nel 80% dei casi non si contrae questa infida malattia. Ma in questo caso il campionamento è errato, perché non contiene tutti coloro che sono morti a causa di altre conseguenze del fumo e ovviamente non hanno vissuto abbastanza a lungo per poter rispondere all’indagine. Quindi, il dato dovrebbe essere letto così: “Tra i fumatori accaniti il 20% di chi sopravvive non contrae il cancro”. In questo modo il dato suona in maniera leggermente diversa.
In aggiunta esistono molti altri problemi legati al campionamento; in molti casi le persone intervistate potrebbero rispondere ai questionari in base a ciò che ritengono sia più qualificante agli occhi della società, come per esempio accade in ricerche di mercato volte a stabilire se le persone leggano maggiormente riviste come CHI o il National Geographic, o spesso accade che si risponda in base a ciò che si pensa farebbe piacere all’intervistatore, quindi intervengono le caratteristiche dell’intervistatore e dell’intervistato e tali insiemi di bias condizionano inevitabilmente l’affidabilità del risultato finale. Quindi, quando si leggono questi dati, potrebbe essere utile porsi queste domande e ricercare queste informazioni se disponibili e in ogni caso sarebbe consigliabile adottare un comportamento scettico.
Collegata al problema degli errori nel campionamento, è la problematica relativa all’indicatore che si vuole utilizzare come risultato di sintesi. Precedentemente abbiamo parlato della media. Difatti, in moltissimi casi, la media è l’indicatore più utilizzato, si parla di media delle retribuzioni in questa azienda, media di abbonati a un certo periodico, reddito medio in una certa zona del mondo e così via. Oltre ai problemi citati sopra, emerge un aspetto particolare, spesso non conosciuto e non specificato, ovvero: quale media è stata utilizzata. Perché non esiste solo la media aritmetica, ma esistono altri tipi di medie come la mediana e la moda, ognuna con il suo significato specifico e ognuna che può avere più o meno senso in relazione ai dati e al contesto utilizzato. Il problema è che questi indicatori vengono utilizzati ad hoc per nascondere il vero contenuto informativo dei risultati e proporne uno più consono allo scopo. Infatti, la media aritmetica è un indicatore molto sensibile ai valori estremi. Per dimostrarvelo considerate questo semplice esempio in cui abbiamo questi numeri: 1.000, 2.000, 3.000 e 1.000.000. Ora sommateli e dividete per quattro. La media aritmetica è 251.500, ovvero la maggior parte dei dati sta ben al di sotto della media! Strano, no? Ed è proprio per queste proprietà che la media aritmetica viene utilizzata per presentare la retribuzione media nell’azienda X, al fine di convincere il potenziale neoassunto che quella sia un’azienda con ottimi stipendi, ma se nel calcolo vengono inserite le retribuzioni e i bonus dei dirigenti apicali è chiaro che influenzeranno la media spostandola verso l’alto e nasconderanno la miriade di dipendenti sottopagati. Tale artificio si presenta in tutte le situazioni in cui si ha a che fare con redditi che, come dimostrato dall’evidenza empirica, sono ben rappresentati da una distribuzione a forma di Legge di Pareto, ovvero, per semplificare, una situazione in cui la maggior parte della popolazione detiene una quota di reddito inferiore alla media, mentre anche solo l’1% detiene la maggior parte della ricchezza. La famosa legge del 80/20. In questi casi sarebbe più consigliabile utilizzare la mediana, indicatore più robusto e meno sensibile a valori molto grandi, che divide esattamente la distribuzione, ovvero ci dice che il 50% dei dipendenti percepisce uno stipendio superiore a un dato numero, mentre il 50% sta al di sotto di quel valore. Un indicatore molto più utile per comprendere il potenziale livello del reddito. Inoltre, può essere utilizzata la moda, che rappresenta il numero più frequente in una serie di dati e potrebbe essere altrettanto utile per identificare il vero valore del reddito, soprattutto in questi tipi di variabili che presentano una distribuzione asimmetrica. Invece, per variabili come l’altezza, in cui i dati si distribuiscono intorno alla media e per grazia divina hanno una distribuzione normale a forma di campana, è indifferente il tipo di media utilizzata, perché in questo caso coincidono tutte e tre. Ma questi sono casi rari, perché quasi tutte le variabili di interesse, soprattutto quelle economiche, presentano distribuzioni in cui i valori estremi fanno da padrone.
Insomma, è fondamentale fare attenzione al tipo di media utilizzata, informazione spesso omessa e sintomo della volontà di mentire con i dati.
Un ulteriore aspetto che vale la pena analizzare riguarda il fatto che quando vengono forniti numeri precisi, essi sono falsi. Ciò dipende dal fatto che stiamo analizzando un campione, non la popolazione; quindi, vi sarà sempre la presenza di un termine d’errore, in termini più precisi di una deviazione. Perciò quando si legge che la media è 100 non sarà mai vero, sarà più probabile che la media sia 100 più o meno 3, che rappresenta la deviazione e quindi l’errore probabile che si è commesso. Sostanzialmente bisogna ragionare per intervalli e non per singoli numeri. Si noti che l’errore può dipendere anche dal particolare metodo utilizzato nell’analisi, ma questo è un discorso diverso.
Quindi, se volessimo basare la decisione di trascorrere la nostra prossima vacanza nel deserto sulla base della temperatura media di quel dato luogo geografica, dovremmo fare attenzione a trarre delle conclusioni, perché si la temperatura media potrebbe essere di 25° gradi ma con delle deviazioni che vanno da -20 a + 70 gradi. Quindi la deviazione dalla media, che può essere misurata in vari modi, per esempio attraverso la deviazione standard, che è facile da trattare matematicamente, è un altro dato importantissimo da tenere in considerazione se disponibile nella ricerca. È fondamentale diffidare dai numeri precisi.
Per concludere questa descrizione di alcuni dei principali problemi che affliggono le statistiche è utile analizzarne un ultimo che ritengo molto rilevante, ovvero l’utilizzo dei grafici per rappresentare in modo più ordinato e immediatamente comprensibile i dati. I grafici sono importanti e possono contenere informazioni di sintesi particolarmente preziose, ma possono anche essere usati per ingannare l’occhio umano e distorcere la realtà dei fatti. In questa sede ci occupiamo principalmente dei grafici lineari, in cui le linee rappresentano un trend, come per esempio la crescita dei ricavi di un’azienda, la crescita economica di uno stato negli ultimi 30 anni o la crescita degli abbonati a un determinato periodico online. Solitamente sull’asse dell’ascisse viene definito il tempo (giorni, mesi, anni) e sull’asse delle ordinate vengono definiti i valori numerici che rappresentano i miliardi di dollari o il numero di iscritti, a seconda del dato analizzato. Sempre per una corretta e onesta costruzione e interpretazione è importante che i dati partano da zero, in modo da evidenziare il reale trend di crescita. Il problema è che in molti casi non ci si comporta in modo onesto. In primo luogo, spesso nei grafici non compaiono le unità di misura sugli assi cartesiani, pertanto non si sa se la linea descrive una crescita da 100 a 200 miliardi o da 100 a 101 e questo potrebbe ingannare un lettore poco attento e frettoloso. In altre situazioni, per convenienza, viene tagliata una parte del grafico per far partire i valori da sopra lo zero per poter evidenziare che il trend è più sostenuto di quanto sia in realtà, così una crescita del 10% può sembrare del 50%! È importante notare che i dati non vengono falsificati o modificati, ma visivamente assumono un diverso significato che può ingannare chi li interpreta. Infine, un terzo trucco consiste nel cambiare il rapporto tra ascisse e ordinate, ad esempio non facendo più variare i valori di 10 unità ma di 0.1 unità e far sembrare che la crescita sia esponenziale invece che costante o comunque poco sostenuta. Inganni di questo tipo vengono realizzati costantemente per ottenere finanziamenti, per generare maggiori ricavi e manipolare l’opinione pubblica. Ovviamente i trucchi possono essere realizzati anche attraverso altri tipi di grafici, ma quelli lineari sono tra i più interessanti.
In conclusione, i problemi discussi sono solo una parte degli aspetti che meriterebbero di essere analizzati come le differenze insignificanti, le distorsioni in piccoli campioni, le previsioni o i test statistici per saggiare la significatività di un risultato. Tuttavia, l’articolo vuole fungere da incentivo per iniziare a porsi in modo critico nei confronti delle informazioni che ci vengono presentate, per non essere ingannati o manipolati e così poter prendere decisioni più accurate.
La statistica è una materia interessante e fondamentale oggi più che mai, ma può essere pericolosa e pertanto è fondamentale rimanere scettici sui suoi risultati e prestare attenzione a ciò che viene rappresentato. Alla fine, si tratta dell’arte di dare una seconda occhiata.
Federico Coppo