La statistica descrittiva è una branca della statistica che si occupa di raccogliere, sintetizzare e rappresentare i dati provenienti dallo studio di un campione – o di una popolazione – con lo scopo di offrire una rappresentazione chiara, immediata e accessibile dei dati raccolti.
Quindi, il suo ruolo è quello di rappresentare i dati in un modo facilmente “leggibile” e, di conseguenza, facilmente interpretabile.
Per convertire una mole di dati grezzi – complessi e difficili da interpretare – in dati intuitivi e facilmente fruibili, la statistica descrittiva si serve di specifici strumenti, quali tabelle, rappresentazioni grafiche, e/o indici numerici (es. la media, la mediana, la deviazione standard).
Prima di addentrarci appieno nell’argomento è, però, importante familiarizzare con alcuni termini fondamentali della statistica, che ci saranno utili per comprendere meglio come utilizzare questi strumenti.
Un po’ di terminologia
In statistica, l’unità statistica è l’unità elementare del campione o della popolazione oggetto di indagine, ossia l’entità su cui vengono raccolte le informazioni. Può essere, ad esempio, un bambino, o un paziente affetto da una patologia, o un evento.
La variabile è la caratteristica osservabile dell’unità statistica, la quale può presentarsi in due o più modi alternativi. La variabile può, quindi, assumere valori diversi per ogni unità statistica e può essere classificata o misurata. Se pensiamo ad un bambino quale unità statistica di una popolazione di bambini, sono variabili, ad esempio, il colore degli occhi, il peso, l’altezza, o qualsivoglia caratteristica osservabile nel bambino.
In base alla possibilità di classificare o misurare la caratteristica oggetto di osservazione, le variabili si distinguono in due grandi categorie: le variabili qualitative (o categoriche) e le variabili quantitative.
Le variabili qualitative descrivono una caratteristica o una qualità che non può essere misurata numericamente, ma può essere classificata in categorie.
Le variabili qualitative si suddividono a loro volta in:
- variabili qualitative nominali, le cui categorie non hanno un ordine o una gerarchia specifica, ma ogni categoria è semplicemente diversa dalle altre. Esempi di variabili nominali sono: il genere (maschio/femmina), il colore degli occhi (azzurro, marrone, verde) e la tipologia di una ferita (abrasione, lacerazione, puntura).
- variabili qualitative ordinali, le cui categorie hanno un ordine o una gerarchia. Esempi di variabili ordinali sono: il livello di soddisfazione (soddisfatto, neutro, insoddisfatto), gli stadi di una malattia (fase iniziale, intermedia, avanzata), le classi di BMI (sottopeso, normopeso, sovrappeso, obesità).
Le variabili quantitative esprimono, invece, una quantità e, pertanto, sono misurabili numericamente.
Anch’esse si suddividono in due sottocategorie:
- variabili quantitative continue, che possono assumere un qualsiasi valore all’interno di un intervallo di numeri reali (compresi i valori decimali o frazionari). Esempi di variabili continue sono: l’altezza, il peso, la glicemia a digiuno.
- variabili quantitative discrete, che assumono un numero finito di valori all’interno di un intervallo e non possono essere rappresentate con valori decimali o frazionari. Esempi di variabili discrete sono il numero di figli, il numero dei denti, il numero dei nuovi nati.
Descrivere attraverso la statistica descrittiva
Fornire dati immediatamente fruibili e rappresentativi di un campione è l’obiettivo primario della statistica descrittiva che, a tal proposito, mette a disposizione una serie di strumenti essenziali per una sintesi efficace delle informazioni. Tra questi strumenti, gli indici numerici rivestono un ruolo fondamentale, consentendo di descrivere il campione attraverso tre principali categorie di misure:
- le misure di tendenza centrale, che descrivono il valore intorno al quale si concentrano i dati, consentendo di individuare il valore centrale; in questa categoria rientrano la media, la mediana e la moda.
- le misure di variabilità (o dispersione), che descrivono la variabilità dei dati, aiutando a comprendere quanto essi si discostino dal valore centrale; tra questi ricordiamo la deviazione standard, la varianza, l’interquartile range, i valori minimo e massimo.
- le distribuzioni di frequenza, che indicano quante volte (la frequenza) i valori o le modalità/caratteristiche che una variabile può assumere ricorrono all’interno del campione. Possono essere espresse come frequenze assolute, relative, percentuali o cumulate.
Le misure di tendenza centrale e le misure di variabilità sono comunemente utilizzate per descrivere le variabili quantitative continue, mentre le distribuzioni di frequenza sono generalmente applicate alle variabili categoriche o, talvolta, alle variabili quantitative discrete che presentano un numero limitato di valori. Tuttavia, le distribuzioni di frequenza possono essere utilizzate anche per descrivere variabili quantitative continue, suddividendo l’intervallo dei valori in classi e calcolando la frequenza per ciascuna classe.
Sebbene queste misure siano strumenti comuni, è importante adattarne l’uso alle caratteristiche del campione; la media, ad esempio, fornisce una sintesi complessiva del valore medio dell’insieme di dati, ma non è adatta in presenza di valori estremi o di distribuzioni non normali, poiché tali fattori potrebbero distorcere il risultato. Essa, infatti, dovrebbe essere calcolata solo quando i dati seguono una distribuzione normale (a forma di campana), mentre per distribuzioni non normali o asimmetriche, l’utilizzo della mediana risulta essere più appropriato, in quanto tale misura è meno influenzata da tali fattori.
Anche la rappresentazione grafica dei dati deve essere scelta con cura per facilitarne l’interpretazione. La media e la deviazione standard sono spesso rappresentate efficacemente tramite istogrammi, accompagnati da barre che illustrano la deviazione standard rispetto al valore medio. La mediana e l’interquartile range trovano invece la loro rappresentazione ideale nei box plot – o grafici a scatola e baffi – che sintetizzano visivamente le principali statistiche descrittive e mettono in evidenza eventuali valori estremi. Le distribuzioni di frequenza, infine, si rappresentano al meglio attraverso tabelle o grafici a barre, che mostrano in modo chiaro la frequenza all’interno delle categorie.
Conclusioni
In sintesi, la statistica descrittiva svolge un ruolo essenziale nel rendere i dati accessibili e utilizzabili, anche da parte di coloro che non hanno particolare dimestichezza con questa disciplina.
Tuttavia, per garantire che i dati siano davvero comprensibili e correttamente interpretabili, è essenziale che siano descritti con qualità e accuratezza, aspetti strettamente legati alla precisione e correttezza dell’analisi condotta nella fase descrittiva.