Gli outlier sono generalmente definiti come valori “anomali”, cioè valori che si discostano ampiamente dalla distribuzione generale dei dati. In un contesto sperimentale, si possono osservare in relazione a diverse cause, come errori di misurazione, variazioni estreme delle variabili (ciò si verifica spesso nei sistemi biologici) o condizioni uniche delle unità sperimentali, come ad esempio risposte peculiari di partecipanti a uno studio clinico.
La presenza degli outlier può distorcere le statistiche descrittive, come la media e la deviazione standard, alterando i risultati degli studi. Identificarli e gestirli correttamente è cruciale per evitare di arrivare a conclusioni sperimentali errate; pur essendo un concetto applicabile trasversalmente all’approccio sperimentale, questo aspetto appare particolarmente rilevante in ambito clinico, dove un outlier può amplificare o attenuare l’efficacia apparente di un trattamento, alterando i risultati di test statistici e analisi inferenziali. Inoltre, in ambito clinico, è essenziale differenziare tra outlier derivanti da errori e quelli che rappresentano effettivamente variazioni biologiche significative. In quest’ultimo caso, i valori anomali possono fornire informazioni preziose sulle risposte individuali ai trattamenti.
Identificare gli outlier
Esistono diversi metodi per identificare i valori anomali; tra questi, si distinguono metodi grafici e statistici, tra cui:
- Box-plot: un metodo visivo semplice in cui gli outlier vengono identificati come punti che si trovano al di fuori del range interquartile esteso.
- Analisi dei residui: utilizzata specialmente nei modelli di regressione, questa tecnica identifica gli outlier come osservazioni con residui significativamente grandi rispetto al modello predetto.
- Test statistici: test che identificano gli outlier in relazione alla massima deviazione rispetto alla media (test di Grubbs) o in relazione alla distanza rispetto agli altri dati (test di Dixon).
Valutare gli outlier
Una volta identificati, è necessario decidere se mantenere, correggere o escludere i valori anomali dal set di dati su cui condurre le analisi. Questo processo non è standardizzato, richiedendo considerazioni sia statistiche sia cliniche da adattare a seconda dei casi. In un contesto clinico, infatti, è essenziale considerare se l’outlier è rilevante: un paziente con una risposta estremamente alta o bassa a un trattamento, ad esempio, potrebbe rappresentare un sottogruppo importante che merita ulteriori indagini. In questo processo, si rende necessario verificare che l’outlier non sia il risultato di un errore di misurazione o di registrazione, che ne giustificherebbero la correzione o l’esclusione.
Trattare gli outlier
Una volta valutato, l’outlier può essere trattato in diversi modi, a seconda delle circostanze specifiche.
- Esclusione: in alcuni casi, l’esclusione dell’outlier dall’analisi può essere giustificata, soprattutto se si ritiene che esso sia il risultato di un errore di misurazione o registrazione. Tra i metodi di esclusione utilizzati vi è il trimming, cioè l’eliminazione di una percentuale fissa di valori estremi. La decisione di escludere i valori anomali o una percentuale fissa di essi deve essere ben documentata e giustificata per evitare bias.
- Trasformazione dei dati: è possibile applicare trasformazioni statistiche come alternativa all’esclusione. Ad esempio, si può applicare una trasformazione sotto radice o logaritmica per ridurre l’impatto dei valori anomali. Questo metodo è particolarmente utile quando gli outlier derivano da distribuzioni asimmetriche. Un approccio alternativo è la windsorization, che consiste nel sostituire i valori estremi con altri meno estremi.
- Utilizzo di metodi statistici robusti: per mitigare l’influenza degli outlier senza escluderli, si può ricorrere all’utilizzo di metodi statistici che sono meno sensibili agli outlier, come test che considerano la mediana al posto della media. Ciò offre un buon compromesso tra l’inclusione dei dati e la riduzione dell’impatto delle osservazioni anomale.
In ambito clinico è fondamentale mantenere un elevato livello di trasparenza nel processo di valutazione e trattamento degli outlier. Le decisioni sulla loro gestione devono essere chiaramente documentate e giustificate nei rapporti di ricerca, valutandone l’impatto sui risultati finali. Come descritto nei paragrafi precedenti, l’esclusione di valori ritenuti “anomali” potrebbe portare a ignorare importanti sottogruppi di popolazione. Il trattamento degli outlier negli studi clinici è una questione delicata che richiede un equilibrio tra rigore statistico e considerazioni cliniche. Mentre gli outlier possono distorcere i risultati, essi possono anche rappresentare informazioni cliniche di fondamentale importanza.
Il trattamento degli outlier richiede una valutazione attenta, che bilanci considerazioni statistiche e scientifiche. Gli outlier possono distorcere i risultati, ma al contempo offrire informazioni cruciali su sottogruppi sperimentali. Specialmente in ambito clinico, è fondamentale documentare e giustificare ogni decisione presa riguardo alla loro gestione per garantire la robustezza e la validità dei dati ottenuti, assicurando che i risultati degli studi siano rappresentativi e affidabili.
Per approfondire:
- https://www.sixsigmain.it/ebook/Capu18-14.html
- Cousineau, Denis, and Sylvain Chartier. “Outliers detection and treatment: a review.” International journal of psychological research 3.1 (2010): 58-67.
- Gaspar, Juliano, et al. “A systematic review of outliers detection techniques in medical data-preliminary study.” International Conference on Health Informatics. Vol. 2. SCITEPRESS, 2011.