In ogni studio clinico, è probabile che il ricercatore si trovi a fronteggiare set di dati nei quali possa verificarsi l’assenza di determinate osservazioni; questi dati mancanti vengono detti “missing data”. Quasi tutti i metodi statistici standard richiedono che, per ciascuna variabile di studio, l’informazione sia disponibile per tutti gli oggetti (cioè le osservazioni sperimentali). Di conseguenza, la gestione dei missing data assume un ruolo fondamentale che richiede massima attenzione, in quanto ignorarli potrebbe portare a risultati distorti e poco affidabili.
Comprendere i missing data
Un primo passaggio della massima importanza nella gestione dei missing data è comprendere con quale ricorrenza si verifichino. Intuitivamente, sarà ben diverso gestire un dataset in cui i missing data rappresentano una piccola percentuale rispetto a un dataset con molti dati mancanti.
Lo step successivo è comprendere il perché non sia stato possibile raccogliere quel dato. Questo è un aspetto chiave nell’interpretazione dei risultati in quanto permette di distinguere se i missing data si presentino in seguito a dinamiche causali oppure, al contrario, se la loro presenza si associ a qualche fattore sperimentale specifico. Basandosi su questo criterio, è possibile distinguere i missing data secondo tre categorie principali:
- Dati mancanti completamente a caso (Missing Completely At Random – MCAR): in questo caso, i missing data sono distribuiti casualmente nel campione e non sono correlati alle variabili di studio.
- Dati mancanti a caso (Missing At Random – MAR): in questo caso, la probabilità con cui si verifica la mancanza del dato è correlata a determinate variabili.
- Dati mancanti non a caso (Missing Not At Random – MNAR): ricadono in questa categoria tutti i missing data che dipendono sia dal valore del dato stesso che da determinate variabili di studio.
Gestire i missing data
Banalmente, il miglior metodo possibile per gestire i dati mancanti è prevenirli. Ciò richiede una progettazione attenta dello studio associata a una raccolta dati accurata. Ad esempio, si può ridurre il numero di visite di follow-up e raccogliere solo le informazioni essenziali a ogni visita, progettando moduli di facile compilazione. Prima dell’inizio della ricerca clinica, è consigliabile avere cura di sviluppare una documentazione dettagliata del protocollo operativo, inclusi i metodi per lo screening dei partecipanti, la formazione di sperimentatori e partecipanti, la comunicazione tra i vari soggetti coinvolti e il monitoraggio dei dati raccolti. In merito a quest’ultimo punto, è possibile stabilire a priori un livello di accettabilità relativamente alla presenza di missing data.
Esistono diverse tecniche per gestire i missing data ma, fondamentalmente, si può operare seguendo due approcci: eliminare le osservazioni o sostituire i dati mancanti. Di seguito vengono elencate e descritte brevemente le tecniche a disposizione dello sperimentatore.
- Eliminazione caso per caso (listwise deletion): questo metodo elimina gli oggetti che presentano missing data, procedendo ad analizzare solo i dati rimanenti. Se l’assunzione di Missing Completely At Random (MCAR) è soddisfatta, questo metodo può produrre stime prive di distorsioni.
- Eliminazione a coppie (pairwise deletion): questo metodo utilizza solo i dati disponibili per ogni specifica analisi, preservando più informazioni rispetto all’eliminazione caso per caso. Tuttavia, può produrre stime su insiemi di dati diversi e generare problemi nell’analisi.
- Sostituzione della media (mean substitution): si procede sostituendo i valori mancanti con la media della variabile. Tuttavia, può introdurre bias nelle stime e aumentare l’errore standard.
- Imputazione tramite regressione: questo metodo sostituisce i dati mancanti con valori stimati da altre variabili tramite regressione. Permette di conservare una maggiore quantità di dati rispetto all’eliminazione.
- Ultima osservazione portata a termine (Last Observation Carried Forward): ogni valore mancante viene sostituito con l’ultima osservazione nota dello stesso soggetto. Anche se semplice, questo metodo può produrre stime distorte dell’effetto del trattamento.
- Massima verosimiglianza (maximum likelihood): questo metodo stima i missing data utilizzando i dati osservati su altre variabili. Tuttavia, può richiedere molto tempo e può produrre stime distorte se le assunzioni non sono soddisfatte.
- Imputazione multipla (multiple imputation): si sostituiscono i missing data con più valori plausibili, generando più dataset completi. Il metodo combina i risultati di analisi su questi dataset per ottenere una stima finale. È una tecnica robusta che produce stime valide anche in presenza di un campione ridotto o di un alto numero di dati mancanti.
L’applicazione di queste metodiche deve essere valutata dal ricercatore in relazione alle esigenze sperimentali e alle caratteristiche dei dati mancanti.
I missing data rappresentano una sfida significativa nella ricerca clinica, poiché possono compromettere l’affidabilità e la validità delle analisi. È essenziale comprendere la natura e la frequenza dei dati mancanti per adottare le migliori strategie di gestione. La prevenzione dei dati mancanti attraverso una progettazione accurata dello studio e una raccolta dati attenta è un primo passaggio cruciale. Se presenti, lo sperimentatore ha a disposizione diverse tecniche per gestire i missing data, adattandole in relazione alla natura dei dati mancanti.
Per approfondire:
- Kang H. The prevention and handling of the missing data. Korean J Anesthesiol. 2013 May;64(5):402-6. doi: 10.4097/kjae.2013.64.5.402. Epub 2013 May 24.
- Heymans MW, Twisk JWR. Handling missing data in clinical research. J Clin Epidemiol. 2022;151:185-188. doi:10.1016/j.jclinepi.2022.08.016.