Come tratto i missing data

I dati mancanti (missing data), sono una sfida ricorrente nella ricerca clinica: ogni studio può essere soggetto alla mancanza di osservazioni sperimentali, mettendo in discussione l’affidabilità delle analisi. Comprendere la frequenza e la natura dei dati mancanti è fondamentale per adottare le strategie più adeguate nella gestione dei dati.

Ennio Russo

Medical Writing & Scientific Communication Executive, Ph.D.

Dello stesso autore

L'analisi dellle tendenze secondo il MDR

L’analisi dei trend secondo il MDR: vantaggi strategici

7 Gennaio 2026

Analisi di sopravvivenza e Kaplan-Meier: applicazione pratica nel settore Life Science

25 Giugno 2025

Come descrivere i metodi statistici nei documenti clinici

16 Giugno 2025

26 Agosto 2024

In ogni studio clinico, è probabile che il ricercatore si trovi a fronteggiare set di dati nei quali possa verificarsi l’assenza di determinate osservazioni; questi dati mancanti vengono detti “missing data”. Quasi tutti i metodi statistici standard richiedono che, per ciascuna variabile di studio, l’informazione sia disponibile per tutti gli oggetti (cioè le osservazioni sperimentali). Di conseguenza, la gestione dei missing data assume un ruolo fondamentale che richiede massima attenzione, in quanto ignorarli potrebbe portare a risultati distorti e poco affidabili.

Comprendere i missing data

Un primo passaggio della massima importanza nella gestione dei missing data è comprendere con quale ricorrenza si verifichino. Intuitivamente, sarà ben diverso gestire un dataset in cui i missing data rappresentano una piccola percentuale rispetto a un dataset con molti dati mancanti.

Lo step successivo è comprendere il perché non sia stato possibile raccogliere quel dato. Questo è un aspetto chiave nell’interpretazione dei risultati in quanto permette di distinguere se i missing data si presentino in seguito a dinamiche causali oppure, al contrario, se la loro presenza si associ a qualche fattore sperimentale specifico. Basandosi su questo criterio, è possibile distinguere i missing data secondo tre categorie principali:

Dati mancanti completamente a caso (Missing Completely At Random – MCAR): in questo caso, i missing data sono distribuiti casualmente nel campione e non sono correlati alle variabili di studio.
Dati mancanti a caso (Missing At Random – MAR): in questo caso, la probabilità con cui si verifica la mancanza del dato è correlata a determinate variabili.
Dati mancanti non a caso (Missing Not At Random – MNAR): ricadono in questa categoria tutti i missing data che dipendono sia dal valore del dato stesso che da determinate variabili di studio.

Gestire i missing data

Banalmente, il miglior metodo possibile per gestire i dati mancanti è prevenirli. Ciò richiede una progettazione attenta dello studio associata a una raccolta dati accurata. Ad esempio, si può ridurre il numero di visite di follow-up e raccogliere solo le informazioni essenziali a ogni visita, progettando moduli di facile compilazione. Prima dell’inizio della ricerca clinica, è consigliabile avere cura di sviluppare una documentazione dettagliata del protocollo operativo, inclusi i metodi per lo screening dei partecipanti, la formazione di sperimentatori e partecipanti, la comunicazione tra i vari soggetti coinvolti e il monitoraggio dei dati raccolti. In merito a quest’ultimo punto, è possibile stabilire a priori un livello di accettabilità relativamente alla presenza di missing data.

Esistono diverse tecniche per gestire i missing data ma, fondamentalmente, si può operare seguendo due approcci: eliminare le osservazioni o sostituire i dati mancanti. Di seguito vengono elencate e descritte brevemente le tecniche a disposizione dello sperimentatore.

Eliminazione caso per caso (listwise deletion): questo metodo elimina gli oggetti che presentano missing data, procedendo ad analizzare solo i dati rimanenti. Se l’assunzione di Missing Completely At Random (MCAR) è soddisfatta, questo metodo può produrre stime prive di distorsioni.
Eliminazione a coppie (pairwise deletion): questo metodo utilizza solo i dati disponibili per ogni specifica analisi, preservando più informazioni rispetto all’eliminazione caso per caso. Tuttavia, può produrre stime su insiemi di dati diversi e generare problemi nell’analisi.
Sostituzione della media (mean substitution): si procede sostituendo i valori mancanti con la media della variabile. Tuttavia, può introdurre bias nelle stime e aumentare l’errore standard.
Imputazione tramite regressione: questo metodo sostituisce i dati mancanti con valori stimati da altre variabili tramite regressione. Permette di conservare una maggiore quantità di dati rispetto all’eliminazione.
Ultima osservazione portata a termine (Last Observation Carried Forward): ogni valore mancante viene sostituito con l’ultima osservazione nota dello stesso soggetto. Anche se semplice, questo metodo può produrre stime distorte dell’effetto del trattamento.
Massima verosimiglianza (maximum likelihood): questo metodo stima i missing data utilizzando i dati osservati su altre variabili. Tuttavia, può richiedere molto tempo e può produrre stime distorte se le assunzioni non sono soddisfatte.
Imputazione multipla (multiple imputation): si sostituiscono i missing data con più valori plausibili, generando più dataset completi. Il metodo combina i risultati di analisi su questi dataset per ottenere una stima finale. È una tecnica robusta che produce stime valide anche in presenza di un campione ridotto o di un alto numero di dati mancanti.

L’applicazione di queste metodiche deve essere valutata dal ricercatore in relazione alle esigenze sperimentali e alle caratteristiche dei dati mancanti.

I missing data rappresentano una sfida significativa nella ricerca clinica, poiché possono compromettere l’affidabilità e la validità delle analisi. È essenziale comprendere la natura e la frequenza dei dati mancanti per adottare le migliori strategie di gestione. La prevenzione dei dati mancanti attraverso una progettazione accurata dello studio e una raccolta dati attenta è un primo passaggio cruciale. Se presenti, lo sperimentatore ha a disposizione diverse tecniche per gestire i missing data, adattandole in relazione alla natura dei dati mancanti.

Per approfondire:

Kang H. The prevention and handling of the missing data. Korean J Anesthesiol. 2013 May;64(5):402-6. doi: 10.4097/kjae.2013.64.5.402. Epub 2013 May 24.
Heymans MW, Twisk JWR. Handling missing data in clinical research. J Clin Epidemiol. 2022;151:185-188. doi:10.1016/j.jclinepi.2022.08.016.

Ennio Russo

Medical Writing & Scientific Communication Executive, Ph.D.

Come tratto i missing data

Ennio Russo

Dello stesso autore

L’analisi dei trend secondo il MDR: vantaggi strategici

Analisi di sopravvivenza e Kaplan-Meier: applicazione pratica nel settore Life Science

Come descrivere i metodi statistici nei documenti clinici

Comprendere i missing data

Gestire i missing data

Per approfondire:

Ennio Russo

I nostri servizi associati a questo tema

Analisi di dati

Medical Writing

Comunicazione congressuale

Comunicazione visuale

Iscriviti alla newsletter di Clariscience

Articoli consigliati

CLARISCIENCE SRL

REGISTERED OFFICE

CONTACTS

Medical writing e comunicazione scientifica

Identifica la tua esigenza per andare direttamente al servizio di cui hai bisogno.

Non hai trovato ciò di cui hai bisogno?

Sistemi di gestione per la qualità

Identifica la situazione che meglio descrive la tua necessità per andare direttamente al servizio di cui hai bisogno.

Non hai trovato ciò di cui hai bisogno?

Affari regolatori

Identifica la situazione che meglio descrive la tua necessità per andare direttamente al servizio di cui hai bisogno

Non hai trovato ciò di cui hai bisogno?

SERVIZI

Affari regolatori

Sistemi di gestione per la qualità

Medical writing e comunicazione scientifica

ABOUT US

Corporate

Work with us

Corporate

Work with us

Programma segnalatori