Skip to content

Come tratto i missing data

I dati mancanti (missing data), sono una sfida ricorrente nella ricerca clinica: ogni studio può essere soggetto alla mancanza di osservazioni sperimentali, mettendo in discussione l’affidabilità delle analisi. Comprendere la frequenza e la natura dei dati mancanti è fondamentale per adottare le strategie più adeguate nella gestione dei dati.

Picture of Ennio Russo

Ennio Russo

Medical Writing & Scientific Communication Executive, Ph.D.
dati mancanti

In ogni studio clinico, è probabile che il ricercatore si trovi a fronteggiare set di dati nei quali possa verificarsi l’assenza di determinate osservazioni; questi dati mancanti vengono detti missing data”. Quasi tutti i metodi statistici standard richiedono che, per ciascuna variabile di studio, l’informazione sia disponibile per tutti gli oggetti (cioè le osservazioni sperimentali). Di conseguenza, la gestione dei missing data assume un ruolo fondamentale che richiede massima attenzione, in quanto ignorarli potrebbe portare a risultati distorti e poco affidabili.

 

Comprendere i missing data

Un primo passaggio della massima importanza nella gestione dei missing data è comprendere con quale ricorrenza si verifichino. Intuitivamente, sarà ben diverso gestire un dataset in cui i missing data rappresentano una piccola percentuale rispetto a un dataset con molti dati mancanti.

Lo step successivo è comprendere il perché non sia stato possibile raccogliere quel dato. Questo è un aspetto chiave nell’interpretazione dei risultati in quanto permette di distinguere se i missing data si presentino in seguito a dinamiche causali oppure, al contrario, se la loro presenza si associ a qualche fattore sperimentale specifico. Basandosi su questo criterio, è possibile distinguere i missing data secondo tre categorie principali:

  • Dati mancanti completamente a caso (Missing Completely At Random – MCAR): in questo caso, i missing data sono distribuiti casualmente nel campione e non sono correlati alle variabili di studio.
  • Dati mancanti a caso (Missing At Random – MAR): in questo caso, la probabilità con cui si verifica la mancanza del dato è correlata a determinate variabili.
  • Dati mancanti non a caso (Missing Not At Random – MNAR): ricadono in questa categoria tutti i missing data che dipendono sia dal valore del dato stesso che da determinate variabili di studio.

 

Gestire i missing data

Banalmente, il miglior metodo possibile per gestire i dati mancanti è prevenirli. Ciò richiede una progettazione attenta dello studio associata a una raccolta dati accurata. Ad esempio, si può ridurre il numero di visite di follow-up e raccogliere solo le informazioni essenziali a ogni visita, progettando moduli di facile compilazione. Prima dell’inizio della ricerca clinica, è consigliabile avere cura di sviluppare una documentazione dettagliata del protocollo operativo, inclusi i metodi per lo screening dei partecipanti, la formazione di sperimentatori e partecipanti, la comunicazione tra i vari soggetti coinvolti e il monitoraggio dei dati raccolti. In merito a quest’ultimo punto, è possibile stabilire a priori un livello di accettabilità relativamente alla presenza di missing data.

Esistono diverse tecniche per gestire i missing data ma, fondamentalmente, si può operare seguendo due approcci: eliminare le osservazioni o sostituire i dati mancanti. Di seguito vengono elencate e descritte brevemente le tecniche a disposizione dello sperimentatore.

  • Eliminazione caso per caso (listwise deletion): questo metodo elimina gli oggetti che presentano missing data, procedendo ad analizzare solo i dati rimanenti. Se l’assunzione di Missing Completely At Random (MCAR) è soddisfatta, questo metodo può produrre stime prive di distorsioni.
  • Eliminazione a coppie (pairwise deletion): questo metodo utilizza solo i dati disponibili per ogni specifica analisi, preservando più informazioni rispetto all’eliminazione caso per caso. Tuttavia, può produrre stime su insiemi di dati diversi e generare problemi nell’analisi.
  • Sostituzione della media (mean substitution): si procede sostituendo i valori mancanti con la media della variabile. Tuttavia, può introdurre bias nelle stime e aumentare l’errore standard.
  • Imputazione tramite regressione: questo metodo sostituisce i dati mancanti con valori stimati da altre variabili tramite regressione. Permette di conservare una maggiore quantità di dati rispetto all’eliminazione.
  • Ultima osservazione portata a termine (Last Observation Carried Forward): ogni valore mancante viene sostituito con l’ultima osservazione nota dello stesso soggetto. Anche se semplice, questo metodo può produrre stime distorte dell’effetto del trattamento.
  • Massima verosimiglianza (maximum likelihood): questo metodo stima i missing data utilizzando i dati osservati su altre variabili. Tuttavia, può richiedere molto tempo e può produrre stime distorte se le assunzioni non sono soddisfatte.
  • Imputazione multipla (multiple imputation): si sostituiscono i missing data con più valori plausibili, generando più dataset completi. Il metodo combina i risultati di analisi su questi dataset per ottenere una stima finale. È una tecnica robusta che produce stime valide anche in presenza di un campione ridotto o di un alto numero di dati mancanti.

L’applicazione di queste metodiche deve essere valutata dal ricercatore in relazione alle esigenze sperimentali e alle caratteristiche dei dati mancanti.

 

I missing data rappresentano una sfida significativa nella ricerca clinica, poiché possono compromettere l’affidabilità e la validità delle analisi. È essenziale comprendere la natura e la frequenza dei dati mancanti per adottare le migliori strategie di gestione. La prevenzione dei dati mancanti attraverso una progettazione accurata dello studio e una raccolta dati attenta è un primo passaggio cruciale. Se presenti, lo sperimentatore ha a disposizione diverse tecniche per gestire i missing data, adattandole in relazione alla natura dei dati mancanti.

 

Per approfondire:

  • Kang H. The prevention and handling of the missing data. Korean J Anesthesiol. 2013 May;64(5):402-6. doi: 10.4097/kjae.2013.64.5.402. Epub 2013 May 24.
  • Heymans MW, Twisk JWR. Handling missing data in clinical research. J Clin Epidemiol. 2022;151:185-188. doi:10.1016/j.jclinepi.2022.08.016.
Picture of Ennio Russo

Ennio Russo

Medical Writing & Scientific Communication Executive, Ph.D.

I nostri servizi associati a questo tema

Iscriviti alla newsletter di Clariscience

Articoli consigliati

Abbiamo già più volte sottolineato l’enorme importanza della comunicazione visiva in ambito medico-scientifico. Se usate opportunamente, le immagini infatti possono:…
In Italia, ai sensi dell’art. 2050 del Codice Civile (c.c.), l’attività esercitata nell’ambito di una sperimentazione clinica può essere qualificata…
Dovendo rispondere al perché è stato condotto uno studio, l’introduzione di un articolo clinico contiene informazioni estremamente rilevanti alla comprensione…
In ogni studio clinico, è probabile che il ricercatore si trovi a fronteggiare set di dati nei quali possa verificarsi…

Desideri avere maggiori informazioni sui nostri servizi?

CLARISCIENCE ATTENDS MEDICA

11-14 NOVEMBER 2024

Düsseldorf Germany

HALL 13 | B77

SERVIZI

Desideri avere maggiori informazioni sui nostri servizi.

ABOUT US

Corporate

Scopri quali sono i valori alla base della nostra azienda, l’ecosistema all’interno del quale operano le persone che lavorano con noi, l’approccio che adottiamo nel rapporto con il cliente e le iniziative liberali selezionate e sostenute negli anni.

Work with us

Informati su eventuali posizioni aperte, invia la tua candidatura spontanea e scopri quali sono le caratteristiche dei profili professionali di chi già lavora con noi.

Programma segnalatori

Se operi nel settore life science, c’è una nuova opportunità che ti aspetta. Partecipando al Clariscience Referral Program potrai mettere a frutto economicamente la tua esperienza e la tua rete di contatti.

Desideri avere maggiori informazioni sui nostri servizi?