Le misure di regressione per variabili discrete

Il modello di regressione di tipo logistico si applica per analizzare come varia la probabilità di un evento descritto sulla base di caratteri discreti in risposta a uno o più fattori. La natura del modello e la sua interpretazione devono essere valutati attentamente in relazione alle caratteristiche dei dati sperimentali.

Ennio Russo

Medical Writing & Scientific Communication Executive, Ph.D.

Dello stesso autore

L'analisi dellle tendenze secondo il MDR

L’analisi dei trend secondo il MDR: vantaggi strategici

7 Gennaio 2026

Analisi di sopravvivenza e Kaplan-Meier: applicazione pratica nel settore Life Science

25 Giugno 2025

Come descrivere i metodi statistici nei documenti clinici

16 Giugno 2025

14 Dicembre 2023

In un articolo precedente, è stata presentata l’analisi di regressione, che si definisce come quel metodo statistico utile a predire il valore medio di una variabile dipendente (Y) in risposta a una o più variabili indipendenti (X) – chiamate anche fattori.

Quando le variabili sono caratteri continui, è possibile applicare il modello di regressione lineare. Quale modello di regressione utilizzare, invece, quando la variabile dipendente è un carattere discreto? In tal caso, si ricorre a un modello di regressione di tipo logistico. La regressione logistica può essere di tipo binario, ordinale o multinomiale a seconda delle caratteristiche della variabile dipendente analizzata. Al contrario, la variabile (o le variabili) indipendente può essere costituita da un carattere discreto o da una variabile continua.

Regressione logistica

Si prenda ad esempio un caso in cui gli eventi sperimentali vengano categorizzati come Y = 1 nel caso in cui si sia verificato l’evento di interesse (ad es., presenza di peggioramento delle condizioni di salute) e come Y = 0 se l’evento non sia verificato (ad es., nessun peggioramento). Per valutare la probabilità del verificarsi dell’evento di interesse in relazione a un fattore specifico, è possibile condurre una regressione logistica che stimi la Prob(Y = 1) al variare della variabile indipendente considerata (ad. esempio il sesso dei soggetti, l’età, la dose di un farmaco) (Figura 1).

L’equazione che descrive la regressione logistica è del tipo g(.)=β₀+β₁ x, dove il termine β₀+β₁ x’ è detto “predittore lineare”, che implica la definizione dell’intercetta β₀e della pendenza β₁di (.). La funzione (.) è detta “link function” e assicura che tutti i valori stimati dal predittore lineare siano sempre compresi nell’intervallo [0,1]. In tal modo,

se il predittore lineare diminuisce, la Prob(Y) tende a 0;

se il predittore lineare aumenta, la Prob(Y) tende a 1 (Figura 2).

Nella regressione logistica, la funzione (.) è definita “logit” e corrisponde al logaritmo dell’odds dell’evento di interesse:

Da queste considerazioni sulla struttura del modello di regressione logistica, si traggono le seguenti conclusioni in relazione al valore assunto dalla funzione logit.

Se Prob(Y) = 0.5, allora l’Odds = 0.5/(1-0.5) = 1; allora logit = log(1) = 0

Se Prob(Y) > 0.5, allora l’Odds > 1; allora logit > 0

Se Prob(Y) < 0.5, allora l’Odds < 1; allora logit < 0

Quando la variabile risposta è costituita da un carattere discreto ordinale, la regressione logistica viene adattata di conseguenza. Infatti, la variabile risposta non assumerà più un valore dicotomico (1 o 0), ma piuttosto n valori arbitrari ordinati, in modo che gli n eventi siano mutualmente esclusivi, così che Y = 1 < 2 < 3 < 4 < … < k. Il modello definisce la probabilità di ciascun evento utilizzando una trasformazione della funzione logit:

In questo modo, si costruisce un modello per odds proporzionali, che includerà un numero di coefficienti β₀(intercette) pari al numero di livelli k-1 e un numero di coefficienti β pari al numero di confronti. Si prenda ad esempio il caso in cui si voglia testare la soddisfazione dei pazienti rispetto a 3 possibili terapie (1, 2 o 3), in relazione alle quali ogni soggetto ha espresso un giudizio di gradimento (“scarso”, “sufficiente”, “buono”, “ottimo”, “eccellente”). In questo caso, il numero di intercette sarà pari al numero di livelli k-1 = 5-1 = 4. Il numero di confronti, invece, sarà pari al numero di terapie meno uno = 3-1 = 2. In base ai valori di β₀ e β sarà possibile definire quale terapia sarà stata maggiormente preferita dai pazienti.

La regressione logistica è un metodo statistico che permette di stimare l’influenza di fattori continui e/o discreti su una variabile categorica, sia essa dicotomica, ordinale o multinomiale. In questo modo, è possibile inferire con quale probabilità Prob(Y) si possa verificare un evento in risposta ai predittori inclusi nel modello.

Ennio Russo

Medical Writing & Scientific Communication Executive, Ph.D.

I nostri servizi associati a questo tema

Analisi di dati

Medical Writing

Clinical writing

Iscriviti alla newsletter di Clariscience

Articoli consigliati

Comunicazione Scientifica

Raccolta dati clinici MDR: opzioni e strategie per dispositivi medici

10 Dicembre 2025

Anna Paro

Quali tipi di raccolta di dati clinici possono essere attuate per rispondere ai requisiti MDR? Scopriamoli insieme!

Comunicazione Scientifica

Studi ecologici per generare evidenze real-world nel Life Science

3 Dicembre 2025

Lorenzo Cottini

Come rispondere alla crescente richiesta di evidenze cliniche real-world senza la complessità degli studi clinici tradizionali? Vi presentiamo gli studi…

Comunicazione Scientifica