Skip to content

Gli strumenti informatici per le analisi statistiche

In ambito sperimentale è importante scegliere con consapevolezza lo strumento informatico più adeguato alla manipolazione di un set di dati e all’analisi statistica. Le risorse disponibili ad oggi sono moltissime e comprendono software più o meno complessi. La scelta si basa sulle specifiche esigenze dell’operatore.

Picture of Ennio Russo

Ennio Russo

Medical Writing & Scientific Communication Executive, Ph.D.
Statistica e informatica

Un’elaborazione dei dati accurata e consapevole è la chiave per pervenire a conclusioni veritiere. Se in un passato non troppo lontano questo processo veniva eseguito manualmente dal ricercatore, inclusa l’analisi statistica descrittiva e/o inferenziale, negli ultimi decenni – e in particolare negli ultimi anni – stiamo assistendo a un’esplosione di strumenti informatici che permettono elaborazioni efficienti di dati anche molto complessi. In questo mare magnum, forse, ci si può sentire un po’ disorientati. In effetti, non c’è una scelta giusta o sbagliata. Gli strumenti disponibili ad oggi sono così numerosi e variegati che il ricercatore può adattare la scelta in base alle proprie esigenze. Volendo proporre una categorizzazione, si possono distinguere software vincolati da licenza e software open-source, software che richiedono l’implementazione di un codice e altri con interfaccia intuitiva, software dedicati alla manipolazione di dati e all’analisi statistica e altri più improntati sulla resa grafica.

Lo scopo di questo breve articolo è quello di descrivere per sommi capi le caratteristiche di alcuni dei software più comunemente utilizzati per la manipolazione dei dati e l’analisi statistica in ambito scientifico, con particolare attenzione al mondo clinico e sperimentale nel campo delle scienze della vita. Tra questi programmi rientra anche Microsoft Excel, che verrà descritto a parte, in quanto il suo utilizzo è formalmente vincolato dalla licenza Windows, il sistema operativo più utilizzato. Sicuramente, l’elenco proposto non sarà esaustivo e non fornirà informazioni dettagliate sulle peculiarità di utilizzo di ciascun programma; tuttavia, potrà aiutare il lettore ad operare una scelta più consapevole dello strumento più idoneo alle proprie esigenze.

Microsoft Excel

Estremamente diffuso e di utilizzo comune, Excel permette di massimizzare la fruibilità e la condivisione delle informazioni. Inoltre, Excel consente di applicare in modo intuitivo una serie di funzioni utili alla gestione dei dati, come ad esempio filtri, formattazioni condizionali e inserimento di formule più o meno complesse. Dal punto di vista grafico, Excel permette di produrre una vasta quantità di grafici, che però non raggiungono la resa garantita da altri programmi. Ancora, i vantaggi nell’uso di Excel si estendono alla compatibilità e al dialogo con tutto il mondo Microsoft.

Di contro, con Excel può essere complicato riprodurre uno stesso processo di manipolazione dei dati, rendendo più complessa la replicabilità di un risultato statistico. Peraltro, Excel non nasce come un software dedicato alle analisi statistiche, ma è possibile installare dei componenti aggiuntivi di analisi che consentano di produrre analisi descrittive e inferenziali di diversa natura (ad es. analisi della varianza, regressione, t-test). Tuttavia, alcuni autori hanno messo in dubbio la robustezza degli algoritmi implementati in alcune funzioni di Excel dedicate alla statistica inferenziale, come l’analisi della varianza e la regressione.

Software con licenza

I software vincolati da licenza e dedicati alla manipolazione di dati e all’analisi statistica sono moltissimi, ciascuno caratterizzato da peculiarità che lo rendono diverso rispetto agli altri e più adatto a determinate esigenze rispetto ad altre. Tra questi, si distinguono software basati su interfaccia, software che richiedono l’inserimento di codice e software che consentono entrambe le opzioni. Di seguito, si riporta una breve descrizione di alcuni dei programmi più utilizzati.    

  • GraphPad Prism

Questo software intuitivo consente di gestire le funzioni interamente mediante l’uso del mouse. Offre la possibilità di applicare una serie di analisi statistiche i cui risultati vengono presentati all’utilizzatore completi di interpretazione. Inoltre, qualora si dovessero modificare i dataset, GraphPad rielabora automaticamente le informazioni e restituisce i risultati aggiornati. Il software consente una riproduzione grafica avanzata.

  • IBM SPSS

Questo software consente di applicare una vasta gamma di analisi statistiche e funziona mediante interfaccia grafica. Tuttavia, il suo utilizzo richiede che l’utente possieda delle competenze di statistica che gli permettano di discernere il tipo di dati e di selezionare la metodologia migliore per la loro analisi. In effetti, questo principio si applica indipendentemente dal software utilizzato, ma alcuni programmi offrono all’utente una procedura più dettagliata. 

  • Origin Lab

Origin è utile per la rappresentazione e l’analisi dei dati, includendo una vasta gamma di funzioni per le analisi statistiche. Il software offre la possibilità di eseguire operazioni mediante interfaccia grafica o l’inserimento di codice. In termini di interfaccia, l’utente può inserire i dati in un ambiente in cui le informazioni vengono categorizzate per colonna; ciò significa che ciascuna colonna viene contrassegnata con diverse caratteristiche circa la natura del dato in essa contenuto.

  • Stata

Si tratta di un pacchetto completo per la gestione dei dati, l’analisi statistica e la rappresentazione grafica. L’uso di questo programma è molto diffuso in diversi settori scientifici e di ricerca. L’utilizzatore ha la possibilità di accedere a funzioni con interfaccia intuitiva o di inserire dei codici di comando per l’esecuzione delle operazioni richieste. Stata consente una gestione flessibile dei dati e l’applicazione delle funzioni statistiche più disparate.

  • SAS

SAS – acronimo per Statistical Analysis System – è probabilmente il software più utilizzato in molti ambiti di ricerca e in particolare in ambito clinico. SAS è un complesso di prodotti software integrati che permette a un programmatore di inserire e gestire i dati, di generare report e grafici, di condurre analisi statistiche avanzate. Il programma funziona mediante un linguaggio di programmazione facile da apprendere. Inoltre, offre il vantaggio di poter accedere a guide esaustive e di ricevere supporto tecnico professionale quando necessario. Tuttavia, l’aggiornamento delle sue funzioni è vincolato dal rilascio ufficiale da parte della casa madre e dal punto di vista grafico non raggiunge gli standard di altri software.

Software open-source

Anche in questo caso esistono moltissime soluzioni valide per la manipolazione dei dati e l’applicazione di una vasta gamma di analisi. Come discusso per i software vincolati da licenza, anche i programmi open-source si dividono in software a interfaccia grafica intuitiva o a inserimento di codice di programmazione.

I software a interfaccia grafica disponibili in rete sono molti, tra cui GNU PSPP, Jamovi, PAST, Develve e Invivostat. Lo scopo di questo breve articolo non è quello di descrivere nel dettaglio le caratteristiche di ognuno di questi programmi; quindi, si invita il lettore a esplorarli per verificare quale soluzione possa essere più idonea alle proprie esigenze.

Tra i software open-source basati su inserimento di codice, quelli più diffusi sono probabilmente Python e R. Mentre Python è più orientato alla gestione di database, R nasce come un programma dedicato all’analisi statistica. R è un software versatile, che permette di manipolare i dati sperimentali in modo molto efficiente offrendo la possibilità di applicare una vasta gamma di analisi statistiche. Il vantaggio principale di R è che permette di arricchire le funzioni a disposizione mediante l’installazione di pacchetti sviluppati da programmatori indipendenti. Ciò favorisce lo sviluppo continuo di nuove possibilità analitiche a una velocità difficilmente equiparabile da altri software. Inoltre, l’utilizzatore può godere di una vasta gamma di risorse online gratuite (blog, guide, siti internet) per la risoluzione di problemi. Lo sviluppo di pacchetti dedicati ha favorito anche la diffusione di funzioni che ne hanno incrementato la resa grafica, pari solo ad alcuni software vincolati da licenza (ad es. MATLAB). Per queste ragioni, R rappresenta ad oggi uno dei software più diffusi per l’analisi di dati in moltissimi settori di ricerca, incluso l’ambito clinico.

Gli svantaggi di R risiedono nel fatto che la curva di apprendimento è molto ripida e l’utilizzatore deve essere consapevole di come il codice generato influisce sulla struttura dei dati. Dal momento che molti pacchetti vengono sviluppati da programmatori indipendenti, è possibile che questi includano degli errori che possono essere difficili da identificare. Tuttavia, il recente sviluppo della piattaforma RStudio ha facilitato l’uso di R anche per i meno esperti, in quanto questo strumento favorisce lo sviluppo organizzato del codice, permette di visualizzare facilmente i dataset e i grafici e di accedere con facilità a risorse di supporto nell’applicazione di funzioni.

Conclusioni

In ambito sperimentale, la manipolazione e l’analisi statistica dei dati rappresentano un’operazione di fondamentale importanza per pervenire a conclusioni veritiere. L’operatore oggi può contare su un’ampia gamma di software, potendo scegliere tra programmi open-source o vincolati da licenza, basati su interfaccia grafica o sulla scrittura di un codice, quelli maggiormente orientati alla resa grafica o con più funzioni in ambito statistico. Non c’è una scelta giusta o sbagliata, l’importante è arrivare a una decisione consapevole.

Per approfondire:

SSC 200 – Using Excel for Statistics: Tips and Warnings. 💻Link

Conrad SA, Shi R. Statistical software programs. Ann Allergy Asthma Immunol. 2009;103(4 Suppl 1):S51-S58. doi:10.1016/s1081-1206(10)60822-8. 

Siti web:

10 Best Free and Open Source Statistical Analysis Software. 💻Link 

25 Best Statistical Analysis Software 💻Link 

Picture of Ennio Russo

Ennio Russo

Medical Writing & Scientific Communication Executive, Ph.D.

Iscriviti alla newsletter di Clariscience

Articoli consigliati

Definire la soglia di significatività ha implicazioni pratiche nel processo di inferenza statistica e nell’interpretazione dei risultati sperimentali. Esaminiamo le…
Le competenze richieste per la realizzazione di una presentazione efficace di un prodotto, seppur molto variabili, sono strettamente correlate alla…
Per consenso informato si intende quel processo in cui i potenziali partecipanti ad uno studio clinico vengono messi al corrente…
L’H-index, o indice di Hirsch (indice H), è stato concepito nel 2005 da Jorge E. Hirsch come indicatore della qualità…

Desideri avere maggiori informazioni sui nostri servizi?

SERVIZI

Desideri avere maggiori informazioni sui nostri servizi.

ABOUT US

Corporate

Scopri quali sono i valori alla base della nostra azienda, l’ecosistema all’interno del quale operano le persone che lavorano con noi, l’approccio che adottiamo nel rapporto con il cliente e le iniziative liberali selezionate e sostenute negli anni.

Work with us

Informati su eventuali posizioni aperte, invia la tua candidatura spontanea e scopri quali sono le caratteristiche dei profili professionali di chi già lavora con noi.

Programma segnalatori

Se operi nel settore life science, c’è una nuova opportunità che ti aspetta. Partecipando al Clariscience Referral Program potrai mettere a frutto economicamente la tua esperienza e la tua rete di contatti.

Desideri avere maggiori informazioni sui nostri servizi?