Il 2022 è stato l’anno di lancio di ChatGPT, sistema di intelligenza artificiale (artificial intelligence, AI) sviluppato da OpenAI, in grado di comprendere ed emulare il linguaggio umano attraverso l’addestramento su una grossa mole di testi. Solo un anno dopo, nel 2023, Google lanciava Gemini, anch’esso sistema di AI in grado di generare contenuti basati sul medesimo approccio.
Se fino ad allora la principale preoccupazione delle riviste accademiche riguardava il plagio – ossia la presentazione di un lavoro altrui come proprio – con l’avvento di questi veri e propri generatori di testo, l’editoria scientifica si è trovata ad affrontare numerose questioni in merito all’integrità e alla paternità dei contenuti.
A differenza del plagio, che è facilmente rilevabile mediante il semplice utilizzo di strumenti basati sul confronto di schemi testuali, i contenuti generati dall’AI sono spesso originali, contestualmente appropriati e sempre più simili ai contenuti di generazione umana, rendendo il processo di individuazione molto più complesso.
Benché il panorama accademico si stia gradualmente orientando verso un’integrazione costruttiva dell’AI, alcune riviste cliniche e medico-scientifiche utilizzano strumenti che ne rilevano l’utilizzo, data l’incapacità umana di distinguere un testo generato dall’AI da uno di generazione umana.
Ad oggi ne sono stati sviluppati numerosi, differenti tra loro per accuratezza, velocità di analisi, facilità d’uso e costo.
Vediamone alcuni assieme:
Turnitin
È uno degli strumenti più noti nel settore dell’editoria scientifica, in quanto già utilizzato come software anti-plagio. Recentemente ha sviluppato un modulo specifico per il rilevamento di contenuti AI basato sull’analisi sintattica e stilistica del contenuto. È molto preciso, ma presenta un’interfaccia complessa. È generalmente disponibile tramite licensing agreements per università e istituzioni, con prezzi annuali a partire da 1.000 dollari.
Originality.AI
È uno strumento appositamente addestrato per la rilevazione di contenuti generati da modelli quali GPT-3 e GPT-4, basandosi su aspetti come la sintassi, la logica e il lessico. Presenta un’interfaccia semplice ed è molto preciso, ma non dispone di una versione gratuita.
Crossplag
È uno strumento in grado di eseguire contemporaneamente la rilevazione di contenuti AI e il controllo anti-plagio, grazie all’implementazione di algoritmi di deep learning. È abbastanza preciso ed intuitivo da utilizzare, con costi a partire dai 500 dollari annuali.
GPTZero
È uno strumento sviluppato appositamente per identificare testi GPT mediante l’analisi di caratteristiche quali la densità lessicale, le ripetizioni e la complessità delle frasi. È abbastanza semplice da usare e dispone di una versione base gratuita. Tuttavia, le funzionalità gratuite sono limitate.
Copyleaks
È una versione avanzata del noto omonimo tool anti-plagio, basato su un’analisi stilistica e semantica per l’individuazione dei contenuti AI. Restituisce un’analisi molto dettagliata, ma è abbastanza costoso (fino a 150 dollari al mese!).
SciSpace Academic
È uno strumento pensato per il contesto accademico. È in grado di individuare contenuti generati da modelli come GPT-4, ChatGPT, e altri strumenti di AI-writing con un’accuratezza dichiarata fino al 98%. È abbastanza semplice da usare ed è gratuito.
Sapling
È uno strumento avanzato progettato per rilevare contenuti generati da AI, offrendo altresì l’analisi per frase e per parola ed evidenziando le sezioni sospette. Dispone di una versione gratuita con limitazioni e un piano Pro a pagamento per le funzionalità avanzate.
Ma questi strumenti sono davvero affidabili?
Dando uno sguardo ai siti ufficiali di questi strumenti, su uno in particolare salta subito all’occhio un disclaimer. È in inglese, ma tradotto recita: “Nessun rilevatore di contenuti AI attualmente disponibile dovrebbe essere utilizzato come unico criterio per determinare se un testo sia stato generato da un’intelligenza artificiale o scritto da un essere umano. Falsi positivi e falsi negativi sono possibili.”
Andando alla ricerca di ulteriori informazioni – soprattutto numeri – e consultando la letteratura, si trovano già alcuni studi che hanno valutato l’efficacia di questi rilevatori. Tra i diversi disponibili, appare molto interessante uno studio pubblicato recentemente sulla rivista Clinical Cancer Informatics. Tale studio si è occupato di analizzare l’accuratezza dei tre noti rilevatori (GPTZero, Originality.AI e Sapling) vagliando ben 15.553 abstracts scientifici estratti dai meeting annuali ASCO 2021-2023 per valutare la probabilità che contenessero contenuti generati da AI. I risultati si sono rivelati molto interessanti; hanno, infatti, mostrato che gli abstracts presentati nel 2023 avevano una probabilità significativamente maggiore di contenere testi generati con l’AI rispetto a quelli del 2021 (anno in cui ChatGPT non esisteva ancora!). Non solo, per valutare ulteriormente l’accuratezza, sono stati analizzati 100 abstracts selezionati casualmente dagli anni 2018-2019, utilizzati come controlli negativi “verosimilmente umani” (redatti prima dell’arrivo dell’AI) e 200 abstracts generati appositamente usando GPT-3 e GPT-4. I rilevatori GPTZero, Originality.AI e Sapling hanno identificato rispettivamente il 99,5%, il 96% e il 97% degli abstracts generati da AI come tali, mentre non hanno rilevato contenuti AI in quelli precedenti al 2020.
Tuttavia, sebbene abbastanza accurati, questi strumenti presentano ancora dei limiti. Per esempio, non sono in grado di rilevare se un contenuto sia stato totalmente generato dal modello AI o se sia stato solo ed esclusivamente corretto dal punto di vista grammaticale, restituendo un risultato ambiguamente interpretabile; ancora, non sono in grado di distinguere contenuti misti, ossia contenuti elaborati parzialmente da esseri umani e parzialmente generati da AI, e presentano un livello di accuratezza ridotta nel caso di testi di breve lunghezza e in base al generatore di testo utilizzato. Infine, non sono immuni da restituire falsi positivi e falsi negativi.
Alla luce di queste criticità, è doveroso riflettere sul loro impiego indiscriminato. Sebbene siano nati con l’intento di salvaguardare l’integrità accademica, questi strumenti presentano ancora margini di errore che ne mettono in discussione l’affidabilità, aspetto non trascurabile se utilizzati per supportare politiche editoriali che vietano l’uso dell’AI. Questo livello di incertezza, che dimostra l’impossibilità di rilevare con assoluta precisione contenuti generati da AI, ha sollevato numerosi interrogativi all’interno del panorama dell’editoria scientifica.
Sempre più, infatti, si fa strada la consapevolezza che una completa esclusione dell’uso dell’AI non sia realistica e che l’adozione di politiche editoriali più inclusive e trasparenti rappresenti l’approccio più equilibrato ed attuabile.
Fonti:
- Chemaya N, Martin D. Perceptions and detection of AI use in manuscript preparation for academic journals. Blake J, ed. PLoS ONE. 2024;19(7):e0304807. doi:10.1371/journal.pone.0304807
- Howard FM, Li A, Riffon MF, Garrett-Mayer E, Pearson AT. Characterizing the Increase in Artificial Intelligence Content Detection in Oncology Scientific Abstracts From 2021 to 2023. JCO Clin Cancer Inform. 2024;(8):e2400077. doi:10.1200/CCI.24.00077
- Top Programs for Detecting AI in Articles: How to Maintain Academic Integrity in the Era of Artificial Intelligence – Futurity research publishing. Accessed April 9, 2025. https://futurity-publishing.com/top-programs-for-detecting-ai-in-articles-how-to-maintain-academic-integrity-in-the-era-of-artificial-intelligence/?utm_source=chatgpt.com