Digital twins e coorti virtuali. Quale utilizzo del dato sintetico per la real-world evidence?
Introduzione
I real world data (RWD) sono dati sanitari raccolti al di fuori dei contesti sperimentali controllati e derivano da fonti quali cartelle cliniche elettroniche, registri di pazienti e database amministrativi.1 A questi si aggiungono i dati generati dai dispositivi digitali, come wearable, sensori biometrici, app per il monitoraggio della salute e strumenti di telemedicina, che forniscono informazioni in tempo reale sullo stato di salute e sul comportamento dei pazienti nella vita quotidiana (big data). Quando i RWD vengono analizzati per generare evidenze utili alla pratica clinica e alle decisioni regolatorie, si parla di real world evidence (RWE). In un contesto sempre più data-driven, l’interesse verso l’utilizzo secondario dei RWD è in continua crescita, anche per la ricerca epidemiologica e la salute pubblica. Tuttavia, l’impiego dei RWD presenta ancora diverse criticità: limitata profondità informativa, problemi di validità interna ed esterna, scarsa interoperabilità tra flussi dati appartenenti da sistemi intra-interregionali differenti2 e difficoltà di accesso dovute a rigide normative sulla privacy3.
L’accesso ai dati sanitari è, infatti, soggetto a misure di tutela previste dalla normativa vigente, come il Regolamento Generale sulla Protezione dei Dati (GDPR) dell’Unione europea. Un approccio comunemente adottato per l’analisi di dati sensibili in questo contesto è la pseudonimizzazione, che mira a ridurre il rischio di re-identificazione al di sotto di soglie accettabili. Le tecniche impiegate, come il data masking, possono ridurre la qualità e la granularità dell’informazione anche in dataset definibili ad alta dimensione per gigabyte o per numero di righe (osservazioni) e colonne (variabili).
Nella ricerca epidemiologica, l’accesso a dati di popolazione validi e dettagliati è essenziale. In questo scenario, risulta fondamentale una riflessione se i dati sintetici possano offrire uno scenario alternativo in caso di difficoltà di accesso al dato reale, in quanto si tratta di dataset generati artificialmente che conservano le proprietà statistiche dei dati originali, ma senza contenere informazioni sensibili individuali. In diversi ambiti industriali, i dati sintetici già offrono un’alternativa all’uso di dati personali e il loro impiego si sta progressivamente diffondendo.4
Per valutare la potenziale rilevanza di questo approccio anche in ambito epidemiologico, è stata eseguito una ricerca su PubMed utilizzando i termini “synthetic data” ed “epidemiology”. I risultati mostrano un incremento del numero di pubblicazioni a partire dal 2020, a indicare un interesse scientifico in costante crescita (figura 1).
Le domande intorno alla quali si vuole proporre una riflessione sono le seguenti: i dati sintetici possono rappresentare una soluzione privacy-compliant tecnologicamente innovativa e versatile per la ricerca, come talvolta sostenuto? Se lo scenario è cosi promettente, può oggi la ricerca beneficiare dell’utilizzo di dati sintetici per incrementare le evidenze? Quali potrebbero essere i vantaggi di investire risorse e competenze in questo ambito?
Una premessa necessaria è che non esiste una definizione univoca di dato sintetico.5 Si tratta di dati generati artificialmente (da qui il termine “sintetici”) a imitazione dei dati provenienti dal mondo reale, ma non riconducibili a soggetti reali. La popolazione virtuale riproduce la numerosità e le proprietà statistiche e distributive della popolazione reale di partenza da cui è generata (da cui il termine digital twins). Se, per esempio, si esaminassero nel dettaglio le informazioni di un singolo paziente virtuale, si sarebbe, almeno in teoria, impossibilitati a risalire alle informazioni originarie. Inoltre, attingendo al celebre paradigma del test di Turing – che verifica se un osservatore riesce a distinguere se qualcosa è umano o artificiale –, si può affermare che anche l’osservatore più attento non sarebbe in grado di distinguere se le informazioni relative a un paziente, sia dal punto di vista formale sia di contenuto, provengano dalla realtà o siano state generate artificialmente. Questo li rende, almeno sulla carta, valutabili per la condivisione sicura in contesti in cui la privacy è una preoccupazione primaria. L’utilizzo di dati sintetici a fini analitici richiede che essi siano sufficientemente rappresentativi dei dati originali da garantire la validità analitica, ma abbastanza dissimili da impedire la re-identificazione accidentale o dolosa.
Di conseguenza, dal punto di vista formale, i dati sintetici possono essere:
- strutturati, ovvero organizzati in forma tabellare o in formati predefiniti;
- non strutturati, come pixel, immagini, audio o testi;
- sequenziali o longitudinali.
Tecniche di generazione
L’idea di produrre dati simulati risale al 1993,6 con l’utilizzo di metodi basati sull’imputazione multipla, una tecnica statistica utilizzata per gestire dati mancanti in un dataset. In particolare, attraverso questo approccio, invece di sostituire i valori mancanti con una singola stima, il metodo genera più versioni plausibili dei dati mancanti, creando così diversi dataset. Successivamente, le analisi vengono eseguite su ciascun dataset e i risultati vengono combinati per ottenere stime più affidabili e meno distorte.
La procedura di sintesi dell’intero dataset rappresenta uno sforzo intellettuale e computazionale importante e, sebbene offra al ricercatore un vantaggio teorico, in termini di accessibilità, rispetto al dato reale, non sempre è un’attività necessaria.
Per questo motivo, in seguito si è proposta l’idea di sintetizzare solo alcune variabili (sintesi parziale), per esempio, elaborando esclusivamente le variabili sensibili alla divulgazione pubblica dei dati originali.7
Le tecniche per la generazione di dati sintetici (figura 2) si sono evolute nel tempo e sono classificabili in:
- metodi parametrici: assumono che i dati reali seguano una distribuzione statistica a priori, attraverso cui si generano i dati sintetici ex novo o attraverso campionamento di dati da quella distribuzione;
- metodi non parametrici: non richiedono ipotesi sulla distribuzione dei dati reali e utilizzano tecniche come alberi decisionali (Classification and Regression Trees) o reti neurali per apprendere le relazioni sottostanti nei dati (Support Vector Machines, Random Forest), largamente impiegate nel machine learning.8
Di recente introduzione sono i modelli di apprendimento profondo appartenenti alla famiglia delle reti neurali generative:
- reti generative avversarie (GAN): utilizzano due reti neurali in competizione tra loro (generativa e discriminativa) per produrre dati sintetici altamente realistici, specialmente immagini. Nello specifico, la rete generatrice crea immagini sintetiche, quella discriminatrice cerca di distinguere tra immagini reali e sintetiche. Si tratta di un processo iterativo che permette di migliorare continuamente la qualità delle immagini generate e di produrre rappresentazioni altamente realistiche;
- variational autoencoder (VAE): combinano principi della teoria delle probabilità con le prestazioni tipiche dell’apprendimento profondo. Sono progettate per apprendere caratteristiche latenti di dati complessi, permettendo di generare nuovi dati simili a quelli osservati durante l’addestramento. Gli encoder trasformano i dati di input in uno spazio latente probabilistico, l’output dell’encoder è una distribuzione nello spazio latente. I decoder, invece, ricostruiscono i dati originali, campionando dalla distribuzione latente generata dall’encoder.9
Gli studi epidemiologici che si avvalgono di RWD possono avere come oggetto patologie rare, specifici strati di popolazione o coorti non necessariamente composte da migliaia di osservazioni; inoltre, la distribuzione delle caratteristiche cliniche può risultare sbilanciata tra casi e controlli per via della bassa numerosità osservata. Nell’ambito dell’intelligenza artificiale e del machine learning, esistono metodi che si avvalgono delle tecniche generative sopraelencate per la generazione di osservazioni virtuali, a partire dal dato reale, al fine di aumentare la dimensione del campione (in termini di numero di righe/osservazioni, colonne/variabili), la potenza statistica e la variabilità delle caratteristiche.
Questo processo prende la denominazione di data augmentation.10 Sebbene formalmente distinta dalla generazione sintetica, la data augmentation può essere considerata una forma di sintesi quando produce dati nuovi a integrazione di dataset reali. Questo processo si pone l’obiettivo di migliorare la capacità di generalizzazione dei modelli, riducendo il rischio di overfitting e aumentando la robustezza delle previsioni.
Valutazione dell’utilità e fedeltà all’informazione originaria
Il concetto di utilità si riferisce al grado in cui i dati sintetici riescono a replicare proprietà e caratteristiche dei dati reali quando la generazione sintetica è funzionale al raggiungimento di un obiettivo specifico, come l’addestramento di modelli o l’analisi statistica. L’accezione di fedeltà al dato originale è declinabile dal punto di vista operativo (i dati sintetici devono compatibili con sistemi, software e flussi di lavoro esistenti), statistico (i dati sintetici mantengono le stesse distribuzioni, correlazioni e pattern dei dati reali), predittivo (i modelli addestrati su dati sintetici danno risultati comparabili a quelli dei modelli addestrati su dati reali), analitico (in termini di replicabilità dei risultati, ovvero i risultati ottenuti analizzando la coorte sintetica dovrebbero essere fedeli, cioè comparabili, ai risultati analitici ottenuti sui dati reali).11 Per valutare le comparabilità delle analisi, si utilizzano tre criteri principali:
1. concordanza della stima: è un indicatore dicotomico che verifica se la stima prodotta dai dati sintetici rientra nell’intervallo di confidenza (IC) al 95% della stima reale; ciò implica che la stima dell’effetto nei dati sintetici deve rientrare nell’intervallo di valori plausibili per il vero effetto;
2. concordanza della decisione: altro indicatore booleano che verifica se l’interpretazione della stima, in termini di direzione e significatività, è equivalente tra dati reali e sintetici; ciò significa che l’interpretazione statistica è la stessa;
3. sovrapposizione dei CI: misura il grado di sovrapposizione tra gli intervalli di confidenza reali e sintetici.
Alcuni autori suggeriscono che applicare un ragionamento a posteriori, ovvero regolare i metodi di sintesi per far sì che i risultati sul dato sintetico coincidano con quelli dell’originale, sia una strada non perseguibile. I dettagli delle analisi sono raramente noti e, anche se lo fossero, creare la sintesi in modo da ottenere un accordo di risultato con un modello di analisi fornirebbe risposte concordi, ma i residui del modello applicato ai dati sintetici non fornirebbero alcuna prova di eventuali inadeguatezze del modello stesso nel descrivere adeguatamente il dato. Pertanto, si predilige ragionare sulle correlazioni tra le variabili originariamente presenti nei dati piuttosto che cercare di replicare un risultato atteso.12
Quantificazione del privacy risk
Sebbene i dati sintetici siano progettati per ridurre il rischio di divulgazione di informazioni riservate, non sono completamente esenti da vulnerabilità.
Una delle principali barriere all’adozione su larga scala dei dati sintetici riguarda proprio la preoccupazione riguardo alla capacità reale di questi dati di preservare la riservatezza dell’informazione. Se esiste il rischio di poter re-identificare individui reali da un dataset sintetico, il vantaggio della loro generazione rispetto a tecniche tradizionali di pseudonimizzazione risulta compromesso.
Quantificare il rischio di re-identificazione è complesso: esistono metriche per valutare la privacy dei dati sintetici, ma la loro validazione è ancora in fase di sviluppo e non esiste un consenso uniforme nel mondo accademico e nell’industria.
Molte tecniche di machine learning possono generare entusiasmo ed eccessiva fiducia nello strumento; il dato sintetico non fa eccezione. In generale, il livello di sicurezza può essere valutato empiricamente attraverso l’esito di test ad hoc, tra cui l’estrazione di informazione reale dal singolo dato o inversioni a ritroso dell’informazione particolare a partire dai modelli.13
È importante fare attenzione quando si riportano metriche di prestazione relative ai livelli di protezione del dato, poiché spesso si basano su misure medie. Come osservato da Carlini et al.: «Se un attacco può violare in modo affidabile la privacy anche solo di pochi utenti in un dataset sensibile, ha avuto successo. Al contrario, un attacco che ottiene un elevato tasso di successo aggregato in modo non affidabile non dovrebbe essere considerato riuscito».14
Le metriche di utilità e privacy riguardano obiettivi complementari, ma risultano in rapporto di proporzionalità inversa, quindi devono essere valutate congiuntamente. Tradizionalmente, una soluzione per gestire il rischio di divulgazione e le relative sfide è consentire la pubblicazione dei dati con un rischio di riservatezza ridotto a un livello accettabile secondo il concetto di “privacy differenziale”.15 L’idea alla base della privacy differenziale è che, anche se un dataset contiene informazioni sensibili, l’aggiunta di randomizzazione e “rumore” aggiuntivo impedisce di determinare con certezza se un individuo specifico è presente nel dataset. Si tratta di un concetto, ma anche di una misura quantificabile; una caratteristica fondamentale della privacy differenziale è che non definisce la privacy come una nozione binaria, ma piuttosto come un rischio cumulativo.
L’aggiunta di rumore può, però, influenzare i risultati comportando due tipi diversi di distorsione:
- dati precisi, ma poco utili: quando il rumore relativo ad alcune variabili compromette la possibilità di rispondere a domande rilevanti per l’analisi statistica generale;
- dati imprecisi, ma utili: quando il rumore genera dati meno accurati, ma in grado di generare risultati che restano interpretativamente validi.
In uno studio recente,16 gli autori dimostrano che anche i livelli di protezione più avanzati risultano vulnerabili ad attacchi esterni; al contrario, altri ricercatori in ambito ematologico sono molto più ottimisti sull’implementazione sicura;17 pertanto, non sembra esservi in letteratura un accordo in tal senso.
Rischi metodologici
Il possibile ricorso al dato sintetico in ambito osservazionale solleva anche ulteriori preoccupazioni di tipo metodologico, come il rischio di amplificazione dei bias preesistenti, la scarsa interpretabilità dei risultati e l’assenza di metodi robusti per la verifica della qualità dei dati.18
Se il dataset originale utilizzato per generare dati sintetici contiene distorsioni o errori sistematici, i dati sintetici potrebbero amplificare involontariamente questi effetti. Ciò può portare a risultati fuorvianti o persino discriminatori, contribuendo alle disuguaglianze esistenti e aumentando il rischio di danni per le popolazioni vulnerabili.
Una sfida chiave per i sistemi AI che lavorano con dati sintetici è nota come out-of-distribution (OOD), vale a dire la capacità di un modello di riconoscere e gestire correttamente dati che si discostano significativamente dal dataset su cui è stato addestrato. Sebbene i dati sintetici possano aiutare a risolvere il problema OOD attraverso la sovracampionatura delle caratteristiche sottorappresentate, esiste il rischio di:
- eccessiva generalizzazione, che può portare a modelli poco precisi;
- creazione di correlazioni inesistenti o errate, falsificando i risultati dell’analisi.
Più in generale, modelli di machine learning possono essere influenzati dal bias intrinseco dei dati, che può alterare le stime degli effetti delle associazioni predittore-esito e ridurre la precisione del campione, compromettere l’accuratezza delle predizioni e limitarne la generalizzabilità alla popolazione originale. Il bias può anche degradare le metriche standard di prestazione e talvolta generare risultati ingannevolmente migliori. Resta il fatto che se la variabilità dei fenomeni è riprodotta artificialmente, non è detto sia in grado di cogliere la reale variabilità naturale di qualsiasi fenomeno.
Possibili sviluppi in ambito osservazionale
L’adozione dei dati sintetici rappresenta in molti settori produttivi una svolta significativa, offrendo soluzioni creative e rispettose della privacy in contesti sempre più diversificati. In ambito epidemiologico, tuttavia, in particolare negli studi osservazionali, non è ancora chiaro se i dati sintetici rappresentino una risorsa reale per affrontare le sfide dell’accesso ai dati e della privacy. Sebbene ci siano ancora alcuni limiti da superare, i potenziali benefici dei dati sintetici possono essere significativi.
I dataset sintetici sono utilizzati anche in contesti più complessi, come gli studi clinici,18 sia come proxy per dei dati reali sia per ampliare l’accessibilità a dati per poter effettuare analisi secondarie. Nonostante ciò, la maggior parte degli esperti concorda sul fatto che le decisioni che influenzano l’assistenza sanitaria non dovrebbero essere basate esclusivamente sui dati sintetici, poiché non esiste un consenso chiaro su come valutare la loro qualità e affidabilità.
Un possibile applicazione può riguardare la fase preliminare di uno studio per la valutazione delle performance degli algoritmi di machine learning prima di analizzare ai dati reali. Per esempio, uno degli scopi principali potrebbe essere la creazione di un dataset sintetico ad hoc, contenente solo alcune variabili, per uso interno per la formazione ospedaliera, come fatto nel contesto anglosassone.19
Nel contesto dei dati amministrativi sanitari, i dati sintetici possono rappresentare una soluzione temporanea, in attesa delle autorizzazioni per l’accesso ai dati reali. I ricercatori potrebbero utilizzare i dati sintetici per testare ipotesi, condurre analisi esplorative, progettare workflow analitici, come già proposto20 sviluppando e testando codice utile per essere implementato sui dati reali.
Ad oggi, un limite rilevante nell’utilizzo dei dati sintetici nella conduzione di studi epidemiologici riguarda la valutazione dei metodi di generazione, poiché le metriche di validazione non sono applicate in modo uniforme né riconosciute a livello condiviso. Molti approcci si concentrano principalmente sulla somiglianza strutturale o statistica con i dati reali, tralasciando una valutazione più approfondita della loro effettiva utilità. Mentre i dati sintetici a bassa fedeltà non presentano rischi di divulgazione, potrebbero essere criticati per la loro scarsa qualità, in quanto possono contenere combinazioni di variabili poco plausibili. Al contrario, i dati ad alta fedeltà offrono maggiore precisione e aderenza ai dati reali e, plausibilmente, generano risultati consistenti con quelli originali, ma espongono a un rischio più elevato di re-identificazione, rendendo necessaria l’applicazione di tecniche di protezione della privacy più sofisticate, come l’aggiunta di rumore.
Un’altra sfida riguarda la riproducibilità delle metodologie di generazione, che richiedono una documentazione dettagliata, trasparente e standardizzata. La qualità dei dati sintetici dipende sia dai dati originali sia dal metodo di generazione, quindi è fondamentale avere obiettivi chiari per facilitare la creazione e la valutazione di dataset sintetici affidabili. Come riportato in un recente commento da The Lancet,21 se l’accesso al dato sintetico può incrementare le attività di ricerca, vi è la necessità di regolamentare l’intero processo di generazione attraverso sinergie tra pubblico e privato, essenziali per sviluppare quadri di governance standardizzati, linee guida per l’uso appropriato, il tutto nei principi di qualità, sicurezza ed equità.
Conflitti di interesse dichiarati: nessuno.
Ringraziamenti: un ringraziamento speciale va al gruppo Farmacoepidemiologia di AIE per gli stimoli emersi nelle varie riunioni e a Simona Vecchi (DEP Lazio) per l’esauriente ricerca bibliografica svolta.
Bibliografia
- Sherman RE, Anderson SA, Dal Pan GJ et al. Real-World Evidence – What Is It and What Can It Tell Us? N Engl J Med 2016;375(23):2293-97. doi: 10.1056/NEJMsb1609216
- The Lancet Regional Health-Europe. The Italian health data system is broken. Lancet Reg Health Eur 2025;48:101206. doi: 10.1016/j.lanepe.2024.101206
- Bisceglia L, Caranci N, Giorgi Rossi P, Zengarini N. La privacy e l’epidemiologia: troviamo una soluzione condivisa. Recenti Prog Med 2023;114(6):332-36. doi 10.1701/4042.40224
- Synthetic Data Generation Market (2024-2030). Disponibile all’indirizzo: https://www.grandviewresearch.com/industry-analysis/synthetic-data-generation-market-report#
- Giuffrè M, Shung DL. Harnessing the power of synthetic data in healthcare: innovation, application, and privacy. NPJ Digit Med 2023;6(1):186. doi: 10.1038/s41746-023-00927-3
- Rubin DB. Discussion: Statistical disclosure limitation. J Off Stat 1993;9(2):462-68.
- Little RJ. Statistical analysis of masked data. J Off Stat-Stockh-. 1993;9(2):407-26.
- Pezoulas VC, Zaridis DI, Mylona E et al. Synthetic data generation methods in healthcare: A review on open-source tools and methods. Comput Struct Biotechnol J 2024;23:2892-910. doi: 10.1016/j.csbj.2024.07.005
- Goyal M, Mahmoud QH. A Systematic Review of Synthetic Data Generation Techniques Using Generative AI. Electronics 2024;13(17):3509. doi: 10.3390/electronics13173509
- Gracia Moisés A, Vitoria Pascual I, Imas González JJ, Ruiz Zamarreño C. Data Augmentation Techniques for Machine Learning Applied to Optical Spectroscopy Datasets in Agrifood Applications: A Comprehensive Review. Sensors 2023;23(20):8562. doi: 10.3390/s23208562
- El Kababji S, Mitsakakis N, Fang X et al. Evaluating the Utility and Privacy of Synthetic Breast Cancer Clinical Trial Data Sets. JCO Clin Cancer Inform 2023;7:e2300116. doi: 10.1200/CCI.23.00116
- Rajotte JF, Bergen R, Buckeridge DL, El Emam K, Ng R, Strome E. Synthetic data as an enabler for machine learning applications in medicine. iScience 2022;25(11):105331. doi:10.1016/j.isci.2022.105331
- Raghunathan TE. Synthetic data. Annu Rev Stat Its Appl 2021;8:129-40. doi: 10.1146/annurev-statistics-040720-031848
- Carlini N, Chien S, Nasr M, Song S, Terzis A, Tramèr F. Membership Inference Attacks from First Principles. 2022 IEEE Symposium on Security and Privacy (SP), San Francisco (CA, USA) 2022; pp. 1897-914. doi: 10.1109/SP46214.2022.9833649
- Harvard University Privacy Tools Project. Differential Privacy. Disponibile all’indirizzo: https://privacytools.seas.harvard.edu/differential-privacy
- Yao Z, KrÄo N, Ganev G, de Montjoye YA. The DCR Delusion: Measuring the Privacy Risk of Synthetic Data. arXiv 2025.01524. doi: 10.48550/arXiv.2505.01524
- D’Amico S, Dall’Olio D, Sala C et al. Synthetic Data Generation by Artificial Intelligence to Accelerate Research and Precision Medicine in Hematology. JCO Clin Cancer Inform 2023;7:e2300021. doi: 10.1200/CCI.23.00021
- Azizi Z, Zheng C, Mosquera L, Pilote L, El Emam K; GOING-FWD Collaborators. Can synthetic data be a proxy for real clinical trial data? A validation study. BMJ Open 2021;11(4):e043497. doi: 10.1136/bmjopen-2020-043497
- Kokosi T, De Stavola B, Mitra R et al. An overview of synthetic administrative data for research. Int J Popul Data Sci 2022;7(1):1727. doi: 10.23889/ijpds.v7i1.1727
- Raab GM, Nowok B, Dibben C. Guidelines for Producing Useful Synthetic Data. arXiv 1712.04078v1. doi: 10.48550/arXiv.1712.04078v1
- Boraschi D, van der Schaar M, Costa A, Milne R. Governing synthetic data in medical research: the time is now. Lancet Digit Health 2025;7(4):e233-34. doi: 10.1016/j.landig.2025.01.012