Il bias di misclassificazione sotto la lente d’ingrandimento: workshop di ARS Toscana patrocinato da Università di Firenze e Vaccine Monitoring Collaboration for Europe (VAC4EU)
Il 27 marzo scorso, presso la sede dell’ARS Toscana (Firenze), si è svolto il workshop dal titolo “Validate study variables to reduce misclassification bias: recent tools and research needs”, che ha visto la partecipazione di ricercatori nazionali e internazionali e professionisti di varie discipline che, insieme, hanno affrontato e discusso diversi aspetti relativi al bias di misclassificazione negli studi di farmacoepidemiologia e, più in generale, negli studi basati sui real world data (RWD), ovvero dati provenienti dall’assistenza sanitaria routinaria raccolti al di fuori di studi clinici tradizionali.1
Sono stati discussi strumenti già consolidati utilizzati nell’ambito di studi di validazione (ovvero, studi che hanno lo scopo di quantificare quanto e se una misura cattura la caratteristica che si vuole misurare) e strumenti emergenti, come l’uso di algoritmi di screening e la strategia degli algoritmi componenti per la stima della sensibilità degli algoritmi di identificazione degli eventi. Parallelamente, sono stati identificati i problemi metodologici non ancora risolti al fine di pianificare un’agenda della ricerca futura verso la generazione di soluzioni e strumenti adeguati ad affrontarli.
Durante il workshop, i diversi relatori hanno messo in luce come riconoscere, misurare e cercare di ridurre o eliminare questo bias rappresenti non solo una sfida metodologica, ma soprattutto un’opportunità per migliorare la qualità degli studi basati su RWD.
Un tema centrale per la validità delle evidenze generate dagli studi real-world
Negli studi basati su RWD, le variabili di studio vengono ricavate dalle osservazioni contenute in banche dati esistenti, originariamente raccolte per fini diversi dalla ricerca scientifica. Questo approccio può introdurre un bias di misclassificazione, cioè un errore sistematico dovuto alla misurazione imperfetta delle variabili. Il workshop si è focalizzato, in particolare, sulle variabili che indicano uno stato di malattia per le quali la misclassificazione si manifesta quando alcuni soggetti nella popolazione di studio che hanno la malattia d’interesse sono classificati come sani o, viceversa, alcuni soggetti sani sono classificati come malati. Identificare, misurare e ridurre questo errore rappresenta un nodo critico per l’accuratezza delle evidenze generate da studi basati su RWD e, di conseguenza, per la robustezza delle scelte cliniche e decisioni regolatorie basate su di esse.
Distorsioni da bias di misclassificazione dell’outcome
Rosa Gini (ARS Toscana) ha introdotto il workshop e le motivazioni alla base della necessità di comprendere la validità delle variabili che identificano malattie e sono utilizzate come outcome in uno studio di farmacoepidemiologia. In primo luogo, la misclassificazione di un evento può causare distorsioni nella stima del rischio assoluto reale dello stesso nella popolazione di studio. Per esempio, se alcuni eventi non vengono registrati nei flussi di dati amministrativi (per esempio, perché sono seguiti dal medico di medicina generale, i cui dati non alimentano i flussi amministrativi), la stima della frequenza dell’esito nella popolazione (incidenza e prevalenza) sarà sottostimata rispetto a quella reale. In secondo luogo, la distorsione può coinvolgere la dimensione temporale: se l’evento viene catturato, ma con ritardo (per esempio, quando una complicazione richiede un ricovero ospedaliero), si rischia di generare una stima errata del tempo all’evento. Infine, l’associazione osservata tra esposizione ed esito potrebbe risultare distorta. A questo fine, è importante distinguere tra misclassificazione non differenziale e differenziale. La misclassificazione non differenziale si verifica quando la probabilità che un soggetto venga classificato in modo errato non cambia tra i gruppi di esposizione. Questo tipo di errore tende generalmente ad attenuare l’associazione (bias towards the null). Al contrario, la misclassificazione differenziale si verifica quando la probabilità di errore varia in funzione dell’esposizione: per esempio, i soggetti esposti potrebbero avere più probabilità di essere classificati erroneamente rispetto agli esiti in confronto ai non esposti. In questi casi, la distorsione delle stime di associazione tra esposizione ed evento può avvenire in entrambe le direzioni.
Strumenti consolidati ed emergenti
Lo strumento per misurare la validità delle variabili è lo studio di validazione. Come illustrato da Vera Ehrenstein (Università di Aarhus, Danimarca), il riferimento ideale per uno studio di validazione è il confronto dei risultati ottenuti tramite l’applicazione degli algoritmi d’identificazione delle variabili di studio con un reference standard (come la valutazione manuale delle cartelle cliniche), ma tale operazione è spesso infattibile, perché troppo onerosa in termini di tempo e risorse impiegate e la sua trasferibilità su altre fonti di dato è del tutto incerta. Da qui, nasce l’esigenza, sottolineata da Vincent Lo Re (Università della Pennsylvania), di sviluppare strumenti metodologici che permettano di valutare la trasferibilità dei risultati ottenuti da uno studio di validazione in contesti diversi rispetto a quello in cui è stato eseguito. Un altro punto critico è l’uso isolato del valore predittivo positivo (PPV): calcolarlo sull’intera popolazione senza stratificare per esposizione non è sufficientemente informativo per garantire la validità della stima di un’associazione. Tuttavia, esistono approcci metodologici complementari che consentirebbero di ridurre l’incertezza prodotta dal bias di misclassificazione. Come riportato da Nicolas Thurin (Università di Bordeaux), se oltre al PPV è disponibile il valore predittivo negativo (NPV), è possibile utilizzare particolari formule algebriche per calcolare sensibilità e specificità degli algoritmi utilizzati per identificare una variabile di interesse e, di conseguenza, utilizzare gli strumenti della quantitative bias analysis.2 Un altro approccio è stato discusso da Giorgio Limoncella (Università degli Studi di Firenze), che ha mostrato come la sensibilità di un algoritmo d’identificazione possa essere stimata utilizzando algoritmi di screening.3,4 Questo approccio trova già applicazione nel progetto SeValid, descritto più in dettaglio nel paragrafo successivo. Infine, Giuseppe Roberto (ARS Toscana) ha descritto la strategia degli algoritmi componenti per la stima della sensibilità dell’identificazione di una variabile negli studi basati su fonti di dato multiple.5 Le strategie metodologiche discusse da Nicolas Thurin, Giorgio Limoncella e Giuseppe Roberto, se applicate a variabili chiave di uno studio, quali l’eleggibilità o l’esito, possono supportare la generazione di stime di validità delle variabili stesse. In questo contesto, è fondamentale che queste stime vengano calcolate separatamente per soggetti esposti e non esposti, per evitare distorsioni nella valutazione dell’effetto.
Il progetto SeValid
Il progetto SeValid, descritto da Giulia Hyeraci (ARS Toscana), ha l’obiettivo di sperimentare una delle metodologie discusse per ridurre il bias di misclassificazione.6 In particolare, il progetto si concentra sulla stima della sensibilità di un algoritmo altamente specifico per l’identificazione di una variabile di interesse, utilizzando in parallelo un algoritmo di screening altamente sensibile, idealmente capace di individuare casi d’interesse che potrebbero sfuggire al primo. La metodologia viene applicata a due eventi di interesse: la miocardite e la trombosi venosa profonda. Un passaggio chiave di SeValid è stato il coinvolgimento attivo dei codificatori – coloro che traducono le informazioni cliniche in dati codificati – nella costruzione dell’algoritmo di screening. Attraverso interviste mirate con i codificatori, sono stati identificati codici diagnostici che potrebbero nascondere casi veri dell’evento di interesse. Come spiegato da Amirreza Dehghan (Università di Utrecht), lo studio di validazione condotto sui casi selezionati, rispettivamente, tramite l’algoritmo specifico e l’algoritmo di screening prevede l’utilizzo di questionari progettati per rilevare segni clinici e risultati di test laboratoristici e strumentali, secondo le definizioni di miocardite e trombosi venosa profonda fornite dalla Brighton Collaboration.7 A supporto di questa fase, Marco Lippi (Università di Firenze) ha proposto l’uso di large language models come secondo revisore nella compilazione dei questionari o come strumento per validare ampi volumi di casi, contribuendo così a rendere gli studi di validazione più sistematici ed efficienti. Il progetto SeValid mette in luce l’importanza di un approccio interdisciplinare, in cui competenze cliniche, statistiche e informatiche si integrano per migliorare la validità delle variabili negli studi basati su RWD.
Strumenti mancanti e sviluppi futuri
Tra gli strumenti quantitativi più promettenti per affrontare il bias di misclassificazione vi è la quantitative bias analysis, le cui principali caratteristiche e criticità sono state presentate da Anna Schultze (London School of Hygiene and Tropical Medicine). L’interesse per questo approccio nasce dalla necessità di quantificare e correggere gli errori sistematici introdotti dalla misclassificazione delle variabili di studio. In questo contesto, si inserisce lo studio illustrato da Elisa Martin (Agenzia Spagnola per i farmaci e i dispositivi medici) volto a stimare la misclassificazione della causa di ricovero in due gruppi di soggetti – vaccinati e non vaccinati contro il COVID-19 – entrambi positivi al SARS-CoV-2. Lo studio ha riportato un PPV differenziale tra le due coorti e, allo stesso tempo, l’assenza di una metodologia tra quelle attualmente disponibili che permetta di sfruttare appieno questa informazione.
A conclusione del workshop, Xabier Garcia-Albéniz (RTI Health Solutions) ha mostrato come strumenti già esistenti ed emergenti possano essere integrati nel framework della target trial emulation, mentre Ersilia Lucenteforte (Università di Firenze) e Robert Platt (McGill University di Montreal) hanno tracciato le principali direttrici di ricerca future per lo sviluppo di strumenti e metodologie utili a rendere più solide le evidenze generate dagli studi basati su RWD attraverso la mitigazione dell’impatto del bias di misclassificazione sui risultati degli stessi.
Presentazioni e approfondimenti: un’occasione di crescita e di scambio
Il workshop ha rappresentato un’importante occasione di aggiornamento e confronto, capace di riunire una comunità eterogenea di ricercatori e professionisti. Gli interventi hanno offerto numerosi spunti di riflessione rendendo l’evento interessante non solo per gli specialisti del settore, ma anche per coloro che operano in ambiti affini e desiderano approfondire tematiche innovative in campo epidemiologico. Sul sito di ARS Toscana è possibile consultare le singole presentazioni e la registrazione dell’intero evento.
Conflitti di interesse dichiarati: Rosa Gini è dipendente e Giulia Hyeraci, Giuseppe Roberto e Anna Girardi sono consulenti di ARS Toscana, un ente pubblico di ricerca. Le risorse economiche di ARS Toscana provengono parzialmente da studi conformi al Codice di Condotta ENCePP e finanziati da aziende pubbliche o private, inclusi produttori di farmaci e vaccini.
Bibliografia
- Cave A, Kurz X, Arlett P. Real-World Data for Regulatory Decision Making: Challenges and Possible Solutions for Europe. Clin Pharmacol Ther 2019;106(1):36-39. doi: 10.1002/cpt.1426
- Bollaerts K, Rekkas A, De Smedt T, Dodd C, Andrews N, Gini R. Disease misclassification in electronic healthcare database studies: Deriving validity indices – A contribution from the ADVANCE project. PLoS One 2020;15(4):e0231333. doi: 10.1371/journal.pone.0231333
- Limoncella G, Grilli L, Dreassi E, Rampichini C, Platt R, Gini R. Addressing bias due to measurement error of an outcome with unknown sensitivity in database epidemiological studies. Am J Epidemiol 2024;kwae423. doi: 10.1093/aje/kwae423
- Lanes S, Beachler DC. Validation to correct for outcome misclassification bias. Pharmacoepidemiol Drug Saf 2023;32(6):700-3. doi: 10.1002/pds.5601
- Gini R, Dodd CN, Bollaerts K et al. Quantifying outcome misclassification in multi-database studies: The case study of pertussis in the ADVANCE project. Vaccine 2020;38 Suppl 2:B56-64. doi: 10.1016/j.vaccine.2019.07.045
- VAC4EU. Progetto SeValid. Disponibile su: https://vac4eu.org/sevalid/
- Case Definitions. Brighton Collaboration. Disponibile all’indirizzo: https://brightoncollaboration.org/case-definitions/