Riscoprire la necessità di investire sulla qualità del dato
«Quality is not an act, it is a habit».
La disponibilità di enormi quantità di dati sanitari informatizzati e lo sviluppo di nuove e sofisticate capacità analitiche hanno creato un grande fermento nell’ambito della real world evidence (RWE) e dei big data. Ci si interroga su quale potrà essere, nel prossimo futuro, il potenziale informativo deducibile dall’integrazione di fonti di dati eterogenee che spaziano da quelle ormai note all’epidemiologia tradizionale (flussi amministrativi, database assicurativi, cartelle cliniche elettroniche) a quelle che caratterizzano la digital epidemiology (device elettronici e app, motori di ricerca e social media). Il dibattito sul valore ai fini di ricerca e programmazione sanitaria risulta sempre più acceso,1-3 così come crescente è l’attenzione dei ricercatori su quali siano i disegni di studio e gli approcci analitici che permettono di avere i risultati più affidabili.4-6
Nell’interrogarsi sulle potenzialità di questi ambiti di ricerca, spesso si perde di vista l’elemento chiave che è alla base dei due approcci: il dato. Un dato che deve essere fitness for use, ovvero adeguato all’obiettivo che si vuole raggiungere attraverso la sua elaborazione.7
L’idoneità all’uso dei dati è una definizione che incorpora diversi aspetti:
- la pertinenza: la capacità dell’informazione di soddisfare le esigenze conoscitive degli utenti;
- l’accessibilità: la semplicità nel reperimento e nell’acquisizione;
- la tempestività: l’intervallo di tempo tra il momento in cui il dato viene rilevato e quello in cui risulta disponibile;
- l’interpretabilità: la chiarezza e la comprensibilità dell’informazione;
- l’accuratezza: la capacità di misurare correttamente il fenomeno indagato;
- la completezza: l’esaustività del dato;
- la coerenza: l’assenza di contraddittorietà del dato rilevato da diverse fonti;
- la comparabilità: la confrontabilità nel tempo e nello spazio.
Le azioni mirate a valutare e incrementare la qualità del dato devono, quindi, considerare tutti questi elementi, cercando di promuovere un equilibrio tra le diverse componenti senza prediligerne una a discapito dell’altra.
I sostenitori della RWE e dei big data enfatizzano gli aspetti legati alla disponibilità del dato, come l’accessibilità e la tempestività, elementi chiave nel panorama attuale che necessita di risposte rapide per poter orientare le decisioni, ipotizzando che le grandi dimensioni e la varietà delle fonti a disposizioni siano sinonimi di pertinenza e rappresentatività.
Per avere risposte attendibili occorre, però, che i dati siano accurati, completi, coerenti e comparabili.
Alla ormai consolidata pratica della valutazione della qualità del dato proveniente da flussi amministrativi, si affianca l’esigenza di una valutazione sistematica e condivisa intorno all’utilizzo integrato a fini scientifici delle nuove fonti di dati digitali potenzialmente utili per trasformare l’assistenza sanitaria da una pratica prescrittiva a un approccio preventivo.
L’impatto negativo che possono avere le decisioni prese su dati di scarsa qualità è stato ampiamente descritto,8-10 fornendo esempi in cui l’accertamento incompleto o errato dell’esposizione, degli esiti, dei fattori confondenti, dei criteri di ammissibilità o delle variabili di collegamento tra i diversi database porti a conclusioni errate. Come nello studio condotto da Cheng P et al., in cui la presenza di errori sulla codifica dei diagnosis-related group (DRG) ha prodotto misurazioni imprecise delle prestazioni ospedaliere, un’allocazione inadeguata dei finanziamenti sanitari e problemi nella sorveglianza della salute pubblica.10
Non è un caso allora, che nell’odierna era ipertecnologica la rivista Epidemiology abbia scelto di inserire come nuova categoria di sottomissione una tematica tradizionale che non smette di essere attuale: i validation study.11 Studi nei quali le informazioni sul paziente estratte dagli archivi sanitari elettronici, attraverso la selezione di specifici codici o l’implementazione di algoritmi di identificazione, vengono convalidate usando come gold standard le informazioni reperite nei flussi di dati primari, come per esempio le cartelle cliniche.
Come sottolineato dagli stessi editori, la scelta di proporre questa categoria ha un duplice obiettivo: in primis, migliorare la qualità delle evidenze, pubblicando informazioni che possono essere utilizzate da altri autori per supportare o confutare i risultati prodotti nelle loro ricerche; in secondo luogo, richiamare l’attenzione di tutti gli attori coinvolti sull’importanza di questi studi.
In questo contesto, ci si interroga su quale sia la strategia migliore per avere dati che siano i più affidabili e tempestivi possibile.
L’esperienza maturata attraverso l’uso dei dati sanitari elettronici nel campo della Comparative Effettiveness Research mostra che il processo di valutazione della validità dei dati è solitamente condotto dietro le quinte e non presenta standard di riferimento sui controlli da effettuare e sulle metriche da implementare: Brown et al. suggeriscono di rendere trasparente tale processo, attraverso report ad hoc, in modo da poter avere a disposizione le informazioni necessarie per valutare l’affidabilità dei risultati prodotti.12
In relazione a tutto ciò che oggi rientra nella generica definizione di big data, mancano:
- una metodologia condivisa che assicuri la qualità del delicato processo di trasformazione del dato (spesso non strutturato e non generato per finalità statistiche) in informazione;
- una valutazione critica delle fonti e una stima della reale rappresentatività dei dati non riconducibili a una dimensione geografica;
- una riflessione più ampia dell’impianto concettuale che sottende il processo di generazione del dato stesso su determinate piattaforme.
Il principio di qualità risulta, pertanto, prioritario al fine di non incorrere in pericolose distorsioni o in fuorvianti interpretazioni dei risultati (correlazioni spurie, accumulazione di rumore, algoritmi fallaci).13
Nell’ambito dei big data, è stata ipotizzata l’implementazione di un processo di valutazione dinamico: attraverso la costruzione di indicatori viene valutata la qualità dei dati, nel caso questa risulti conforme allo standard di base, è possibile procedere con la fase di analisi; in caso contrario, è necessario acquisire nuovi dati.14
Le strategie utilizzate per pesare le diverse componenti della qualità del dato possono, però, variare al variare del quesito scientifico che si vuole indagare: è possibile, quindi, definire specifiche soglie di accettabilità in relazione all’obiettivo da raggiungere.
La qualità del dato, però, oltre a essere descritta, misurata e valutata, richiede la programmazione di interventi atti a migliorarla.
Un utilizzo sistematico della RWE e dei big data su specifiche tematiche sanitarie, promosso dalle istituzioni, che permetta di esplorare in modo dettagliato la qualità dei dati attraverso un monitoraggio continuo e che favorisca il coinvolgimento diretto dei provider sensibilizzandoli sull’importanza di fornire dati di buona qualità, potrebbe essere il primo passo per sfruttare appieno il potenziale di questi ambiti di ricerca.15-17
Nei prossimi anni, la ricerca scientifica verrà rivoluzionata, l’attendibilità delle conoscenze prodotte dipenderà dalla qualità dei dati a disposizione, dalla progettazione dello studio e dall’analisi statistica adottata: una scelta sbagliata di uno tra questi tre elementi può portare a risultati distorti, l’investimento scientifico su questi tre aspetti deve progredire parallelamente.
È, quindi, necessario riportare alla luce il tema della qualità dei dati sviluppando nuove strategie da implementare per monitorare, valutare e descrivere i dati. In quest’ottica, l’uso di fonti di informazione innovative, come i blog o i social media, in ambito sanitario rende la sfida ancora più interessante.18
Una sfida che non si può perdere, perché solo quando i real world data saranno accurati, precisi e tempestivi, sarà possibile disporre di strumenti per rendere l’assistenza sanitaria più sicura, più efficace e di maggior valore.
Bibliografia
- Garrison LP Jr, Neumann PJ, Erickson P, Marshall D, Mullins CD. Using real-world data for coverage and payment decisions: The ISPOR Real-World Data Task Force Report. Value Health 2007;10(5):326-35.
- Traversa G. Chiarire il ruolo della Real World Evidence. R&P 2016;32:129-30.
- Mooney SJ, Westreich DJ, El-Sayed AM. Commentary: Epidemiology in the era of big data. Epidemiology 2015;26(3):390-94.
- Corrao G, Cantarutti A. Building reliable evidence from real-world data: needs, methods, cautiousness and recommendations. Pulm Pharmacol Ther 2018;53:61-67
- Berger ML, Sox H, Willke RJ et al. Good practices for realâworld data studies of treatment and/or comparative effectiveness: Recommendations from the joint ISPORâISPE Special Task Force on realâworld evidence in health care decision making. Pharmacoepidemiol Drug Saf 2017;26(9):1033-39.
- Wang Y, Kung L, Byrd TA. Big data analytics: Understanding its capabilities and potential benefits for healthcare organizations. Technological Forecasting and Social Change 2018;126:3-13.
- Tayi GK, Ballou DP. Examining data quality. Communications of the ACM 1998;41(2):54-57.
- Weiss NS. The new world of data linkages in clinical epidemiology: Are we being brave or foolhardy? Epidemiology 2011;22(3):292-94.
- Ray WA. Improving automated database studies. Epidemiology 2011;22(3):302-04.
- Cheng P, Gilchrist A, Robinson KM, Paul L. The risk and consequences of clinical miscoding due to inadequate medical documentation: a case study of the impact on health services funding. Health Inf Manag 2009;38(1):35-46.
- Lash TL, Olshan AF. EPIDEMIOLOGY Announces the “Validation Study” Submission Category. Epidemiology 2016;27(5):613-14.
- Brown JS, Kahn M, Toh S. Data quality assessment for comparative effectiveness research in distributed data networks. Med Care 2013;51(8) Suppl 3:S22-29.
- Fan J, Han F, Liu H. Challenges of Big Data Analysis. Natl Sci Rev 2014;1(2):293-314.
- Cai L, Zhu Y. The Challenges of Data Quality and Data Quality Assessment in the Big Data Era. Data Science Journal 2015;14:2.
- Glèlè Ahanhanzo Y, Ouedraogo LT, Kpozèhouen A, Coppieters Y, Makoutodé M, Wilmet-Dramaix M. Factors associated with data quality in the routine health information system of Benin. Arch Public Health 2014;72(1):25.
- Jonnagaddala J, Liaw ST, Ray P. Impact of data quality assessment on development of clinical predictive models. Stud Health Technol Inform 2015;216:1069.
- Chan M, Kazatchkine M, Lob-Levyt J et al. Meeting the demand for results and accountability: a call for action on health data from eight global health agencies. PLoS Med 2010;7(1):e1000223.
- Kim Y, Huang J, Emery S. Garbage in, Garbage Out: Data Collection, Quality Assessment and Reporting Standards for Social Media Data Use in Health Research, Infodemiology and Digital Disease Detection. J Med Internet Res 2016;18(2):e41.