Rischi ambientali: la sintesi dell’evidenza scientifica e la qualità delle prove tra triangolazione e punteggi
Ogni valutazione scientifica del nesso di causalità impone l’adozione di metodi che valutino e integrino le prove scientifiche rendendo comprensibili le decisioni e le raccomandazioni. Nel contesto clinico, la gran parte delle prove considerate deriva da studi clinici randomizzati (RCT): l’esposizione (il trattamento) è assegnato casualmente dallo sperimentatore, assumendo così che potenziali fattori di confondimento, sia noti sia sconosciuti, per effetto del caso siano bilanciati tra i gruppi di trattamento. Le prove possono anche derivare da studi osservazionali (studi di coorte e caso-controllo, serie di casi), ma la forza degli RCT nell’assicurare la comparabilità dei gruppi di trattamento e di controllo colloca questi studi tra le prove più convincenti assegnando un valore più basso agli altri disegni di studio. Il sistema GRADE (Grading of Recommendations Assessment, Development and Evaluation) è utilizzato da tempo per valutare la qualità delle prove a supporto della formulazione delle linee guida cliniche e ha diviso gli studi in randomizzati e non randomizzati, classificando i risultati degli studi randomizzati come prove di valore superiore.
Agli studi non randomizzati si imputa di produrre risultati distorti a causa di problemi relativi al confondimento e al bias di selezione. «Observational studies are subject to confounding and selection bias»1 – recita, infatti, un recente articolo pubblicato su Lancet2 che lascia ben poche speranze. – «Researchers can adjust for measured differences between treatment groups, but unmeasured or unmeasurable differences might exist between groups that obscure true treatment effects and cannot be accounted for by any statistical method».3 È ovvio, dunque, che questi studi siano giudicati da gran parte del mondo scientifico “di serie B”.
Tuttavia, questa netta demarcazione è stata di recente messa in discussione. Judea Pearl e Dana Mackenzie scrivono che ci sono «scientifically sound ways of determining causal effects from nonexperimental studies, which challenge the traditional supremacy of RCTs».4,5 E aggiungono: «it is important that we not treat these [observational] studies as second-class citizens; they have the advantage of being conducted in the natural habitat of the target population […] and they can be “pure” in the sense of not being contaminated by issues of ethics or feasibility».6 In un recente articolo su Epidemiology,7 Pearce et al. discutono dei nuovi metodi epidemiologici noti con il nome collettivo di “inferenza causale”, che limitano per disegno il rischio di confondimento, per esempio, instrumental variables, regression discontinuity, difference in differences (si veda anche l’articolo di Richiardi et al. su E&P).8 L’integrazione dell’evidenza proveniente dai vecchi e nuovi modelli di studio fornisce, dunque, nuovo stimolo e forza all’epidemiologia per la definizione dei nessi causali. Il termine “triangolazione”9 è stato coniato per indicare la ricerca di coerenza (consistency) dei risultati attraverso l’esame di approcci diversi. La migliore garanzia rispetto al confondimento e al bias si raggiunge quando sono in gioco disegni di studio diversi, specie quando le fonti di distorsione degli svariati approcci influenzano le stime in direzioni opposte.7 L’impiego di tali metodi sui temi dell’inquinamento atmosferico è riassunto in una review esaustiva;10 in Italia, è stato di recente applicato il difference-in-differences per valutare il ruolo dell’inquinamento industriale sulla mortalità dei residenti a Taranto.11 La disponibilità di studi ecologici, di biomonitoraggio, di coorte e difference-in-differences, e la lettura integrata dei risultati indicano con coerenza, in questo caso, il nesso di natura causale tra esposizione ambientale e danno.
La valutazione dei rischi ambientali è problematica, perché, nella stragrande maggioranza dei casi, non è possibile, per ovvie ragioni etiche, condurre studi randomizzati, e gli studi osservazionali rappresentano, dunque, l’unico disegno di studio epidemiologico per una valutazione degli effetti sull’uomo. Organismi accreditati come la IARC e l’EPA statunitense usano già da tempo metodi di valutazione e di sintesi delle evidenze ben riconosciuti dalla comunità scientifica. Questi sistemi di valutazione integrano le evidenze sull’uomo (da studi epidemiologici) e sull’animale (da studi tossicologici) e considerano rilevanti le informazioni sul meccanismo di azione.
Di recente, è stata proposta l’applicazione dell’approccio GRADE12 alla valutazione dei rischi ambientali utilizzando gli stessi criteri e modalità già impiegati per la valutazione clinica, quindi molto ancorati al principio che il RCT sia il gold standard.13,14 Come detto, GRADE è un metodo ampiamente usato per classificare la qualità delle prove e fornire un approccio sistematico per formulare raccomandazioni nella pratica clinica. Si basa su metodi standardizzati di definizione del quesito clinico e di raccolta sistematica degli studi con metanalisi. GRADE definisce quattro livelli relativi alla qualità dell’evidenza: molto bassa, bassa, moderata e alta. Alle prove viene attribuito un livello di qualità (alto per gli RCT, più basso per gli studi osservazionali) che può diminuire (risk of bias, imprecisione, incoerenza, outcome indiretti e publication bias) di uno o più livelli oppure può aumentare (rischio relativo elevato, presenza di una netta relazione dose-risposta).
La proposta di applicazione del GRADE ai rischi ambientali presenta obiettivi e difficoltà concettuali e operative. Il punto cruciale è proprio nello scopo della valutazione. Nelle sperimentazioni cliniche si vuole perlopiù stabilire l’efficacia di un trattamento sull’uomo, mentre nella valutazione delle esposizioni ambientali è in studio la nocività di un’esposizione. Nel primo caso (studio dell’efficacia di un trattamento), il principale interesse è minimizzare l’errore del primo tipo (contenere il numero dei falsi positivi quando l’ipotesi nulla è vera, cioè il trattamento è inefficace) con l’obiettivo di impedire la diffusione di un trattamento inefficace. Nel secondo caso (nocività di un’esposizione ambientale), si deve gioco-forza minimizzare l’errore del secondo tipo (contenere i falsi negativi quando l’esposizione ambientale è in verità nociva ma la valutazione propende per una nullità dell’effetto), perché è indispensabile proteggere la popolazione (anche a costo di accettare risultati falsamente positivi). È da considerare, inoltre, che, nel caso della valutazione del trattamento attraverso RCT, la plausibilità biologica dell’effetto e il meccanismo di azione sono già noti prima di condurre lo studio. In altre parole, quando si disegna un RCT, le premesse in genere sono ben consolidate (per esempio, ipotesi sul meccanismo di azione, studi su animali). Nel caso dell’esposizione ambientale, al contrario, l’evidenza tossicologica e il meccanismo di azione possono non essere noti e contribuiscono essi stessi alla valutazione finale. Se le premesse e i fini ultimi sono diversi, è ovvio che diversi dovranno essere i metodi di valutazione e l’immediata applicazione del GRADE ai temi ambientali risulta complessa.
Dal punto di vista operativo, il GRADE funziona con un sistema di downgrade e upgrade dell’evidenza; un aspetto è particolarmente critico: la valutazione del rischio di bias. Si tratta della valutazione della validità interna, ovvero se problemi dovuti a disegno, conduzione o analisi dello studio possono portare a bias dei risultati. Attualmente, non esiste un gold standard per questa valutazione. La Cochrane Collaboration ha sviluppato uno strumento per valutare i rischi di bias negli RCT, mentre un gruppo di ricercatori ha sviluppato il ROBINS-I (Risk of Bias in Non-randomized Studies of Interventions) che si basa sul presupposto che lo studio osservazionale di un intervento possa essere confrontato con un ipotetico studio randomizzato controllato per identificare potenziali rischi di distorsione.
Sempre all’interno del programma GRADE, un gruppo internazionale di ricercatori ha modificato lo strumento ROBINS-I per svilupparne uno analogo per la valutazione delle esposizioni, chiamato ROBINS-E. Anche ROBINS-E confronta lo studio in fase di valutazione con un ipotetico, ideale studio randomizzato. Lo strumento ROBINS-E valuta diversi aspetti (“domini”: confondimento, selezione, esposizioni, outcome, outcome diversi dal previsto, dati mancanti, selezione dei risultati) e fornisce una valutazione per singolo dominio e complessiva. Questo strumento è stato molto criticato per il meccanicismo nella sua applicazione, il forzato vincolo agli RCT e la difficolta nel fornire una valutazione complessiva, perché l’importanza relativa dei diversi fattori può essere diversa.15,16 La soluzione auspicata è quella di uno strumento più semplice, meno legato a schematismi e più vicino alla logica della valutazione complessiva della internal validity. In effetti, lo strumento finale non è stato ancora finalizzato dal GRADE e la sua riproducibilità è in fase di studio. Si tratta di uno strumento complesso il cui uso impone un giudizio spesso molto soggettivo che rende il parere sul risk of bias del tutto relativo e opinabile. Solo a titolo di esempio, si consideri che uno degli elementi critici di tale strumento è la necessità di definire a priori la lista dei fattori di confondimento che devono essere stati considerati in ogni studio.
Sulla base di questi dati e per i problemi applicativi del GRADE sui temi ambientali, l’agenzia americana Office for Health Assessment and Translation17 ha cercato di elaborare un protocollo di applicazione del GRADE meno rigido rispetto a quanto originariamente proposto, ma questo approccio deve essere ancora sperimentato in modo completo. Gli strumenti proposti dal GRADE per la valutazione della qualità dell’evidenza scientifica negli studi sulle esposizioni ambientali non sono, dunque, ben consolidati e la loro applicazione appare prematura. La discussione sull’integrazione di vecchi e nuovi modelli di studio in epidemiologia continua e sono necessari ulteriori esempi che supportino la “triangolazione” nella valutazione di causalità.
Conflitti di interesse dichiarati: nessuno.
Bibliografia e note
- «Gli studi osservazionali sono soggetti a confondimento e a bias di selezione».
- Fanaroff AC, Califf RM, Lopes RD. High-quality evidence to inform clinical practice. Lancet 2019;394(10199):633-34.
- «I ricercatori possono aggiustare per le differenze misurate tra i gruppi di trattamento, ma potrebbero esistere differenze non misurate o non misurabili tra i gruppi che mascherano i veri effetti del trattamento e non possono essere spiegate da alcun metodo statistico».
- «[..]modi scientificamente validi per determinare gli effetti causali da studi non sperimentali, che sfidano la tradizionale supremazia degli RCT».
- Pearl J, Mackenzie D. The Book of Why: The New Science of Cause and Effect. Penguin Books Limited 2018.
- «È importante non trattare questi studi [osservazionali] come cittadini di seconda classe; essi hanno il vantaggio di essere condotti nell’habitat naturale della popolazione target […] e possono essere “puri” nel senso di non essere contaminati da questioni di etica o fattibilità».
- Pearce N, Vandenbroucke JP, Lawlor DA. Causal inference in environmental epidemiology: old and new approaches. Epidemiology 2019;30(3):311-16.
- Richiardi L, Zugna D, Bellocco R, Pizzi C. Causal inference in epidemiology: a fruitful debate. Epidemiol Prev 2017;41(2):76-77.
- Lawlor DA, Tilling K, Davey Smith G. Triangulation in aetiological epidemiology. Int J Epidemiol 2016;45(6):1866-86.
- Bind MA. Causal Modeling in Environmental Health. Annu Rev Public Health 2019;40:23-43.
- Leogrande S, Alessandrini ER, Stafoggia M et al. Industrial air pollution and mortality in the Taranto area, Southern Italy: A difference-in-differences approach. Environ Int 2019;132:105030.
- Schünemann H, Brożek J, Guyatt G, Oxman A (eds). GRADE Handbook. Disponibile all’indirizzo: https://gdt.gradepro.org/app/handbook/handbook.html#h.xivvyiu1pr3v
- Morgan RL, Thayer KA, Bero L et al. GRADE: Assessing the quality of evidence in environmental and occupational health. Environ Int 2016;92-93:611-16.
- Morgan RL, Thayer KA, Santesso N et al. A risk of bias instrument for non-randomized studies of exposures: A users’ guide to its application in the context of GRADE. Environ Int 2019;122:168-84.
- Bero L, Chartres N, Diong J et al. The risk of bias in observational studies of exposures (ROBINS-E) tool: concerns arising from application to observational studies of exposures. Syst Rev 2018;7(1):242.
- Savitz DA, Wellenius GA, Trikalinos TA. The problem with mechanistic risk of bias assessments in evidence synthesis of observational studies and a practical alternative: assess the impact of specific sources of potential bias. Am J Epidemiol 2019. doi: 10.1093/aje/kwz131
- Office of Health Assessment and Translation (OHAT). 2019a. Handbook for Conducting a Literature-Based Health Assessment Using OHAT Approach for Systematic Review and Evidence Integration. OHAT; Division of the National Toxicology Program; National Institute of Environmental Health Sciences, 2019. Disponibile all’indirizzo: https://ntp.niehs.nih.gov/ntp/ohat/pubs/handbookmarch2019_508.pdf