Quantificare la forza dell'evidenza scientifica (quando i resoconti aneddotici valgono più di uno studio controllato randomizzato)
Introduzione
La valutazione statistica dell’evidenza empirica consiste sostanzialmente nel controllo della variabilità campionaria, anche se nell’impostazione bayesiana il trattamento dell’incertezza viene esteso alle conoscenze a priori.1 Uno studio è tanto più informativo quanto più è stretto l’intervallo di confidenza.2 Ma il valore scientifico di uno studio non dipende dal grado di controllo dell’incertezza statistica se non in seconda battuta. In questa rubrica discutiamo del valore di uno studio epidemiologico alla luce degli scopi scientifici che intende perseguire e del disegno che è stato adottato.
Validità e valore di uno studio
La validità di uno studio dipende dalla sua corretta impostazione, esecuzione e analisi: per uno studio malfatto ha poco senso porsi interrogativi circa il suo valore scientifico. Le distorsioni che possono minacciarne i risultati sono specifiche per ogni tipo di indagine: per esempio per uno studio di coorte si considerano i criteri di ammissione, la valutazione dello stato di salute all’arruolamento, le procedure di followup, le modalità di identificazione dell’evento in studio e così via. (si veda box 1, nostra rielaborazione da3-6) . In generale si tratta di bias di selezione o di informazione e delle procedure di controllo del confondimento. Una volta stabilito che un particolare studio è valido ha senso considerarne il valore in relazione agli altri studi disponibili, alla luce cioè delle conoscenze fino a quel momento acquisite. Parlare di valore di uno studio significa valutare comparativamente la qualità dell’informazione da esso fornita. Un esempio di valutazioni di questo tipo è quello fornito dalle Monografie IARC volte a stabilire la cancerogenicità di un’esposizione.6 La IARC non classifica i differenti tipi di studio in modo rigido assegnando un valore maggiore a un certo disegno dello studio rispetto a un altro, contrariamente a ciò che si trova nei libri di testo di Evidencebased Medicine e nelle Linee guida.7 Infatti, nonostante non ci sia una graduatoria universalmente accettata degli studi, c’è un accordo generale sulla forza relativa (come valore di prova del nesso di causalità) dei principali tipi di ricerca (box 2).7 Nella “gerarchia dell’evidenza” gli studi clinici controllati randomizzati (RCT) occupano il vertice, seguiti dagli studi osservazionali. Le opinioni degli esperti e l’esperienza aneddotica (case report/case series) vengono considerati all’ultimo posto della gerarchia. Le revisioni sistematiche e le meta analisi sono poste come valore di prova prima degli RCT poiché essi combinano i risultati di molti identici RCT.5,8 L’uso di queste gerarchie dell’evidenza empirica è stato criticato perché dà troppa autorevolezza agli RCT. Non tutti i quesiti della ricerca biomedica possono infatti essere risolti con RCT, sia per questioni pratiche sia per questioni etiche. Inoltre, anche quando l’evidenza disponibile da RCT fosse di alta qualità, questo non significa che l’evidenza proveniente da altri tipi di studi non possa essere molto rilevante.
BOX1. Criteri di validità di uno studio epidemiologico
|
Scopi di una ricerca epidemiologica
Vandenbroucke9confronta due differenti approcci epidemiologici: discovery and explanation rispetto a evaluation. Il primo corrisponde alla situazione in cui il ricercatore si trova di fronte a una osservazione spontanea (non a seguito di uno studio pianificato sulla base di una precisa ipotesi di ricerca) o a un risultato inatteso (una segnalazione di otto casi di sclerosi multipla in un pedigree, un rischio dimezzato di tumore polmonare nei nati in Sicilia rispetto ai nati al Centro-Nord nel corso dell’analisi di uno studio caso-controllo, risultati ripetuti di studi ecologici sull’arsenico nelle acque). In queste circostanze i ricercatori per saggiare la consistenza di queste nuove e inattese evidenze raccoglieranno dati, in genere da fonti correnti. Se questa fase porta alla pubblicazione di articoli scientifici allora si aprirà una seconda fase in cui verranno condotti studi analitici che cercano di confermare le prime ipotesi di ricerca, controllando i fattori di confondimento e le potenziali distorsioni, valutando modificazioni di effetto e variando le condizioni di esposizione.
Il secondo approccio è quello della ricerca valutativa, il cui esempio paradigmatico è lo studio clinico controllato randomizzato. Il quesito scientifico è fin dall’inizio molto strutturato e lo studio è completamente predefinito, per esempio non ci sono margini di libertà nella fase di analisi. Nello studio sperimentale tutto è sotto il controllo del ricercatore, che tipicamente tiene fisse tutte le condizioni tranne una, l’esposizione/trattamento. Il ruolo causale dell’esposizione/trattamento è l’oggetto dello studio. Le conoscenze a priori sono molte e sofisticate, non c’è spazio per inventare o suggerire nuove vie di ricerca.
Se nell’ambito della ricerca clinica si possono facilmente riconoscere questi due approcci, in epidemiologia osservazionale le barriere etiche alla conduzione di studi sperimentali sull’uomo rendono molto meno netta la distinzione tra questi due approcci. Le Monografie IARC6 contengono una formalizzazione del processo di definizione di cancerogenicità di un’esposizione e discutono i meriti e i limiti dei differenti tipi di studio epidemiologico. Essi sono visti secondo la prospettiva della ricerca valutativa.
Vandenbroucke9 afferma che la graduatoria di va lore di prova degli studi che è riportata nel box 2 è coerente con l’approccio valutativo. La gerarchia degli studi viene invece ribaltata se consideriamo l’evidenza empirica dal punto di vista dell’approc cio esplorativo (box 3)
BOX 2. La graduatoria degli studi epidemiologici secondo il loro valore di prova
|
BOX 3. La graduatoria degli studi epidemiologici discovery and explanation secondo il loro valore di prova
|
Epidemiologia e Prevenzione
Ricapitoliamo i due fondamentali punti di vista: uno pone l’accento sulla scoperta e la spiegazione, l’altro sulla valutazione degli interventi. Essi portano a gerarchie dell’evidenza empirica opposte, con i RCT all’apice nella valutazione ma all’ultimo posto nella scoperta e spiegazione. I due atteggiamenti di pensiero a cui fanno riferimento le due graduatorie differiscono fortemente quanto a definizione a priori di un’ipotesi di ricerca. Basta considerare l’importanza nel progresso delle conoscenze scientifiche delle analisi di sottogruppo e far mente locale alla grande quantità di analisi eseguite negli studi osservazionali per comprendere quanto sia contraddittorio da un lato l’uso del test d’ipotesi e della significatività statistica e dall’altro accettare la graduatoria sulla importanza degli studi epidemiologici che vede al vertice i RCT. Questa gerarchia dipende dalla credibilità a priori dell’ipotesi di ricerca, massima negli RCT dove paradigmaticamente si valuta un solo trattamento, e minima per esempio negli studi esplorativi Genomewide dove si valutano migliaia di polimorfismi semplici. Si potrebbe anche pensare che la differenza tra questi due atteggiamenti può essere espressa da una funzione di perdita: la perdita per essere nel torto. Nel caso degli RCT la perdita è direttamente subita dai pazienti che riceveranno o non riceveranno il nuovo trattamento, se questo verrà commercializzato o no a seconda del risultato dello studio. Nel caso invece degli studi osservazionali la perdita è legata sia alle spese da sostenere per ulteriori studi volti a chiarire l’associazione falsamente asserita/non asserita sia alle spese per implementare eventuali interventi di sanità pubblica. Si considerino problemi ambientali ed esposizioni controverse come quelle ai campi elettromagnetici o alle radiofrequenze. Situazioni in cui l’incertezza scientifica va ben al di là dell’incertezza statistica e in cui l’evidenza scientifica non può certamente venir graduata secondo il box 2 (perché non ha senso richiedere un RCT) ma neppure secondo il box 3 (perché siamo in situazioni decisionali, cioè valutative e non esplorative).
L’Epidemiologia non si contenta di scoprire le cause delle malattie ma è anche intervento e prima di tutto prevenzione. Il valore di prova di uno studio è tanto più alto quanto più è in grado di influenzare la decisione di intervenire. Le valutazioni di cancerogenicità della IARC sono così importanti perché hanno un grande impatto sul processo di emanazione di leggi che regolano, per esempio, l’uso di certe sostanze. Davvero possiamo pensare a una graduatoria capovolta? È troppo semplice, noi non crediamo che i casereport siano così importanti perché altrimenti verremmo paralizzati dall’applicazione indiscriminata del principio di precauzione. Ma sosteniamo che vale la pena di considerare nel processo di acquisizione della conoscenza scientifica i casereport ma anche le cosiddette evidenze aneddotiche o i resoconti prodotti da non addetti ai lavori. Tutti i tipi di studio devono concorrere a una valutazione estesa della conoscenza disponibile. Nel 1993, Funtowicz e Ravetz10 già scrivevano che la complessità e l’incertezza scientifica richiedevano una valutazione estesa di legittimità e competenza che va ben al di là del ristretto ambito scientificoprofessionale. Per esempio le persone che direttamente subiscono un problema ambientale, hanno una maggior attenzione e consapevolezza del problema e sono in grado di esercitare una maggior pressione per avere un’adeguata valutazione della qualità dei rapporti ufficiali, di solito rassicuranti. Essi esercitano una funzione analoga ai peerreviewer. Ma possono anche andare al di là di questa funzione passiva di valutatori, perché possono essere direttamente protagonisti della ricerca, vuoi segnalando eventi misconosciuti o poco noti, vuoi conducendo studi che dovrebbero essere fatti dalle istituzioni preposte ma che non sono stati fatti. Nelle valutazioni di cui stiamo parlando (sia discovery and explanation sia evaluation) si devono trovare quindi anche i prodotti di quella che è chiamata popular epidemiology11 come anche le segnalazioni aneddotiche e narrative.
Origini della confusione
La confusione che porta a considerare due differenti graduatorie del valore di prova degli studi origina a nostro parere dal ruolo che la statistica ha nel riassumere l’evidenza empirica. La statistica controlla la variabilità campionaria come abbiamo ricordato, ma a patto che certe assunzioni siano rispettate. Greenland12 nel 1997 vedeva lo studio clinico controllato come lo strumento migliore per l’inferenza causale e mostrava come l’uso della statistica fosse perfettamente coerente solo in questa circostanza in quanto l’assegnazione casuale del trattamento garantisce il rispetto delle assunzioni intrinseche alla procedura.
Se a questo assommiamo che anche un libro di testo molto influente negli anni Ottanta13 considerava come gold standard lo studio clinico controllato randomizzato, sulla base di criteri di logica del disegno dello studio possiamo comprendere come si sia formata l’opinione che lo studio migliore sia quello più simile a quest’ultimo. Non è vero che la trattazione statistica dell’incertezza sia raggiungibile solo sfruttando quel paradigma. In realtà l’approccio Bayesiano permette di trattare anche l’incertezza che proviene da studi osservazionali, e l’approccio frequentista può essere visto come un caso particolare di quest’ultimo. Lo stesso Greenland poneva le basi di un’analisi di sensibilità nell’articolo del 1997 che ha successivamente sviluppato secondo un’impostazione Bayesiana molto efficace didatticamente.14
Il punto è esplicitare le assunzioni necessarie per ogni modello statistico di analisi e condurre eventuali analisi alternative sotto differenti assunzioni. Ma sul lato del disegno estendere la trattazione dell’incertezza ad aspetti strutturali e anche epistemologici.15 La possibilità di mettere in evidenza un nesso di causalità dipende dal tipo di studio ma anche dal fenomeno che stiamo studiando e dal particolare modello causale che viene assunto. Variare criticamente questi fattori richiede una valutazione estesa dell’incertezza.
Conclusioni
Rovesciare la graduatoria del valore di prova degli studi è una provocazione utile a evitare pericolosi dogmatismi. In epidemiologia osservazionale vi sono situazioni in cui vale l’approccio valutativo, come nel caso delle Monografie IARC. In questi casi è bene tener presente come sia impossibile rifarsi agli studi clinici controllati e che si debba procedere a una valutazione estesa dell’incertezza scientifica. Nel caso di studi discovery and explanation bisogna evitare che un uso tradizionale della procedura statistica basata sul test d’ipotesi porti a sottovalutare l’informazione proveniente da case report o studi aneddotici.
Bibliografia
- Catelan D, Biggeri A, Barbone F. Reporting Uncertainty. Epidemiol Prev 2010; 34(56):9195.
- Catelan D, Biggeri A, Barbone F. Potenza e dimensione dello studio. Epidemiol Prev 2011; 35(34):236240.
- Greenhalgh T. How to read a paper. Blackwell 2006 (3rd ed).
- Guyatt GH, Sackett DL, Cook DJ. Users’ guides to the medical literature. II. How to use an article about therapy or prevention. A. Are the results of the study valid? EvidenceBased Medicine Working Group. JAMA 1993;270:2598-2601.
- von Elm E, Altman DG, Egger M, Pocock SJ, Gøtzsche PC, Vandenbroucke JP, the STROBE Initiative. The Strengthening the Reporting of Observational Studies in Epidemiology (STROBE) Statement Guidelines for Reporting Observational Studies. Epidemiology 2007; 18(6):800-804
- IARC Monographs on the Evaluation of Carcinogenic Risks to Humans. Preamble. Lyon 2006
- Tugwell P, Haynes RB, Sackett DL. Clinical epidemiology: A basic science for clinical medicine. Boston: Little, Brown and Company 1985.
- Guyatt GH, Sackett DL, Sinclair JC, Hayward R, Cook DJ, Cook RJ. Users’ guides to the medical literature. IX. A method for grading health care recommendations. JAMA 1995;274:1800–1804.
- Vandenbroucke JP. Observational Research, Randomised Trials, and Two Views of Medical Science. Plos Medicine 2008;5(3):e67
- Funtowicz S, Ravetz J. Science for the postnormal age. Futures 1993;25:739-755.
- Brown P. Popular Epidemiology Revisited. Current Sociology 1997; 45; 137.
- Greenland S. Randomization, Statistics, and Causal Inference. Epidemiology 1990; 1(6):421-429.
- Miettinen S. Theoretical Epidemiology: Principles of Occurrence research in Medicine. New York: Wiley, 1986.
- Greenland S. Bayesian perspectives for epidemiological research: I. Foundations and basic methods. International Journal of Epidemiology 2006;35:765–775.
- Saltelli A. Global Sensitivity Analysis: An Introduction. EU ISPRA 2002 http://sensitivityanalysis.jrc.ec.europa.eu/tutorial/Saltelli_tutorial.pdf