Rubriche
14/03/2011

Riportare e interpretare l’incertezza in uno studio epidemiologico

, , , ,

Gli studi epidemiologici hanno quasi sempre un obiettivo scientifico e i dati raccolti vengono analizzati secondo una prospettiva inferenziale per trarre conclusioni generali. Si quantifica (si stima) il parametro di interesse, per esempio una misura di effetto come il rischio relativo, e il grado di incertezza connesso alla stima. Negli articoli vengono riportate la stima e il suo intervallo, che riassume l’informazione sulla precisione della stima stessa (più grande l’intervallo meno precisa la stima e viceversa). In questa nota mostriamo come trattare correttamente la stima intervallare nel contesto di uno studio epidemiologico. Riprenderemo quindi brevemente il concetto e la sua interpretazione, suggeriremo come riportarla in un articolo e come invece in un abstract o in un executive summary.

Abbiamo parlato di stima intervallare indipendentemente dal paradigma filosofico di riferimento (frequentista o bayesiano, per esempio). La statistica frequentista basa la costruzione dell’intervallo, chiamato intervallo di confidenza (IC), sul principio delle ipotetiche infinite ripetizioni dello studio: fissato un livello α% di confidenza l’IC includerà il vero e ignoto parametro della popolazione α% delle volte. A posteriori, una volta fatto lo studio e stimato l’IC qualsiasi valore incluso nell’intervallo avrà la stessa probabilità di essere il valore ignoto del parametro oggetto dell’inferenza. Questo stato di fatto riflette la nostra ignoranza e la scambiabilità delle repliche implicita nel paradigma della ripetizione infinita dello studio. L’ampiezza dell’intervallo di confidenza dipende dalla variabilità intrinseca del fenomeno in studio (non controllabile dal ricercatore), dalla dimensione del campione (che dipende dal ricercatore) e dalla scelta (arbitraria e convenzionale) del livello α% di confidenza. Invece, se ci riferiamo alla teoria della verosimiglianza,1 una stima intervallare (intervallo di supporto IS) è data dall’insieme di valori per i quali il rapporto di verosimiglianza è superiore a una certa soglia critica.2 Dato un modello probabilistico generatore dei dati osservati, per esempio Bernoulli per dati binari o Poisson per dati di conteggio, possiamo una volta terminato lo studio valutare a posteriori, sui dati empirici ottenuti, la funzione di verosimiglianza e derivare un appropriato intervallo di supporto per il parametro di interesse.2 Anche esso dipende dalla variabilità naturale del fenomeno e più grande la dimensione campionaria più stretto l’IS. Si noti che IC e IS coincidono sotto certe assunzioni (come nel caso Gaussiano) ma quando i dati sono discreti l’IC può non essere una buona approssimazione dell’IS derivato dalla verosimiglianza esatta.3 L’impostazione Bayesiana fonda il ragionamento inferenziale sulla distribuzione di probabilità a posteriori. Su questa distribuzione possiamo derivare direttamente un intervallo di probabilità per il parametro di interesse (intervallo di credibilità ICr). Fissato un livello α% di credibilità, avremo una probabilità 1α% che il parametro ignoto sia compreso nell’intervallo.4 Mentre nell’impostazione frequentista la probabilità è riferita alla procedura e usando la verosimiglianza possiamo solo approssimativamente riposare su una interpretazione probabilistica della soglia critica, qui l’intervallo di credibilità ha un’interpretazione semplice e diretta come intervallo di probabilità.

Di solito sfortunatamente succede che…

Negli studi epidemiologici raramente è appropriato porsi in una situazione decisionale ed eseguire un test d’ipotesi. Per esempio lo sarebbe nella sperimentazione sui farmaci, dove tale procedura è espressamente prevista nel protocollo dello studio con la valutazione della potenza e la determinazione della dimensione campionaria. Stima intervallare e test d’ipotesi coincidono solo sotto certe assunzioni, come nel caso Gaussiano. Vi è un’idea diversa alla base della quantificazione dell’incertezza riportata nell’intervallo rispetto al trattamento della variabilità campionaria nella teoria del test d’ipotesi. Il grado di incertezza è traslato direttamente nell’ampiezza dell’intervallo e ognuno può apprezzare quanto informativi sono i risultati dello studio e le debolezze legate a una piccola dimensione campionaria o alla non possibilità di controllare la variabilità del fenomeno in studio nella popolazione. Sfortunatamente nella pratica della ricerca biomedica, l’intervallo viene troppo spesso utilizzato in modo acritico come surrogato del test di ipotesi: se il valore del parametro sotto ipotesi nulla è compreso nell’intervallo si nega importanza al risultato ottenuto in quanto statisticamente non significativo, e viceversa si dà importanza a un risultato solo se l’intervallo esclude il valore nullo. Questo modo di procedere spreca gran parte dell’informazione contenuta nell’intervallo: l’intervallo, pur contenendo il valore nullo, potrebbe essere tutto spostato su valori del parametro molto distanti dall’ipotesi nulla e tuttavia, seguendo per esempio l’impostazione frequentista, egualmente probabili.5 Per scoraggiare l’uso improprio dell’IC come test di ipotesi Sterne e DaveySmith hanno suggerito di riportare intervalli al 90%.6,7

Anche l’occhio vuole la sua parte

Anche come sono riportati dal punto di vista tipografico gli intervalli nel testo di un articolo può influenzare la loro interpretazione. È usuale nella letteratura epidemiologica riportare gli intervalli dopo la stima puntuale, per esempio (IC 90%: inf, sup). Louis e Zeger hanno mostrato come questo modo di procedere porti confusione nella lettura dei risultati.8 L’attenzione del lettore è solo agli estremi dell’intervallo e implicitamente li considera rispetto al valore nullo, ad esempio per il RR se sono entrambi superiori o entrambi inferiori a 1. Si perde nozione della posizione della stima puntuale nell’intervallo (si ricordi che in epidemiologia si ha generalmente a che fare con intervalli asimmetrici, diversamente dal caso Gaussiano). Gli autori, riferendosi all’IS, suggeriscono di riportare in modo tipografico particolare la stima puntuale e i punti dell’intervallo che corrispondono a livelli di confidenza del 50% e del 95%, ad esempio (usando i centili 25%75% e 2,5%97,5% della distribuzione):

p 2,5 p 25 RR p 75 p 97,5

Il grosso vantaggio di questa proposta è che il lettore ha idea della posizione dell’intera funzione di verosimiglianza rispetto al valore nullo del rischio relativo.5 Questo modo di riportare i risultati può essere esteso all’IC e all’ICr.

Inferenza selettiva

Una riflessione finale è necessaria su quella che nella letteratura è nota come “inferenza selettiva” ovvero quando selezioniamo solo alcuni dei nostri risultati per evidenziarli e commentarli nell’abstract o in un executive summary, ad esempio. Questo è rilevante se pensiamo che l’attuale ricerca epidemiologica è orientata verso studi di grande dimensione che si focalizzano su fattori di rischio con effetti piccoli e solo in particolari sottogruppi della popolazione e gli articoli riportano lunghe liste di rischi relativi e associati intervalli di confidenza (per un esempio 9), mentre solo alcuni di questi vengono selezionati per essere riportati all’attenzione. Ciò può sembrare peregrino ma invece è di notevole rilevanza in quanto abstract ed executive summary sono ad accesso libero e possono influenzare un largo pubblico. Benjamini e Yekutieli hanno dimostrato come gli IC in questi casi non hanno più la copertura reale asserita, sono cioè troppo stretti e vanno corretti per tenere conto in modo appropriato dell’incertezza legata al processo di selezione intervenuto.10,3

Comunicare e interpretare l’incertezza dei risultati di studi epidemiologici è una questione di grande rilevanza, ma il testo di questa rubrica è ancora troppo difficile?

Per comprendere la portata della riflessione sulla comunicazione dell’incertezza e per coglierne il significato

  • per chi opera nel settore dell’epidemiologia  
  • per chi deve prendere decisioni di sanità pubblica
  • per il cittadino che deve prendere decisioni per la propria salute collettiva

Scarica il materiale allegato a questo articolo contenente un esempio concreto e la possibilità per tutti di lasciare un commento.

 

Bibliografia

  1. Pace L, Salvan A. Teoria della statistica. Metodi, modelli, approssimazioni asintotiche.CEDAM 1996.
  2. Clayton D, Hills M. Statistical Models in Epidemiology. Oxford University Press. Oxford 1993.
  3. Biggeri A, Catelan D, Barbone F. Reporting Uncertainty. Epidemio l Pre v 2010; 34:9195.
  4. Gelman A, Carlin JB, Stern HS, Rubin DB. Bayesia n Dat a Analysis . 2n d edn . Chapman & Hall/ CRC Press, Boca Raton 2003.
  5. Rothman KJ. Epidemiology : A n Introduction . Oxford University Press, Oxford 2002.
  6. Stern JAC, Smith DG. Sifting the Evidence. What’s Wrong with Significance Tests? BM J 2001;322: 226231.
  7. Gardner MJ, Altman DG. Using Confidence Intervals. Lance t 1987;1 (8535):746.
  8. Louis TA, Zeger SL. Effective Communication of Standard Errors and Confidence Intervals. Biostatistic s 2009;10(1): 12.
  9. Catelan D, Biggeri A. Multiple Testing in Descriptive Epidemiology. GeoSpatia l Healt h 2010; 4(2):219229.
  10. Benjamini Y, Yekutieli D. False Discovery RateAdjusted Multiple Confidence Intervals for Selected Parameters. JAS A 2005;100(469):7181.
Approfondisci su epiprev.it Vai all'articolo su epiprev.it Versione Google AMP