rubrica
Epidemiol Prev 2011; 35 (1): 51-52

CON METODO/Riportare e interpretare l’incertezza in uno studio epidemiologico

Reporting and interpreting uncertainty in epidemiological studies

  • Annibale Biggeri1,2

  • Dolores Catelan1,2

  • Fabio Barbone3

  1. Dipartimento di statistica «G. Parenti» Università di Firenze
  2. Unità di biostatistica, ISPO Istituto per lo studio e la prevenzione oncologica, Firenze
  3. Dipartimento di patologia medicina sperimentale e clinica, Università di Udine, Udine
Dolores Catelan -

Gli studi epidemiologici hanno quasi sempre un obiettivo scientifico e i dati raccolti vengono analizzati secondo una prospettiva inferenziale per trarre conclusioni generali. Si quantifica (si stima) il parametro di interesse, per esempio una misura di effetto come il rischio relativo, e il grado di incertezza connesso alla stima. Negli articoli vengono riportate la stima e il suo intervallo, che riassume l’informazione sulla precisione della stima stessa (più grande l’intervallo meno precisa la stima e viceversa). In questa nota mostriamo come trattare correttamente la stima intervallare nel contesto di uno studio epidemiologico. Riprenderemo quindi brevemente il concetto e la sua interpretazione, suggeriremo come riportarla in un articolo e come invece in un abstract o in un executive summary.

Abbiamo parlato di stima intervallare indipendentemente dal paradigma filosofico di riferimento (frequentista o bayesiano, per esempio). La statistica frequentista basa la costruzione dell’intervallo, chiamato intervallo di confidenza (IC), sul principio delle ipotetiche infinite ripetizioni dello studio: fissato un livello α% di confidenza l’IC includerà il vero e ignoto parametro della popolazione α% delle volte. A posteriori, una volta fatto lo studio e stimato l’IC qualsiasi valore incluso nell’intervallo avrà la stessa probabilità di essere il valore ignoto del parametro oggetto dell’inferenza. Questo stato di fatto riflette la nostra ignoranza e la scambiabilità delle repliche implicita nel paradigma della ripetizione infinita dello studio. L’ampiezza dell’intervallo di confidenza dipende dalla variabilità intrinseca del fenomeno in studio (non controllabile dal ricercatore), dalla dimensione del campione (che dipende dal ricercatore) e dalla scelta (arbitraria e convenzionale) del livello α% di confidenza. Invece, se ci riferiamo alla teoria della verosimiglianza,1 una stima intervallare (intervallo di supporto IS) è data dall’insieme di valori per i quali il rapporto di verosimiglianza è superiore a una certa soglia critica.2 Dato un modello probabilistico generatore dei dati osservati, per esempio Bernoulli per dati binari o Poisson per dati di conteggio, possiamo una volta terminato lo studio valutare a posteriori, sui dati empirici ottenuti, la funzione di verosimiglianza e derivare un appropriato intervallo di supporto per il parametro di interesse.2 Anche esso dipende dalla variabilità naturale del fenomeno e più grande la dimensione campionaria più stretto l’IS. Si noti che IC e IS coincidono sotto certe assunzioni (come nel caso Gaussiano) ma quando i dati sono discreti l’IC può non essere una buona approssimazione dell’IS derivato dalla verosimiglianza esatta.3 L’impostazione Bayesiana fonda il ragionamento inferenziale sulla distribuzione di probabilità a posteriori. Su questa distribuzione possiamo derivare direttamente un intervallo di probabilità per il parametro di interesse (intervallo di credibilità ICr). Fissato un livello α% di credibilità, avremo una probabilità 1α% che il parametro ignoto sia compreso nell’intervallo.4 Mentre nell’impostazione frequentista la probabilità è riferita alla procedura e usando la verosimiglianza possiamo solo approssimativamente riposare su una interpretazione probabilistica della soglia critica, qui l’intervallo di credibilità ha un’interpretazione semplice e diretta come intervallo di probabilità.

Di solito sfortunatamente succede che…

Negli studi epidemiologici raramente è appropriato porsi in una situazione decisionale ed eseguire un test d’ipotesi. Per esempio lo sarebbe nella sperimentazione sui farmaci, dove tale procedura è espressamente prevista nel protocollo dello studio con la valutazione della potenza e la determinazione della dimensione campionaria. Stima intervallare e test d’ipotesi coincidono solo sotto certe assunzioni, come nel caso Gaussiano. Vi è un’idea diversa alla base della quantificazione dell’incertezza riportata nell’intervallo rispetto al trattamento della variabilità campionaria nella teoria del test d’ipotesi. Il grado di incertezza è traslato direttamente nell’ampiezza dell’intervallo e ognuno può apprezzare quanto informativi sono i risultati dello studio e le debolezze legate a una piccola dimensione campionaria o alla non possibilità di controllare la variabilità del fenomeno in studio nella popolazione. Sfortunatamente nella pratica della ricerca biomedica, l’intervallo viene troppo spesso utilizzato in modo acritico come surrogato del test di ipotesi: se il valore del parametro sotto ipotesi nulla è compreso nell’intervallo si nega importanza al risultato ottenuto in quanto statisticamente non significativo, e viceversa si dà importanza a un risultato solo se l’intervallo esclude il valore nullo. Questo modo di procedere spreca gran parte dell’informazione contenuta nell’intervallo: l’intervallo, pur contenendo il valore nullo, potrebbe essere tutto spostato su valori del parametro molto distanti dall’ipotesi nulla e tuttavia, seguendo per esempio l’impostazione frequentista, egualmente probabili.5 Per scoraggiare l’uso improprio dell’IC come test di ipotesi Sterne e DaveySmith hanno suggerito di riportare intervalli al 90%.6,7

Anche l’occhio vuole la sua parte

Anche come sono riportati dal punto di vista tipografico gli intervalli nel testo di un articolo può influenzare la loro interpretazione. E’ usuale nella letteratura epidemiologica riportare gli intervalli dopo la stima puntuale, per esempio (IC 90%: inf, sup). Louis e Zeger hanno mostrato come questo modo di procedere porti confusione nella lettura dei risultati.8 L’attenzione del lettore è solo agli estremi dell’intervallo e implicitamente li considera rispetto al valore nullo, ad esempio per il RR se sono entrambi superiori o entrambi inferiori a 1. Si perde nozione della posizione della stima puntuale nell’intervallo (si ricordi che in epidemiologia si ha generalmente a che fare con intervalli asimmetrici, diversamente dal caso Gaussiano). Gli autori, riferendosi all’IS, suggeriscono di riportare in modo tipografico particolare la stima puntuale e i punti dell’intervallo che corrispondono a livelli di confidenza del 50% e del 95%, ad esempio (usando i centili 25%75% e 2,5%97,5% della distribuzione):

p 2,5 p 25 RR p 75 p 97,5

Il grosso vantaggio di questa proposta è che il lettore ha idea della posizione dell’intera funzione di verosimiglianza rispetto al valore nullo del rischio relativo.5 Questo modo di riportare i risultati può essere esteso all’IC e all’ICr.

Inferenza selettiva

Una riflessione finale è necessaria su quella che nella letteratura è nota come “inferenza selettiva” ovvero quando selezioniamo solo alcuni dei nostri risultati per evidenziarli e commentarli nell’abstract o in un executive summary, ad esempio. Questo è rilevante se pensiamo che l’attuale ricerca epidemiologica è orientata verso studi di grande dimensione che si focalizzano su fattori di rischio con effetti piccoli e solo in particolari sottogruppi della popolazione e gli articoli riportano lunghe liste di rischi relativi e associati intervalli di confidenza (per un esempio 9), mentre solo alcuni di questi vengono selezionati per essere riportati all’attenzione. Ciò può sembrare peregrino ma invece è di notevole rilevanza in quanto abstract ed executive summary sono ad accesso libero e possono influenzare un largo pubblico. Benjamini e Yekutieli hanno dimostrato come gli IC in questi casi non hanno più la copertura reale asserita, sono cioè troppo stretti e vanno corretti per tenere conto in modo appropriato dell’incertezza legata al processo di selezione intervenuto.10,3

     
 

Comunicare e interpretare l’incertezza dei risultati di studi epidemiologici è una questione di grande rilevanza, ma il testo di questa rubrica è ancora troppo difficile?

Per comprendere la portata della riflessione sulla comunicazione dell’incertezza e per coglierne il significato

  • per chi opera nel settore dell’epidemiologia  
  • per chi deve prendere decisioni di sanità pubblica
  • per il cittadino che deve prendere decisioni per la propria salute collettiva

Scarica il materiale allegato a questo articolo contenente un esempio concreto e la possibilità per tutti di lasciare un commento.

 
     

Bibliografia

  1. Pace L, Salvan A. Teoria della statistica. Metodi, modelli, approssimazioni asintotiche.CEDAM 1996.
  2. Clayton D, Hills M. Statistical Models in Epidemiology. Oxford University Press. Oxford 1993.
  3. Biggeri A, Catelan D, Barbone F. Reporting Uncertainty. Epidemio l Pre v 2010; 34:9195.
  4. Gelman A, Carlin JB, Stern HS, Rubin DB. Bayesia n Dat a Analysis . 2n d edn . Chapman & Hall/ CRC Press, Boca Raton 2003.
  5. Rothman KJ. Epidemiology : A n Introduction . Oxford University Press, Oxford 2002.
  6. Stern JAC, Smith DG. Sifting the Evidence. What’s Wrong with Significance Tests? BM J 2001;322: 226231.
  7. Gardner MJ, Altman DG. Using Confidence Intervals. Lance t 1987;1 (8535):746.
  8. Louis TA, Zeger SL. Effective Communication of Standard Errors and Confidence Intervals. Biostatistic s 2009;10(1): 12.
  9. Catelan D, Biggeri A. Multiple Testing in Descriptive Epidemiology. GeoSpatia l Healt h 2010; 4(2):219229.
  10. Benjamini Y, Yekutieli D. False Discovery RateAdjusted Multiple Confidence Intervals for Selected Parameters. JAS A 2005;100(469):7181.

Commenti

Questo articolo è scritto in linguaggio tecnico o gergale?

Il linguaggio tecnico si distingue da quello comune per univocità semantica e utilizzo di segni aggiuntivi (termini e simboli). La sintassi dovrebbe rendere minime le problematiche linguistiche.

Se si vuole parlare "al di fuori della cerchia ristretta" bisognerebbe stare molto attenti alle seguenti problematiche linguistiche:
1) rideterminazione semantica di parole del linguaggio comune. Es. Al termine "scambiabilità" viene dato il significato prevalente di equivalenza.
2) rideterminazione semantica di termini appartenenti anche ad altre lingue speciali. Es. il termine "scambiabilità" è utilizzato anche in economia con un significato, ad es., di convertibilità di valore o di un'azione. In questo esempio anche i termini "valore" ed "azione" hanno un significato molto diverso dalla lingua speciale statistica.
3) neoformazioni quasi mai assolute. Ad esempio "frequentista".
4) uso di derivati o sintagmi eponimi (es. "il caso Gaussiano")
5) adozione di forestierismi (es. executive summary)
6) l'impiego di sinonimi dotti non necessari per univocità semantica: i più pericolosi non sono i termini semplici ma le frasi ("possiamo solo approssimativamente riposare su una interpretazione").
7) uso di simboli anche non alfanumerici che possono entrare nella lingua naturale: questo articolo riesce ad evitare questo problema. E' un passo in avanti.
8) uso residuo di definizioni analogiche che mal si prestano alla tendenza a obliterare l'emotività: es. "sfortunatamente nella pratica della ricerca biomedica"
9) uso di tecnícismi collaterali.

Fabio Atzori ne "L'italiano delle scienze: materiali per l'uso" analizza alcune delle caratteristiche della sintassi delle lingue speciali. La sintassi del linguaggio spesso utilizzato in ambito medico da alcuni cultori della statistica non ha i punti di forza di quello di altri linguaggi scientifici, tipicamente con scansione del testo in blocchi di scarsa ampiezza. In questo articolo troviamo numerosi periodi lunghi e sintatticamente convoluti. Questo richiede un processo d'interpretazione linguistico che rende "difficile" sintatticamente il testo.

Qualsiasi testo scientifico dovrebbe soddisfare le condizioni di chiarezza, coerenza, assenza di contraddizioni.
Analizziamo una frase cruciale del testo:
"Il grado d'incertezza è traslato direttamente nell'ampiezza dell'intervallo e ognuno può apprezzare quanto informativi sono i risultati dello studio e le debolezze legate a una piccola dimensione campionaria o alla possibilità di controllare la variabilità del fenomeno in studio nella popolazione".
Segue ora il resoconto di quanto mi è successo dopo averla letta.
Incertezza da stima campionaria? cosa ha a che vedere questo con la possibilità di controllare la variabilità di un fenomeno? si parla di variabilità dell'estimatore nei campioni possibili della popolazione o della variabilità del fenomeno in sé? Questi sono alcuni degli interrogativi che mi sono posto d'istinto appena letta la frase. Per cercare di rispondere girovago nel resto del testo. Quindi perdo il filo del discorso. Pesco nelle mie conoscenze (il processo d'apprendimento nell'adulto funziona integrando i nuovi apporti con le conoscenze acquisite). Penso: se l'intervallo di confidenza serve per le stime campionarie cosa c'entra con gli studi di popolazione? Se ho tutta la popolazione avrò "il valore" non un suo estimatore. Finisco con l'occhio sull'ultima frase del paragrafo precedente. Leggo "qui l'intervallo di credibilità ha un'interpretazione semplice e diretta come intervallo di probabilità". Quindi mi sovvengono le dissertazioni sugli assiomi della "probabilità". Forse i meno semplici delle teorie statistiche.
Mentre sono immerso in questi pensieri mi chiama un amico chirurgo, che mi dice che ha bisogno delle mie "alchimie statistiche" (proprio questo termine usa). Gli fisso un incontro. Quindi torno nei miei pensieri e mi avvolge una sensazione d'inadeguatezza e sconforto. I maestri di Harvard e del Karolinska probabilmente non hanno avuto grandi risultati con me?
Finisco di leggere il testo e, alla fine, noto con stupore che mi viene chiesto se "il testo di questa rubrica è ancora troppo difficile".

Difficile. Sì.
Come era difficile la lettura di Hegel in filosofia. Uno si sente piccolo di fronte all'immensa difficoltà di comprensione della complessa filosofia hegeliana. Però poi, finito il liceo, uno legge Kant, e Shopenhauer, e rimane affascinato dalla loro chiarezza e semplice profondità. E riflette: non è che il problema è come scriveva Hegel e non la mia capacità di capire la "filosofia"?

Inserisci il tuo commento

L'indirizzo mail è privato e non verrà mostrato pubblicamente.
Refresh Type the characters you see in this picture. Type the characters you see in the picture; if you can't read them, submit the form and a new image will be generated. Not case sensitive.  Switch to audio verification.