Riassunto

L’ultimo anno e mezzo è stato un periodo fervido per l’inferenza causale in epidemiologia. Sono stati pubblicati libri importanti, come quello di Pearl e collaboratori Causal inference in statistics e il libro su “Mediation e Interaction” scritto da VanderWeele. L’ultimo volume dell’International Journal of Epidemiology include diversi interventi sul tema dell’inferenza causale, mentre altri articoli sono stati pubblicati sugli Annals of Epidemiology, su Epidemiology e sullo European Journal of Epidemiology (si veda bibliografia completa on-line). Nel presente editoriale vogliamo riprendere alcuni dei temi affrontati in questi dibattiti.

L’ultimo anno e mezzo è stato un periodo fervido per l’inferenza causale in epidemiologia. Sono stati pubblicati libri importanti, come quello di Pearl e collaboratori Causal inference in statistics1 e il libro su “Mediation e Interaction” scritto da VanderWeele.2 L’ultimo volume dell’International Journal of Epidemiology include diversi interventi sul tema dell’inferenza causale, mentre altri articoli sono stati pubblicati sugli Annals of Epidemiology, su Epidemiology e sullo European Journal of Epidemiology (si veda bibliografia completa on-line). Nel presente editoriale vogliamo riprendere alcuni dei temi affrontati in questi dibattiti.

L'approccio controfattuale

Il principale argomento di discussione riguarda il ruolo dell’approccio controfattuale per l’inferenza causale, coinvolgendo aspetti di carattere sia metodologico sia epistemologico. Nell’ambito controfattuale, l’effetto causale è definito come la differenza tra gli esiti che avremmo osservato in presenza e in assenza dell’esposizione a parità delle altre condizioni. Poiché solo l’esito corrispondente all’esposizione ricevuta è osservabile, gli esiti che si sarebbero verificati sotto scenari alternativi sono detti esiti potenziali o controfattuali. Questa teoria fornisce uno strumento per quantificare l’effetto causale di un’esposizione o un intervento a livello di popolazione. Un tema di dibattito è in quali casi questo sia effettivamente possibile. L’approccio controfattuale è applicabile in qualsiasi circostanza oppure è uno strumento utilizzabile solo per esposizioni con determinate caratteristiche?

Un esempio discusso nell’ambito del dibattito sugli esiti controfattuali riguarda l’interpretazione dell’obesità come causa di mortalità. Assumendo che la riduzione nella popolazione dell’indice di massa corporea (IMC), per esempio, da 30 a 25 kg/m2 abbia un effetto sulla longevità, la criticità consiste nell’identificare il possibile intervento di riduzione dell’IMC che causi tale effetto.3 Si può, infatti, modificare l’IMC tramite diversi interventi, quali la riduzione dell’apporto calorico, l’aumento dell’attività fisica o un intervento di prevenzione della sedentarietà in età precoce. In assenza di un intervento specifico, l’effetto causale stimato dell’obesità sulla mortalità può essere interpretato come una media pesata degli effetti delle strategie (in parte ignote) con cui si possa avere un IMC di 25 anziché di 30. I pesi sarebbero corrispondenti alle probabilità (nuovamente ignote) con cui le diverse modalità si manifestano nella popolazione. Questo effetto causale stimato è rilevante ai fini della conoscenza scientifica, anche se è di interesse più limitato per i decisori in materia di sanità pubblica. Generalizzando, alcuni pensano che l’approccio controfattuale sia utile ai fini della stima e dell’interpretazione dell’effetto causale solo per interventi definiti a un livello assimilabile a un ipotetico protocollo di uno studio sperimentale. Altri, noi compresi, ritengono invece che l’approccio controfattuale possa essere utilizzato anche in assenza di un intervento ben specificato, sia per esplicitare le assunzioni sottostanti l’identificabilità degli effetti causali sia per stimare l’effetto dell’esposizione, anche se tale effetto non corrisponde necessariamente a quello di un intervento specifico a livello di popolazione.

Approcci pluralistici alla causalità

La teoria basata sugli esiti controfattuali non è comunque l’unico approccio a disposizione per ragionare sulle cause in epidemiologia. Un’opinione condivisa è la necessità di adottare un approccio pluralistico alla causalità e di raccogliere diversi tipi di evidenza al fine di trarre conclusioni di natura causale, in particolare per quanto riguarda esposizioni complesse, come il contesto sociale o il cambiamento climatico. Diversi approcci all’inferenza causale sono stati ampiamenti discussi nella letteratura epidemiologica (per esempio, da Bradford Hill), sono utilizzati da agenzie internazionali (per esempio, il programma delle Monografie dell’International Agency for Research on Cancer) e sono l’oggetto di alcuni articoli che hanno stimolato questo editoriale. Un esempio è l’articolo di Lawlor4 sulla triangolazione, che consiste nell’integrare i risultati di diversi approcci epidemiologici che coinvolgono assunzioni e sorgenti di distorsione differenti. In generale, vediamo con favore un approccio articolato all’inferenza causale, in un contesto di consapevolezza dei limiti e delle assunzioni di ciascun metodo.

L'utilizzo dei grafi

Un altro argomento di dibattito nella letteratura recente riguarda l’uso dei directed acyclic graphs (DAG; vedi box a p. 77). Alcuni ricercatori ne criticano la validità sostenendo che non sia possibile riassumere in un DAG la complessità delle strutture causali d’interesse. Concordiamo sul fatto che spesso non sia possibile sintetizzare in un grafo “l’intera realtà”, ma riteniamo che non sia questo il loro scopo. I DAG sono uno strumento grafico non parametrico che permette di valutare attraverso l’esplicitazione della struttura causale se l’insieme di variabili proposte sia sufficiente a minimizzare il confondimento senza introdurre distorsioni. E' importante sottolineare che l’informazione relativa alla struttura causale – disegno dello studio, direzione degli effetti, assenza di cause comuni e assenza di effetti diretti tra le variabili – si basa sulla conoscenza a priori del fenomeno oggetto di studio e non è derivabile dai dati. In altre parole, i DAG, essendo una rappresentazione grafica delle indipendenze condizionate fra le variabili, consentono di visualizzare le conseguenze, date le assunzioni, di condizionare per una data variabile. Questo facilita la trattazione di alcuni problemi complessi. Attraverso i DAG, per esempio, è facile distinguere la distorsione dovuta al mancato condizionamento per una causa comune (confondimento) da quella conseguente al condizionamento per un effetto comune (collider bias), una distinzione che sarebbe più ostica basandosi solo sulle probabilità o sull’approccio degli esiti controfattuali.

Alcuni aspetti, come l’interazione, sono tuttavia difficili da affrontare con i DAG. Inoltre, alcuni ritengono che i DAG possano essere utilizzati solo come rappresentazione dell’approccio controfattuale e debbano limitarsi a variabili su cui sia possibile compiere interventi. Noi non concordiamo con questa visione e rimandiamo al recente articolo di Greenland5 per un approfondimento. Riteniamo che i DAG siano uno strumento valido e di particolare utilità per facilitare il dibattito scientifico e l’insegnamento dei princìpi dell’epidemiologia e della biostatistica.

L'importanza dell'insegnamento

La modalità di insegnamento è un tema centrale che forse meriterebbe maggiore attenzione nell’ambito dei dibattiti sull’inferenza causale: quanto spazio dare all’inferenza causale, ai controfattuali e ai DAG nei corsi di epidemiologia e biostatistica? Riteniamo che questi argomenti dovrebbero essere introdotti già nei corsi di laurea ed essere parte integrante della formazione post laurea. Come per qualsiasi argomento, il corretto insegnamento implica anche la discussione dei limiti e degli ambiti di applicazione.

Diversi ricercatori italiani lavorano nell’ambito dell’inferenza causale e sono attivamente coinvolti nell’insegnamento di questi metodi. Gli autori di questo editoriale, per esempio, sono fondatori del gruppo di lavoro Inferenza causale in epidemiologia (ICE), patrocinato dalla Società italiana di statistica medica ed epidemiologia clinica (SISMEC), che riunisce ricercatori italiani e stranieri e organizza dal 2009 corsi di inferenza causale in epidemiologia. Insieme all’aspetto pedagogico si dovrebbero stimolare lo scambio e il dibattito scientifico a livello nazionale, per esempio attraverso l’organizzazione di sessioni dedicate nelle conferenze di biostatistica ed epidemiologia. Auspichiamo che il dibattito possa proseguire anche sulle pagine di Epidemiologia&Prevenzione.

Conflitti di interesse dichiarati: nessuno.

Ringraziamenti: ringraziamo Milena Maule per i suoi commenti a una prima versione di questo editoriale.

Bibliografia

  1. Pearl J, Glymour M, Jewell NP. Causal inference in statistics. A primer. Chichester, Wiley, 2016.
  2. Vanderweele T. Explanation in Causal Inference: methods for mediation and interaction. New York, Oxford University press, 2015.
  3. VanderWeele TJ. On Causes, Causal Inference, and Potential Outcomes. Int J Epidemiol 2016;45(6):1809-16. doi:10.1093/ije/dyw230.
  4. Lawlor DA, Tilling K, Davey Smith G. Triangulation in aetiological epidemiology. Int J Epidemiol 2016;45(6):1866-86. doi:10.1093/ije/dyw314.
  5. Greenland S. For and against methodologies: some perspectives on recent causal and statistical inference debates. Eur J Epidemiol 2017;32(1):3-20.

 

Concetti di base dei directed acyclic graphs (DAG)

ep41-2-77-fig-box.png

I DAG sono uno strumento grafico non parametrico, le cui caratteristiche fondamentali sono descritte nei punti che seguono.

  1. I DAG sono formati da una serie di frecce direzionali (anche note come archi) che connettono tra loro le variabili (anche detti nodi).
  2. Le frecce hanno un significato causale: (i) la presenza di una freccia tra due variabili significa che la prima variabile può causare la seconda (per esempio, nella figura, A può causare B); (ii) l’assenza di una freccia implica assenza di causalità ed è quindi un’assunzione più stringente (per esempio, nella figura, si assume che l’esposizione non possa causare B).
  3. Una serie di archi che permettono di passare da una variabile a un’altra, indipendentemente dalla direzione delle frecce, è detta path (nella figura, tra esposizione ed esito ci sono tre possibili path). Un path che segue la direzione delle frecce è un path causale.
  4. I DAG sono grafi diretti e aciclici: diretti implica che le frecce non possono essere bidirezionali; aciclici implica che seguendo il path causale a partire da una variabile non è possibile terminare sulla stessa variabile (per esprimere effetti di feedback attraverso un DAG è, quindi, necessario dare una connotazione temporale alle variabili).
  5. Una variabile su cui puntano almeno due frecce si chiama collider (nella figura, C è un collider).
  6. Si definisce backdoor path un path dall’esposizione all’esito che comincia con una freccia che punta sull’esposizione (nella figura, il path Esposizione-A-B-Esito è un backdoor path).
  7. Un path è bloccato quando contiene un collider oppure quando contiene un non-collider sul quale si è condizionato (aggiustato). Se si aggiusta per un collider, invece, si apre un path che era naturalmente bloccato.
  8. La presenza di path aperti tra due variabili implica associazione tra le due variabili.
  9. Non c’è confondimento dell’effetto dell’esposizione sull’esito quando tutti i backdoor path sono bloccati.
  10. I DAG assumano che non ci sia variabilità campionaria.

Considerando questi dieci punti, dato il semplice DAG in figura si può dedurre che, per stimare in maniera valida l’effetto dell’esposizione sull’esito, è necessario bloccare il backdoor path Esposizione-A-B-Esito aggiustando per A o per B, mentre il path Esposizione-C-Esito è già bloccato, in quanto include il collider C. Aggiustando per C si introduce distorsione, perché si apre un path non causale tra esposizione ed esito.

       Visite