Lettere
10/01/2023

p-value <0,05? No, grazie

Ho letto con interesse l’articolo di Biggeri et al. pubblicato recentemente su E&P (“P-value e probabilità di direzione dell’effetto”), che propone una diversa interpretazione del p-value (p) in un’ottica bayesiana.1 In sostanza, la proposta è quella di calcolare, partendo da p a una coda, il suo complemento (1 – p), che può essere interpretato come probabilità che l’effetto sia in una certa direzione. Giustamente, gli autori notano che non si tratta di un’alternativa, ma di un complemento all’intervallo di confidenza, che mantiene la sua fondamentale importanza (sia nel singolo studio sia nelle metanalisi), a condizione però che sia considerato come tale e non degradato a test di ipotesi (un intervallo è un intervallo, non un punto).
I problemi del p sono noti da decenni, ma il difetto più rovinoso sta probabilmente nel suo utilizzo finale, che consiste in una rigida dicotomizzazione del suo valore (etichettata da Greenland “dicotomania”)2 in base alla soglia 0,05 in “statisticamente significativo” e non, così da ridurre in sostanza lo studio a “positivo” o “negativo” (l’assenza di evidenza alla fine diventa evidenza di assenza). Tanto che, dopo la citata posizione dell’American Statistical Association del 2016,1 la stessa si è spinta a pubblicare nel 2019 un netto editoriale che presentava ben 43 articoli critici di p, in cui si legge «‘statistically significant’ – don’t say and dont’use it».3
Purtroppo, la proposta (vecchia di decenni)4 di considerare l’intervallo di confidenza invece di p ha dato pochi risultati (praticamente solo in riviste di epidemiologia e statistica e nelle riviste più autorevoli come The Lancet e il New England Journal of Medicine), perché moltissimi ricercatori guardano solo se l’intervallo contiene o no il valore nullo, quindi in sostanza utilizzandolo come test di ipotesi.5
L’analisi bayesiana è ancora troppo complessa, quindi praticata da pochi. Altre proposte, per esempio P-value function, Bayes factor, indice di sorpresa (s-value),3 non hanno funzionato, perché di non immediata comprensione e complessi da calcolare.
L’approccio di Biggeri et al. è quindi interessante, perché usa un valore comunemente utilizzato (anche se mal compreso), ma rovesciandone l’interpretazione con un calcolo molto semplice. Se il sottoscritto ha ben interpretato, è una proposta molto simile a quella avanzata da Greenland e Poole,6 che, usando un test a due code (prodotto quindi da qualsiasi software), affermano: «p/2 è la probabilità a posteriori che la stima è nella direzione errata» (traduzione mia). Mi sembrerebbe quindi lecito anche spingersi ad affermare, come fanno Biggeri et al., che (1 – p/2) è la probabilità a posteriori che la stima sia nella direzione giusta. Per esempio, con un rischio relativo di 2,00 e p=0,10 a due code, la probabilità che ci sia un aumento di rischio è (1 – 0,10/2)x100 = 95%; mentre se il rischio relativo è 0,80 e p=0,20 a due code, la probabilità che l’esposizione sia protettiva è (1 – 0,20/2)x100 = 90%.
In quest’ottica, anche valori di p >0,05 possono essere meritevoli di interesse. Non solo p =0,06, a volte recuperato come “significatività borderline” (non significativo, però quasi), contraddicendo la frase assolutamente rituale che troppo spesso appare nel paragrafo “Metodi” degli articoli scientifici: «Abbiamo considerato significativo p <0,05». Con questo non si vuole sostenere che qualunque aumento o diminuzione di rischio sia da valorizzare; sappiamo tutti quanto sia difficile discernere tra molti i risultati meritevoli di interesse. Quello che occorre fare è essere un po’ elastici sul p e sull’intervallo di confidenza e valutare i risultati sulla base di varie considerazioni (epidemiologiche, biologiche, farmacologiche, cliniche, tossicologiche eccetera), non affidarsi a un singolo numero.
La proposta di Biggeri et al. è quindi da accogliere e diffondere, perché va nella direzione del superamento della dicotomania. Temo purtroppo che non ci sia da illudersi sul suo successo. Diverse generazioni sono state educate al rigido “rifiuto/non rifiuto” dell’ipotesi nulla. Gli effetti si sono visti: molti ricercatori pensano che il lavoro di statistici ed epidemiologi consista solo nel calcolare i p. C’è probabilmente bisogno di rifondare l’insegnamento della statistica (come per esempio già si sta facendo nel Master di epidemiologia dell’Associazione italiana di epidemiologia), scardinando, come suggerito,7 l’attuale cultura basata esclusivamente sull’ipotesi nulla (null hypothesis significance testing – NHST – etichettato sempre da Greenland come “nullismo”)2 e sperare nelle nuove generazioni.

Conflitti di interesse dichiarati: nessuno.

Bibliografia

  1. Biggeri A, Stoppa G, Catelan D. P-value e probabilità di direzione dell’effetto. Epidemiol Prev 2022;46(3):204-10.
  2. Greenland S. Invited commentary: The need for cognitive science in methodology. Am J Epidemiol 2017;186(6):639-45.
  3. Wasserstein RL, Schirm AL, Lazar NA. Moving to a world beyond “p < 0.05”. Am Stat 2019;73(S1):1-19.
  4. Consonni D, Bertazzi PA. Health significance and statistical uncertainty. The value of P-value. Med Lav 2017;108(5):327-31.
  5. Rothman KJ. A show of confidence. New Engl J Med 1978;299(24):1362-63.
  6. Greenland S, Poole C. Living with P values. Resurrecting a Bayesian perspective on frequentist statistics. Epidemiology 2013;24(1):62-8.
  7. Lash TL. The harm done to reproducibility by the culture of null hypothesis significance testing. Am J Epidemiol 2017;186(6):627-35.
Approfondisci su epiprev.it Vai all'articolo su epiprev.it Versione Google AMP