Potenza e dimensione dello studio (cosa c’è di sbagliato nel calcolo post hoc della potenza)
Introduzione
Lo spostamento di attenzione da una pratica ormai ridotta a una serie di comportamenti automatici, l’esecuzione di un test d’ipotesi con il suo corredo di valori di p e risultati statisticamente significativi, all’uso degli intervalli di confidenza richiede che siano affrontati tutti i punti in cui la statistica viene utilizzata nella ricerca epidemiologica. Nelle precedenti rubriche abbiamo cercato di illustrare come trattare l’incertezza campionaria e mostrato come usare la probabilità a posteriori e il suo ruolo nel caso dei confronti multipli (il cosiddetto q-value).1
Discutiamo in questa rubrica del calcolo della potenza e della dimensione dello studio. Si definisce potenza la probabilità di dichiarare significativo un test sotto ipotesi alternativa, ed è il complemento a uno della probabilità di errore di secondo tipo. Per essere calcolata bisogna che sia specificato il livello di significatività e che sia specificata l’ipotesi alternativa.
Nell’impostazione di Neyman-Pearson viene infatti specificato il livello di errore di I tipo (probabilità di dichiarare significativo un test sotto ipotesi nulla) e il livello di errore di II tipo. Il test d’ipotesi considera solo l’errore di I tipo e fissa un livello massimo accettabile di probabilità di errore di I tipo, o livello di significatività. L’errore di II tipo viene considerato solo nella fase di programmazione di uno studio e nella determinazione della dimensione campionaria.
Il calcolo della potenza è quindi strettamente legato al disegno di uno studio finalizzato a prendere una decisione. È questo il caso di uno studio clinico controllato randomizzato con un esito principale ben definito e teso a valutare la superiorità di un trattamento. Il caso cioè in cui abbiamo un’ipotesi nulla che ha senso saggiare (e quindi ha senso eseguire un test d’ipotesi) e una chiara idea della grandezza dell’effetto, che sia cioè clinicamente rilevante (e quindi possiamo dimensionare lo studio in modo da avere una potenza adeguata). Ma questa non è la situazione più frequente.
Ha senso calcolare la potenza a posteriori?
Richiamiamo un nostro studio pubblicato nel 1998: avevamo ottenuto una stima del rischio relativo con un intervallo di confidenza al 95% di 0.2 ; 1.4.2 Nella discussione del lavoro avevamo scritto tra l’altro che «the low statistical power of the study has already been mentioned. Given a=0.05 and power=0.8, the study would have been able to detect a linear trend over the exposure quartiles only with ORs >1.5 ...» . La motivazione per fornire queste informazioni nella discussione del lavoro sta nella seguente argomentazione: lo studio è informativo anche se non riporta un aumento del rischio relativo, perché la valutazione della potenza dimostra che possiamo escludere aumenti del rischio relativo di una certa entità (nel nostro caso sopra 1.5). Se fossimo interessati a rischi relativi di grandezza inferiore a 1.5 allora il nostro studio sarebbe sottodimensionato, in altre parole troppo piccolo per metterli in evidenza.
Questo argomentare e questo modo di procedere è criticabile. Che bisogno c’è di eseguire il calcolo a posteriori della potenza? Avevamo davvero un’ipotesi nulla da testare? In realtà abbiamo già tutta l’informazione che ci necessita ed è quella veicolata dall’intervallo di confidenza, basta considerare l’estremo superiore dell’intervallo (0.2; 1.4) per sostenere l’argomentazione che se mai si fosse in presenza di un’esposizione nociva il rischio relativo associato è con tutta verosimiglianza inferiore a 1.4. Questo modo di procedere è stato stigmatizzato nel 2002 da Bacchetti che, riferendosi anche alla cattiva pratica dei revisori delle riviste internazionali, afferma: «Concerns about sample size after a study is done can generally be refocused more directly on whether the authors have properly presented and interpreted the uncertainty in their results, particularly negative findings».3 Tra le molte lettere e commenti che quel contributo aveva suscitato molto chiaro è il seguente: «There is little merit in calculating the statistical power once the results of the trial are known; the power is then appropriately indicated by confidence intervals» (corsivo nostro).4 Vi è oggi un accordo generale nel ritenere inutile e fonte di confusione e quindi da sconsigliare il calcolo a posteriori della potenza dello studio. A posteriori tutta l’informazione necessaria è contenuta nell’intervallo di confidenza.
Ma è vero che resta valida a priori, come indicavano Altman et al.4 nel commento succitato?
BOX 1 Potenza e dimensione dello studio. Un esempio semplice Supponiamo di voler determinare la numerosità di uno studio di prevalenza (P). La stima della prevalenza è data dalla proporzione di malati nel campione. Assumiamo l’approssimazione normale per la distribuzione binomiale. Sotto ipotesi nulla P = π0, abbiamo quindi una Gaussiana centrata su questo valore con deviazione standard che è funzione della numerosità campionaria. Ora fissiamo ad α la probabilità di errore di primo tipo. La probabilità di errore di secondo tipo dipenderà dalla posizione della Gaussiana sotto ipotesi alternativa (π1). Fissata π1 per controllare la probabilità di errore di secondo tipo possiamo solo giocare sulla deviazione standard delle distribuzioni, cioè sulla dimensione campionaria (vedi figura 1). In formula: Dobbiamo quindi conoscere per calcolare la dimensione campionaria il rischio di base π0 (necessario per calcolare la deviazione standard) e la differenza di interesse (π1 - π0). Dobbiamo poi assumere un determinato livello di probabilità di errore di primo tipo (di solito 5% o 1% a una o due code a seconda del problema affrontato, ottenendo dalle tavole della distribuzione Gaussiana standard per esempio per α = 0.05 a due code z =1.96) e un determinato livello di probabilità di errore di secondo tipo (di solito il 10% o il 20%, ottenendo dalle tavole della distribuzione Gaussiana standard per esempio per β =0.20 z = 0.84). Si noti che poiché l’ipotesi alternativa è specificata, per l’errore di secondo tipo si consultano sempre le tavole a una coda. |
La dimensione del campione
Bland5 osserva come in 35 anni, dai primi anni Settanta al 2007, le caratteristiche degli studi scientifici riportati su The Lancet e sul British Medical Journal sono cambiate drasticamente. La dimensione del campione è cresciuta di 100 volte e un calcolo formale basato sulla potenza dello studio è riportato nei lavori tre volte più frequentemente di allora. Perché? L’autore ricorda come nei primi anni Settanta i risultati venissero usualmente interpretati alla sola luce del risultato del test d’ipotesi, come statisticamente significativi o meno, e come questo fosse fonte di una cattiva interpretazione degli stessi risultati e dei valori di p associati ai test d’ipotesi. La piccola numerosità campionaria degli studi allora pubblicati aumentava la confusione, la variabilità campionaria essendo meno controllata. Come reazione a questo stato di cose da un lato si sono affermate le metanalisi, cioè valutazioni quantitative che non dipendono dal giudizio soggettivo degli esperti (che possono anche loro mal interpretare i valori di p), dall’altro è stato richiesto sempre più frequentemente un calcolo formale della potenza e della dimensione dello studio, sia nella fase di approvazione di un progetto di ricerca sia a posteriori.
Il dimensionamento dello studio si è anche ammantato di connotati etici, al punto che si sostiene come poco etico uno studio che non soddisfi determinati requisiti di potenza statistica.6 In realtà non si dovrebbe applicare acriticamente e rigidamente una valutazione di potenza in un protocollo di studio, ma valutare il valore e l’impegno che lo studio ha per i partecipanti e la comunità in generale. Non è realistico che valore e impegno siano costanti rispetto alla dimensione campionaria e, nel caso degli studi clinici, c’è chi ha sostenuto con valide ragioni come declinino al crescere della dimensione campionaria, al punto di pensare che gli studi molto grandi sollevino dei problemi etici.6 Sembra comunque ragionevole, con Prentice,7 continuare a considerare con sospetto gli studi troppo piccoli per dimensione campionaria. Non bisogna pensare solo al beneficio per il ricercatore, per il quale per esempio uno studio di biomonitoraggio su pochi soggetti può rappresentare un’ottima occasione di prestigio e carriera, ma al vantaggio e alle conseguenze per i partecipanti e la comunità/collettività da cui provengono. La questione tecnica qui è che questo vantaggio/conseguenze non sono indipendenti rispetto alla dimensione dello studio e potrebbero sfavorire studi troppo piccoli come studi troppo grandi.
Dimensione del campione e intervallo di confidenza
Il calcolo della dimensione campionaria viene condotto assumendo di dover eseguire un test d’ipotesi. Questo cade in contraddizione con la richiesta di riportare i risultati come intervalli di confidenza piuttosto che come test d’ipotesi. Infatti se vogliamo pervicacemente seguire la strada del test d’ipotesi finiamo nella situazione nota come “Comma 22”.8 Dalla traduzione italiana del celebre romanzo abbiamo:
- Articolo 12, Comma 21 «L’unico motivo valido per chiedere il congedo dal fronte è la pazzia».
- Articolo 12, Comma 22 «Chiunque chieda il congedo dal fronte non è pazzo».
Nella nostra situazione diventa Comma 21 «Per calcolare la dimensione del campione devo conoscere la grandezza dell’effetto da misurare» e Comma 22 «Per misurare la grandezza dell’effetto devo eseguire lo studio». Questo paradosso era riportato nel software EgretSize (Statistics and Epidemiology Research Corp., 1992). Era giustificato dal fatto che molto raramente ci si trova nella situazione in cui ha senso eseguire un test d’ipotesi, molto più spesso mancano i presupposti e le conclusioni sono appropriatamente tratte dalla valutazione dell’intervallo di confidenza. Per restare coerenti allora bisognerebbe calcolare la dimensione del campione sulla base dell’ampiezza dell’intervallo di confidenza.
Un approccio di questo tipo non è frequente ed è stato enfatizzato recentemente. La procedura che si basa sulla stima intervallare, richiede che sia fissato a priori il grado di precisione atteso (l’ampiezza dell’intervallo) e il livello di confidenza desiderato. Si noti che non è necessario considerare la potenza dello studio. Bland usa una formula molto semplice (vedi box 2).5
BOX 2 - Intervallo di confidenza e dimensione dello studio. Un esempio semplice Supponiamo di voler determinare la numerosità di uno studio di prevalenza (P). La stima della prevalenza è data dalla proporzione di malati nel campione. Assumiamo l’approssimazione normale per la distribuzione binomiale. L’ampiezza dell’intervallo di confidenza (d) della proporzione è ± z1-α/2√[π(1-π)/n] e dipende dalla numerosità campionaria. Fissiamo a 1-α il livello di confidenza e risolviamo per n , in formula: Dobbiamo quindi ipotizzare per calcolare la dimensione campionaria un valore plausibile di π (necessario per calcolare la deviazione standard) e l’ampiezza desiderata dell’intervallo d. Dobbiamo poi assumere un determinato livello di confidenza (di solito 90% o 95% , ottenendo dalle tavole della distribuzione Gaussiana standard per esempio per 1-α = 0.90 a due code z = 1.645). |
Tale procedura è stata criticata perché fornirebbe dimensioni sensibilmente più ridotte e quindi favorirebbe l’emergere in letteratura di risultati significativi ma poco riproducibili (visto che per studi piccoli vale il publication bias, che è dovuto alla maggior probabilità che ha lo studio di piccole dimensioni di essere pubblicato se ha un risultato positivo).9
Si possono comunque ridurre le incoerenze, come spiegato nell’esempio di box 3.
BOX 3 Un esempio che illustra punti di vista differenti Supponiamo di voler determinare la numerosità di uno studio di prevalenza (P). La formula usata nel box 2 è: Fleiss et al.10 propongono invece una formula più prudente, dove posto:
abbiamo: La formula usuale per il calcolo della dimensione considera anche la potenza ed è (vedi BOX 1): Supponiamo di voler calcolare la dimensione del campione per uno studio volto a stimare una prevalenza attesa di 0.15 e che l’ampiezza desiderata dell’intervallo di confidenza al 95% sia 0.05.
Metcalfe9 avverte di avere prudenza nell’uso della formula (A). Eventualmente si possono usare formule più complesse come quelle riportate da Fleiss et al.10 che forniscono dimensioni campionarie più grandi (B). La formula (C) è appropriata solo quando si voglia eseguire un test d’ipotesi. |
Conclusioni: analisi di sensibilità
Nella programmazione di una ricerca e quindi nei protocolli sottoposti per finanziamenti o per approvazione ai comitati etici, tranne casi particolari in cui abbia senso condizionare lo studio all’esecuzione di un solo test d’ipotesi relativo all’esito principale in studio, è opportuno che la valutazione sulla dimensione dello studio sia eseguita rispetto al valore e all’impegno che lo studio ha per i partecipanti e la comunità in generale. Il calcolo tradizionale basato sulla potenza è di solito mistificante e si basa su informazioni poco solide o non ottenibili. Inoltre è incoerente perché non considera che i risultati sono presentati come stime e relativi intervalli di confidenza.
Invece di sostituire semplicemente la formula classica con un’altra basata sull’ampiezza dell’intervallo, che lascia intatto il rituale acritico e rimpiazza vecchie con nuove incertezze (per esempio l’ampiezza stessa dell’intervallo) è opportuno che vengano valutati scenari differenti in una analisi di sensibilità.
Per esempio Bland5 mostra che per l’International Carotid Stenting Study è stata valutata l’ampiezza dell’intervallo di confidenza per due esiti in studio sotto quattro differenti dimensioni campionarie. Non ci si limita al solo esito principale e non si rende automatica la definizione della dimensione sulla base del raggiungimento di una determinata potenza statistica.
Bacchetti11 presenta un’analisi di sensibilità in cui sono mostrati gli intervalli di confidenza attesi per differenti assunzioni circa la precisione delle stime e per differenti assunzioni sulla grandezza dell’effetto. Di solito ci si limita a una sola assunzione circa la precisione delle stime (nell’esempio usato nei box è la prevalenza attesa).
La novità in entrambi è data dal riportare gli intervalli di confidenza e non la potenza. La dimensione diventa una scelta da discutere e non meccanica. Infatti per ogni dimensione considerata abbiamo associati gli intervalli di confidenza, che rappresentano una quantificazione del valore scientifico dello studio, quanto i risultati sono stringenti o quanto lo studio è informativo. Potrebbero essere considerate anche altre misure del valore dello studio (a parte la potenza), e questo dovrebbe essere riportato nel protocollo. Inoltre la dimensione va commisurata ai costi totali dello studio, eventualmente includendo il carico sopportato dai partecipanti o dalla comunità. Anche semplificando al massimo e considerando solo i costi totali dello studio si noti come sia possibile scegliere la dimensione campionaria che minimizza i costi per partecipante. Si può dimostrare come questa sia costo-efficiente, cioè minimizzi il rapporto tra valore dello studio e suo costo.11 Supponiamo di accettare il punto di vista di Bacchetti et al.6 che lo studio sia eticamente accettabile con la sua dimensione campionaria (il numero di soggetti arruolati) se il suo valore atteso (assumiamo per esempio misurato come potenza statistica per l’effetto minimo di interesse) è maggiore del carico accettabile per i partecipanti e la comunità (cioè la dimensione campionaria per il carico netto per partecipante). Detto in altro modo è etico se la potenza per partecipante è maggiore del carico netto per partecipante. È del tutto possibile che sia etico uno studio con una potenza ben inferiore al convenzionale 80%, semplicemente perché la potenza per partecipante diminuisce al crescere della dimensione campionaria. Se invece usiamo l’ampiezza dell’intervallo di confidenza saranno eticamente accettabili studi più piccoli con ampiezze più larghe laddove il carico netto per partecipante è maggiore. Si può ipotizzare un processo partecipativo nel caso di studi epidemiologici su ampie comunità, in cui differenti scenari vengono discussi e in cui il valore dello studio è discusso criticamente come pure il carico, l’impegno e i costi monetari.
Bibliografia
- Catelan D, Bigeri A, Barbone F. Test multipli e analisi di sottogruppo [cosa c’è di sbagliato nel trovare sempre qualcosa di significativo] Epidemiol Prev 2011;35(2):150-154.
- Forastiere F, Sperati A, Cherubini G, Miceli M, Biggeri A, Axelson O. Adult myeloid leukaemia, geology, and domestic exposure to radon and gamma radiation: a case control study in central Italy. Occup Environ Med 1998;55(2):106-110.
- Bacchetti P. Peer review of statistics in medical research: the other problem. BMJ 2002;25;324(7348):1271-3.
- Altman DG, Moher D, Schulz KF. Peer review of statistics in medical research. Reporting power calculations is important. BMJ 2002;31;325(7362):491; author reply 491.
- Bland JM. The tyranny of power: is there a better way to calculate sample size? BMJ 2009;339:b3985
- Bacchetti P, Wolf LE, Segal MR, et al. Ethics and sample size. Am J Epidemiol 2005; 161:105–110.
- Prentice R. Invited commentary: ethics and sample size – another view. Am J Epidemiol 2005; 161:111–112.
- Heller J. Comma 22. Collana I grandi tascabili, traduzione di Remo Ceserani, Bompiani, Roma 2000, p. 470.
- Metcalfe C. Statistical power: still an essential element in sample size calculation. BMJ 2010;18, http://www.bmj.com/content/339/bmj.b3985.citation/reply
- Fleiss L, Levin B, Paik MC. Statistical Methods for Rates and Proportions. 3rd Ed. Wiley, New York 2006
- Bacchetti P. Current sample size conventions: Flaws, harms, and alternatives. BMC Medicine 2010; 8:17.