Attualità
31/12/2019

RCT o non RCT: è questo il problema?

,

«Siccome i professionisti talvolta fanno più male che bene quando intervengono sulla vita delle persone, le loro pratiche e le loro politiche dovrebbero essere informate dalle migliori evidenze». Questo scriveva Iain Chalmers nel 2003,1 a dieci anni dalla fondazione della Cochrane Collaboration, di fronte alla constatazione che anche le teorie più plausibili potevano essere smentite da dimostrazioni empiriche. Emblematici sono stati i casi della “morte in culla” e della terapia ormonale postmenopausa. Proprio dall’esempio di quest’ultimo caso è stato sviluppato il primo di una serie di articoli pubblicati dal BMJ2-4 che raccontano come è stato sviluppato il metodo GRADE (Grading of Recommendations Assessment, Development and Evaluation) e perché è importante non solo per i clinici, ma anche per i decisori e soprattutto per i pazienti.5,6
Il GRADE ha rappresentato una vera e propria rivoluzione nel mondo della produzione delle raccomandazioni in ambito sia clinico sia di sanità pubblica. Questo soprattutto a seguito del ruolo che GRADE ha assunto all’OMS, come conseguenza di una revisione critica delle linee guida precedentemente prodotte dall’OMS stessa7 per la salute.
Gli aspetti innovativi del metodo GRADE riguardano prevalentemente la trasparenza di tutto il processo, la valutazione della qualità delle prove, che non si riferisce solo a quella «interna» cioè legata ai rischi di distorsione dei singoli studi ma è relativa a tutto il corpo delle prove (body of evidence) disponibili per quella misura di esito, la separazione del giudizio sulla qualità delle prove dal grading della raccomandazione.

Perché è più importante la valutazione globale della qualità delle evidenze relative ai singoli esiti in studio, rispetto a quella del singolo studio?

Gli studi e le informazioni che contribuiscono a generare le evidenze relativamente a uno specifico quesito sono molteplici e riguardano non solo il modo in cui uno studio è stato condotto, ma anche altri fattori quali la mancanza di coerenza tra i risultati dei diversi studi, la trasferibilità dei risultati, la numerosità del campione e la pubblicazione selettiva dei risultati; ogni pezzo di questa informazione contribuisce all’evidenza complessiva e condiziona la qualità finale delle prove disponibili, la cosiddetta certezza delle prove. La certezza delle prove non è altro che il grado di fiducia che possiamo avere relativamente al fatto che l’intervento oggetto di studio sia efficace e sicuro o che esista un’associazione causale tra un’esposizione e un esito.
I sistemi di grading della forza delle raccomandazioni in era pre GRADE facevano riferimento a una gerarchia delle evidenze che poneva in cima alla piramide le revisioni sistematiche e alla base della piramide l’opinione degli esperti e prevedevano una corrispondenza diretta tra disegno di studio e forza della raccomandazione. In presenza di metanalisi la qualità delle prove era considerata massima, in assenza di studi empirici minima, ricorrendo a classificazioni alfanumeriche di ben poco chiara interpretazione (evidenza di livello IA, IB eccetera). Nel tempo si erano sviluppati più di 100 sistemi di graduazione della qualità delle prove, alcuni basati anche su approcci insensati quali descrivere l’opinione di esperti come un vero e proprio livello di evidenza piuttosto che un giudizio trasversale a tutti i disegni di studio.5

Perché può non esserci una corrispondenza diretta tra qualità delle prove e forza della raccomandazione?

L’adesione a un intervento, si pensi anche ai programmi di screening o ai test diagnostici, da parte dei diversi stakeholder (pazienti, clinici, decisori) non può dipendere solo dalla certezza e qualità delle prove, ma dipende anche da altre variabili, la rilevanza del problema, il valore che quell’intervento ha per i pazienti, per i caregiver, per i decisori, il bilancio benefici rischi, le risorse necessarie per implementare quell’intervento, il rapporto costo efficacia dell’intervento proposto rispetto a quello esistente, la fattibilità, l’accettabilità e l’impatto sull’equità. Evidentemente, queste variabili hanno pesi e ruoli diversi a seconda del differente target della raccomandazione.

Perché è importante la valutazione della qualità delle prove per singolo esito?

Perché un intervento, ma anche un’esposizione, ha effetti differenti a seconda degli esiti e la qualità degli studi relativamente ai diversi esiti può essere differente. Una dichiarazione di efficacia e sicurezza di un farmaco in assenza della definizione degli esiti rispetto ai quali si valutano efficacia e sicurezza è priva di senso.

La trasparenza del metodo è l’altra caratteristica rilevante del GRADE

Il metodo GRADE non è un sistema automatico applicabile come una sorta di algoritmo, è un sistema basato sul giudizio individuale, le cui motivazioni devono essere esplicitate in note di testo che corredano a tutti gli effetti le tabelle di sintesi delle evidenze (summary of findings). I giudizi e le valutazioni sono quindi confutabili.

RCT vs. NON RCT

Torniamo al titolo di questo contributo e alla dicotomia tra studi randomizzati verso studi non randomizzati come prova di una associazione causale tra un’esposizione, sia essa un intervento sanitario, un programma di screening o un’esposizione ambientale, e un esito. Il dibattito sulla validità degli studi osservazionali rispetto agli studi controllati è un dibattito vecchio di più di vent’anni e a mio avviso superato. Una stessa revisione Cochrane8 che confrontava i risultati di RCT e non RCT sugli stessi quesiti clinici concludeva che le ragioni per risultati differenti sullo stesso quesito sono da ricercare non tanto nel diverso disegno dello studio, quanto nelle differenze nei criteri di selezione della popolazione, di definizione dell’esposizione e di misura dell’esito.
È indubbio che il metodo GRADE sia nato e si sia sviluppato inizialmente negli ambiti dell’epidemiologia clinica e della sanità pubblica. È utile tornare indietro di quasi trent’anni e ricordare l’impegno e la visione di Alessandro Liberati nell’affrontare e rendere pubblici e trasparenti le potenzialità e i limiti dell’epidemiologia clinica, la difficoltà di disegnare studi di qualità per studiare fenomeni complessi e la necessità di ridurre la distanza tra evidenze scientifiche e pratica clinica.9,10 Ed è proprio per contribuire a ridurre il gap tra ricerca clinica e interventi di sanità pubblica che è stata sviluppata la metodologia GRADE di cui lo stesso Alessandro Liberati è stato tra i fondatori.
Da allora e grazie alla conduzione di revisioni sistematiche della letteratura, con il prevalente contributo della Cochrane Collaboration, sono stati sottoposti a valutazione critica migliaia di studi clinici randomizzati e sono stati proposti diversi strumenti di valutazione sia della qualità, sia della conduzione sia del reporting degli RCT (ROB tools e CONSORT).11,12 Non credo di sbagliare affermando che uno dei risultati principali raggiunto dalla Cochrane Collaboration è stato quello di innalzare il livello di qualità dei trial, anche grazie alla partnership con riviste che in sempre maggior numero hanno previsto l’adesione alle checklist CONSORT come prerequisito per la pubblicazione.13
Nelle prime applicazioni del metodo GRADE ad ambiti che consideravano sia gli studi randomizzati sia gli studi non randomizzati, si attribuiva agli RCT un giudizio a priori di alta qualità, che poteva essere poi ridotto a seconda dei rischi di bias degli studi stessi. Agli studi osservazionali, invece, si attribuiva una valutazione di qualità a priori bassa, che poteva invece essere innalzata a seconda della presenza di alcuni criteri riconosciuti di causalità, quali per esempio la forza dell’associazione o la presenza di un effetto dose risposta. Questo comportava la possibilità che, per alcuni esiti, le prove disponibili potessero essere giudicate di migliore qualità se derivate da studi osservazionali piuttosto che da RCT, come per esempio nelle raccomandazioni dell’OMS sul trattamento sostitutivo con metadone nella dipendenza da oppiacei nel ridurre la mortalità.14
Questo approccio gerarchico che continuava a porre gli RCT in cima a una piramide virtuale risultava difficilmente accettabile per quegli ambiti di intervento in cui gli RCT o sono pochi o poco fattibili. Per affrontare questa criticità è stato sviluppato uno strumento di valutazione degli studi non randomizzati che potesse integrare meglio le prove derivate da diversi disegni di studio (ROBINS-I).15 La peculiarità di questo strumento è quello di valutare la qualità di uno studio in riferimento a un ipotetico trial controllato randomizzato, indipendentemente dalla fattibilità o meno del trial. Con questo strumento si parte comunque da un livello di qualità alta per tutti i disegni di studio e si procede a una graduazione del giudizio a seconda di come sono affrontati i diversi rischi di distorsione. I rischi di distorsione considerati vanno dal controllo del confondimento, al bias di selezione, al bias nell’attribuzione dell’esposizione/intervento o dell’esito, bias dovuto alla mancanza di informazioni su tutti gli esiti o ai dati mancanti sugli esiti. Di fatto si tratta di tutte le dimensioni che vengono prese in considerazione quando si disegna uno studio epidemiologico.

Grade per l'epidemiologia ambientale

Negli ultimi anni, la sempre maggiore applicazione del metodo GRADE alla valutazione di interventi di epidemiologia ambientale16 ha portato allo sviluppo di un dibattito culturale e scientifico molto intenso.
Il contributo di Lorenzo Richiardi sullo scorso numero di EP17 suggerisce che l’ipotesi di ricerca debba prevalere sulla gerarchia delle evidenze. Mi piace ricordare che questa affermazione era contenuta in una delle ultime presentazioni che Alessandro Liberati, pioniere del metodo GRADE, ebbe l’opportunità di fare in occasione di un convegno di epidemiologia. Non posso che condividere questa posizione e rimandare a un recente articolo di Morgan et al.18 che si concentra proprio sulla necessità di esplicitare il PECO, vale a dire il framework da seguire per formulare i giusti quesiti per valutare la causalità dell’associazione tra un’esposizione ambientale e un esito di salute. Così come il quesito di ricerca deve guidare il disegno di studio primario da condurre, lo stesso quesito di ricerca deve guidare la strategia di conduzione della revisione sistematica della letteratura, che è il primo passo necessario per valutare le prove esistenti sulla causalità dell’associazione in studio.

Prospettive

Il gruppo GRADE sta lavorando alla produzione di strumenti utili per la valutazione del rischio di bias negli studi di epidemiologia ambientale, utilizzando e discutendo anche possibili esempi concreti di utilizzo;19 il GRADE non prescrive uno strumento meccanico per la valutazione degli studi eziologici, ma un approccio trasparente di valutazione della qualità delle prove con un obiettivo che coincide pienamente con l’obiettivo della metodologia epidemiologica: dimostrare la causalità di un’associazione, escludendo tutte le possibili spiegazioni alternative.
Chi meglio degli epidemiologi può contribuire a rendere questo dibattito costruttivo e a seguire in ambito di epidemiologia ambientale lo stesso difficile e faticoso percorso intrapreso in ambito clinico?

Conflitti di interesse dichiarati: Marina Davoli è membro del gruppo di lavoro GRADE.
Ringraziamenti:
ringrazio Laura Amato, Holger Schunemann e Simona Vecchi per i commenti ricevuti.

Bibliografia

  1. Chalmers I.  Trying to Do More Good than Harm in Policy and Practice: The Role of Rigorous, Transparent, Up-to-Date Evaluations. Annals of the American Academy of Political and Social Science 2003:589(1):22-40.
  2. Guyatt GH, Oxman AD, Vist GE, et al. GRADE Working Group. GRADE: an emerging consensus on rating quality of evidence and strength of recommendations. BMJ 2008;336:924-6.
  3. Guyatt GH, Oxman AD, Kunz R, et al. GRADE Working Group. Going from evidence to recommendations. BMJ 2008; 336: 1049-51.
  4. Guyatt GH, Oxman AD, Kunz R, Vist GE, Falck-Ytter Y, Schünemann HJ. GRADE Working Group. What is “quality of evidence” and why is it important to clinicians? BMJ 2008;336:995-8.
  5. Schunemann HJ, Best D, Vist G, Oxman AD, GRADE Working Group. Letters, numbers, symbols and words: how to communicate grades of evidence and recommendations. CMAJ 2003;169(7):677-80.
  6. Atkins D, Best D, Briss PA, Eccles M, Falck-Ytter Y, Flottorp S, et al. Grading quality of evidence and strength of recommendations. BMJ 2004;328 (7454):1490.
  7. Oxman AD, Lavis JN, Fretheim A. Use of evidence in WHO recommendations. Lancet 2007; 369:1883-1889.
  8. Anglemyer A, Horvath HT, Bero L. Healthcare outcomes assessed with observational study designs compared with those assessed in randomized trials. Cochrane Database of Systematic Reviews 2014, Issue
  9. Liberati A. Perché discutere di epidemiologia clinica? Epidemiol Prev 1990;44:50-61).
  10. Liberati A. The relationship between clinical trials and clinical practice: the risk of underestimating its complexity. Statistics in medicine 1994; 13:1485-91.
  11. Higgins JPT, Altman DG et al. The Cochrane Collaboration’s tool for assessing risk of bias in randomised trials. BMJ 2011;343:d5928.
  12. Moher D, Schulz FF, Altman F for the CONSORT Group. The CONSORT statement: revised recommendations for improving the quality of reports of parallel group randomized trials. JAMA 2001;285:1987-91.
  13. Turner L, Shamseer L, Altman DG, Schulz KF, Moher D. Does use of the CONSORT Statement impact the completeness of reporting of randomised controlled trials published in medical journals? A Cochrane review. Syst Rev 2012;1:60.
  14. https://www.who.int/substance_abuse/activities/treatment_opioid_dependence/en/
  15. Schünemann HJ, Cuello C, Akl EA,et al. for the GRADE Working Group. GRADE guidelines: 18. How ROBINS-I and other tools to assess risk of bias in nonrandomized studies should be used to rate the certainty of a body of evidence. J Clin Epidemiol 2019;111:105-14.
  16. Morgan, Beverly B, Ghersi D, at al. for the GRADE Working Group. GRADE guidelines for environmental and occupational health: A new series of articles in Environment International. Environ Int. 2019;128:11-12.
  17. Richiardi L. Il quesito della ricerca e la validità degli studi. Epidemiol Prev 2019;43(4): 217-19.
  18. Morgan RL, Whaley P, Thayer KA, Schünemann HJ. Identifying the PECO: A framework for formulating good questions to explore the association of environmental and other exposures with health outcomes. Environ Int. 2018 Dec;121(Pt 1):1027-1031.
  19. Morgan RL, Thayer KA, Santesso N, et al. for the GRADE Working Group. A risk of bias instrument for non-randomized studies of exposures: A users’ guide to its application in the context of GRADE. Environ Int 2019;122:168-84.
Approfondisci su epiprev.it Vai all'articolo su epiprev.it Versione Google AMP