Qualità delle prove in medicina: differenze in ambito preventivo e assistenziale
Credo che le discussioni sulla qualità delle prove in medicina siano infestate da una confusione, terminologica e concettuale che, precludendo qualsiasi dialettica, le rende spesso inutili. La prospettiva della ricerca clinica può fornire alcune chiavi di lettura e aiutare a fare un po’ di chiarezza. In questa sede, per ragioni di spazio, mi limiterò ad affrontare due tematiche, in parte già trattate nei tre precedenti contributi di questa serie.1-3
Studi osservazionali e sperimentali
Il termine “studi osservazionali” è diffusamente utilizzato (per esempio, anche nel GRADE) per indicare TUTTI gli studi clinici senza un gruppo di controllo randomizzato. Questo è profondamente sbagliato, perché mette insieme due cose completamente diverse (direi quasi all’opposto dello spettro metodologico): i veri studi osservazionali e le sperimentazioni cliniche non randomizzate. Questi due tipi di studi hanno un diverso ambito di applicazione e presentano differenti problematiche metodologiche e interpretative.
Gli studi osservazionali, che, come dice il nome, si limitano a registrare la realtà senza modificarla (e quindi senza introdurre alcun intervento o innovazione) sono il complemento delle sperimentazioni cliniche perché possono fornire informazioni che i trial, per i loro ben noti limiti, spesso non danno, soprattutto in relazione alla trasferibilità dei risultati ad altri contesti (popolazioni e sottogruppi più o meno fragili, organizzazione assistenziale, disponibilità di specifiche attrezzature o competenze eccetera). Sono studi che sul piano metodologico non presentano alcuna peculiarità rispetto agli studi epidemiologici che abbiamo conosciuto per decenni, e i problemi derivano semmai dall’obiettivo primario che si pongono: quando lo scopo è quello di descrivere il comportamento di pazienti e terapie (prognosi, tossicità ed eventi avversi, compliance) in un particolare contesto assistenziale, al di fuori dell’ambiente artificiale che si crea nei trial, la principale coordinata metodologica è la rappresentatività della popolazione studiata. Quando invece ci si propone di ottenere stime dell’efficacia dell’intervento nella vita reale (la cosiddetta effectiveness, da contrapporre alle stime dell’efficacy ottenute nel trial), le difficoltà metodologiche, già discusse nei tre particoli precedenti, sono molto maggiori (e in certi casi secondo me insormontabili).
Le sperimentazioni cliniche senza un gruppo di controllo randomizzato nascono invece con il preciso scopo di stimare l’efficacia4 di un nuovo intervento: sono quindi la vera alternativa allo studio randomizzato, mentre non ha senso contrapporre allo studio randomizzato uno studio osservazionale, che può essere condotto solo quando l’intervento, dopo la dimostrazione di efficacia, viene introdotto nella pratica clinica. I motivi per cui in un trial di efficacia non si utilizza un gruppo di controllo randomizzato sono vari, ma l’unico realmente valido è quello etico: laddove le evidenze disponibili non indicano che le probabilità di beneficio e di danno sono equamente distribuite tra il braccio sperimentale e quello di controllo, lo studio randomizzato non è giustificato (e non dovrebbe essere proposto o accettato). Queste situazioni tendono a presentarsi con frequenza sempre maggiore, grazie ai progressi scientifici e tecnici che permettono di proporre terapie potenzialmente efficaci per condizioni cliniche a oggi incurabili o comunque a prognosi infausta. Le sperimentazioni cliniche non randomizzate non dovrebbero quindi essere considerate un’opzione, ma una scelta in certi casi obbligata. Nonostante la carenza di indicazioni metodologiche che aiutino a contenere i problemi interpretativi interpretativi che derivano dagli inevitabili bias che li affliggono, alcuni elementi che le differenziano chiaramente dagli studi po sservazionali, sono evidenti:
- La popolazione di pazienti inseriti in questi studi è, e deve essere, molto selezionata, perché esposta a un trattamento molto innovativo, di cui deve permettere di misurare l’eventuale efficacia. D’altra parte, il problema della rappresentatività non si pone, perché l’obiettivo dello studio è la valutazione dell’efficacy.
- L’endpoint in questi studi spesso non può essere un indicatore naturale ma aspecifico come la sopravvivenza, o uno score di qualità di vita, che richiederebbe un gruppo di controllo randomizzato. Si dovranno invece utilizzare indicatori strumentali o funzionali le cui modificazioni si sono dimostrate associate con l’efficacia delle terapie, vale a dire che sono degli endpoint surrogati validati. Anche la rilevazione di questi indicatori crea delle condizioni artificiali (per esempio, centri selezionati, particolari protocolli diagnostici e di followup) completamente diverse da quelle degli studi osservazionali.
- Nel disegno dello studio le procedure metodologiche e statistiche per la valutazione dell’efficacia del trattamento devono essere specificate: questa valutazione potrà essere assoluta (per esempio, tasso di successi, di risposte, di remissioni) o relativa, utilizzando come riferimento dati di letteratura o uno specifico gruppo di controllo (storico). In entrambi i casi, le dimensioni dello studio potranno essere contenute, perché lo studio non randomizzato si giustifica solo in presenza di un rilevante beneficio atteso, che è anche quello che può permettere di superare i dubbi interpretativi
legati a tutti i possibili bias. - È da notare che talora nell’ambito di trial di fase I o II, non finalizzati a valutazioni di efficacia, si osservano risultati così favorevoli da precludere un trial randomizzato di efficacia. In questi casi sarebbe un dovere delle agenzie regolatorie imporre ulteriori sperimentazioni di efficacia su larga scala, sia pure non controllate, prima di permettere l’introduzione della nuova terapia nella pratica
clinica.
In conclusione, le differenze tra studi osservazionali e sperimentazioni non randomizzate sono enormi, ed è importante tenerle sempre presenti, perché diverso è l’obiettivo che si pongono. Mentre per i primi le recenti innovazioni metodologiche e statistiche si innestano in una metodologia ben consolidata, per le seconde mancano riferimenti metodologici riconosciuti e accettati, per cui tutti gli attori in scena, medici, agenzie regolatorie, sistemi sanitari nazionali e regionali e associazioni scientifiche procedono a tentoni, in modo contraddittorio
e spesso poco trasparente.
Qualità delle prove e conoscienza
In biomedicina, come in tutte le scienze empiriche, si è affermato il primato dell’osservazione sulla teoria, per cui qualsiasi teoria ha valore solo come spunto per nuove osservazioni finalizzate a verificarne la validità, anche quando è stata elaborata per spiegare osservazioni precedenti. Il tipo di osservazione determina la qualità delle prove empiriche utilizzate per validare l’ipotesi in studio (la teoria), con un procedimento di falsificazione abbastanza contorto, e comunque innaturale per la logica umana: per accettare la nuova teoria è necessario ipotizzare che sia falsa (la famosa ipotesi nulla) e se i risultati dell’osservazione sono troppo in contrasto con questa ipotesi nulla (per esempio, se la probabilità dei risultati osservati è <0,05), e non esistono altre spiegazioni legate alla bassa qualità delle osservazioni (cioè dei bias) l’ipotesi nulla viene rifiutata e l’ipotesi in studio diventa la nuova teoria “dominante”.
La statistica frequentista si presta bene a questa operazione, specie nell’ambito dello studio randomizzato, ma non dobbiamo mai dimenticare che la “p” frequentista ci dice molto poco sulla probabilità che l’ipotesi nulla sia vera o falsa, e proprio nulla sulla probabilità che invece sia vera un’altra specifica ipotesi.
È un approccio chiaramente legato alla ricerca di base che vuole sviluppare nuove conoscenze (per esempio in fisica, ma anche in biologia eccetera), dove è possibile creare le condizioni sperimentaliideali per scegliere tra l’ipotesi nulla e l’ipotesi alternativa (validità della nuova teoria). È però del tutto inadatto per l’utilizzo dei risultati di un’osservazione a scopo decisionale: lo insegna il meccanismo di funzionamento della mente umana, che ha sviluppato una straordinaria capacità di prendere decisioni in presenza di conoscenze limitate, che derivano da osservazioni incomplete o distorte. La comprensione del linguaggio parlato e scritto, in cui frammenti di vocaboli e di frasi sono rapidamente
processati e utilizzati a scopo decisionale, è un esempio clamoroso di questa capacità, che utilizza intensivamente un altro tipo di probabilità: la probabilità che un determinato costrutto (affermazione/considerazione/assioma/legge) sia vero. È la probabilità che un soggetto positivo a un test sia realmente malato (il valore predittivo), la probabilità che un trattamento abbia realmente un’efficacia clinicamente rilevante, o che una certa esposizione sia realmente associata con un incremento sensibile del rischio di una malattia. Questo secondo tipo di probabilità, che è la probabilitàbayesiana, è sempre stato guardato consospetto in ambito scientifico, perché la sua stima richiede e incorpora una valutazione
della probabilità “a priori” della veridicità del costrutto, vale a dire della sua plausibilità, e questa valutazione ha un’imprescindibile componente soggettiva. Ciononostante, è la probabilità utilizzata in tutte le decisioni umane, anche se spesso non in modo esplicito e trasparente.
È da notare che la rilevanza della probabilità a priori nella stima della probabilità bayesiana, è tanto maggiore quanto minore è la quantità e qualità dell’evidenza empirica; questo spiega perché l’interesse in medicina nei confronti della probabilità bayesiana è molto cresciuto negli ultimi anni: da un lato, le crescenti conoscenze biologiche e molecolari stanno portando a sezionare molte malattie, e in particolare i tumori, in sottogruppi che spesso costituiscono delle
vere e proprie malattie rare; dall’altro, come abbiamo visto, in molte situazioni cliniche diventa difficile proporre il classico studio randomizzato su larga scala. Di fatto, ci si trova sempre più spesso, a livello sia regolatorio sia di decisione clinica, a doversi confrontare con opportunità terapeutiche la cui efficacia è molto plausibile, ma è sostenuta da evidenze empiriche deboli per quantità (piccoli numeri) e qualità (studi non randomizzati con endpoint surrogati).
La maggior parte delle decisioni cliniche, da sempre, si basa su stime implicite della probabilità bayesiana che una certa scelta sia la migliore (il che spiega l’ampiezza e la rilevanza della cosiddetta area “grigia” delle conoscenze in medicina, quelle che si basano su evidenze inadeguate), ma quello che mi preme sottolineare in questa sede è l’importanza di un’impostazione epistemologica bayesiana anche in ambito regolatorio e di linee guida. È superfluo chiedersi se sia giusto, corretto, utile, prendere decisioni, non solo insieme al paziente nella decisione clinica, ma a livello di raccomandazioni generali, o di approvazioni normative, utilizzando informazioni che derivano da studi piccoli e/o di qualità mediocre: una decisione va comunque presa, e in tutti i casi in cui l’evidenza è principalmente indiretta, ma convincente, questa non può essere ignorata. Il vero problema è che fino a oggi questa impostazione non è riconosciuta come ”scientifica” per cui queste decisioni sono prese al di fuori di qualsiasi logica di trasparenza, quasi di soppiatto. È il caso, per esempio, delle approvazioni di alcune indicazioni per l’immunoterapia antineoplastica, basate su “estrazioni” a posteriori di sottogruppi da coorti di pazienti trattati in studi non controllati, o di nuove terapie cellulari “provate” solo in studi pilota non controllati. Dovremmo invece abituarci a riconoscere che la vera conoscenza, non solo in medicina, nasce dall’integrazione tra le evidenze (sperimentali o osservazionali) dirette, passate al vaglio dei classici criteri della validità interna ed esterna, e il patrimonio delle conoscenze disponibili che abbiano qualche rilevanza in merito. Questa operazione (l’integrazione) è estremamente complessa, ha una forte componente soggettiva, e non è codificabile nei suoi meccanismi utilizzando acriticamente algoritmi preconfezionati come il GRADE, ma deve essere trasparente, in modo da permettere a osservatori esterni di verificare l’attendibilità e la rilevanza delle assunzioni su cui si basa.
Conflitti di interesse dichiarati: nessuno
Bibliografia e note
- Forastiere F, Ancona C. Rischi ambientali: la sintesi dell’evidenza scientifica e la qualità delle prove tra triangolazione e punteggi. Epidemiol Prev 2019; 43 (4): 215-217.
- Richiardi L. Il quesito di ricerca e la validità degli studi. Epidemiol Prev 2019; 43 (4): 217-219.
- Davoli M. RCT o non RCT: è questo il problema? Epidemiol Prev 2019; 43 (5-6): 317-319.
- Le sperimentazioni che si propongono di valutare tossicità e dosaggi (Fase I) o attività (Fase II) esulano da questa discussione.