Attualità
16/03/2020

Qualità delle prove in medicina: differenze in ambito preventivo e assistenziale

Credo che le discussioni sulla qualità delle prove in medicina siano infestate da una confusione, terminologica e concettuale che,   precludendo qualsiasi dialettica, le rende spesso inutili. La prospettiva  della ricerca clinica può fornire alcune chiavi di lettura e aiutare a fare un po’ di chiarezza. In questa sede, per ragioni di spazio, mi limiterò ad  affrontare due tematiche, in parte già trattate nei tre precedenti  contributi di questa serie.1-3

Studi osservazionali e sperimentali

Il termine “studi osservazionali” è diffusamente utilizzato (per esempio,  anche nel GRADE) per indicare TUTTI gli studi clinici senza un gruppo di  controllo randomizzato. Questo è profondamente sbagliato, perché  mette insieme due cose completamente diverse (direi quasi all’opposto  dello spettro metodologico): i veri studi osservazionali e le  sperimentazioni cliniche non randomizzate. Questi due tipi di studi hanno  un diverso ambito di applicazione e presentano differenti problematiche  metodologiche e interpretative.

Gli studi osservazionali, che, come dice il nome, si limitano a  registrare la realtà senza modificarla (e quindi senza introdurre alcun   intervento o innovazione) sono il complemento delle sperimentazioni   cliniche perché possono fornire informazioni che i trial, per i loro ben  noti limiti, spesso non danno, soprattutto in relazione alla trasferibilità dei risultati ad altri contesti (popolazioni e sottogruppi più o meno  fragili, organizzazione assistenziale, disponibilità di specifiche  attrezzature o competenze eccetera). Sono studi che sul piano metodologico non presentano alcuna peculiarità rispetto agli studi  epidemiologici  che abbiamo conosciuto per decenni, e i problemi  derivano semmai dall’obiettivo primario che si pongono: quando lo scopo è quello di descrivere il comportamento di  pazienti e terapie (prognosi, tossicità ed eventi avversi, compliance) in  un particolare contesto assistenziale, al di fuori dell’ambiente artificiale che si crea nei trial, la principale coordinata metodologica è la rappresentatività della popolazione studiata. Quando invece ci si  propone di ottenere stime dell’efficacia dell’intervento nella vita reale (la  cosiddetta effectiveness, da contrapporre alle stime dell’efficacy  ottenute nel trial), le difficoltà metodologiche, già discusse nei tre   particoli precedenti, sono molto maggiori (e in certi casi secondo me insormontabili).

Le sperimentazioni cliniche senza un gruppo di controllo randomizzato nascono invece con il preciso  scopo di stimare l’efficacia4 di un nuovo intervento: sono quindi la vera alternativa allo studio randomizzato, mentre non ha senso  contrapporre allo studio randomizzato uno studio osservazionale, che  può essere condotto solo quando l’intervento, dopo la dimostrazione  di efficacia, viene introdotto nella pratica clinica. I motivi per cui in un trial di efficacia non si utilizza un gruppo di controllo randomizzato  sono vari, ma l’unico realmente valido è quello etico: laddove le evidenze disponibili non indicano che le probabilità di beneficio e di  danno sono equamente distribuite tra il braccio sperimentale e quello  di controllo, lo studio randomizzato non è giustificato (e non   dovrebbe essere proposto o accettato). Queste situazioni tendono a  presentarsi con frequenza sempre maggiore, grazie ai progressi scientifici e tecnici che permettono di proporre terapie potenzialmente efficaci per condizioni cliniche a oggi incurabili o  comunque a prognosi infausta. Le sperimentazioni cliniche non  randomizzate non dovrebbero quindi essere considerate un’opzione,  ma una scelta in certi casi obbligata. Nonostante la carenza di  indicazioni metodologiche che aiutino a contenere i problemi  interpretativi interpretativi che derivano dagli inevitabili bias che li  affliggono, alcuni elementi che le differenziano chiaramente dagli studi po sservazionali, sono evidenti:

  1. La popolazione di pazienti inseriti in questi studi è, e deve essere, molto selezionata, perché esposta a un trattamento molto innovativo, di cui deve permettere di misurare l’eventuale efficacia. D’altra parte, il problema della rappresentatività non si pone, perché l’obiettivo dello studio è la valutazione dell’efficacy.
  2. L’endpoint in questi studi spesso non può essere un indicatore naturale ma aspecifico come la sopravvivenza, o uno score di qualità di vita, che richiederebbe un gruppo di controllo randomizzato. Si  dovranno invece utilizzare indicatori strumentali o funzionali le cui modificazioni si sono dimostrate associate con l’efficacia delle terapie, vale a dire che sono degli endpoint surrogati validati. Anche la  rilevazione di questi indicatori crea delle condizioni artificiali (per esempio, centri selezionati, particolari protocolli diagnostici e di  followup) completamente diverse da quelle degli studi osservazionali.
  3. Nel disegno dello studio le procedure metodologiche e statistiche  per la valutazione dell’efficacia del trattamento devono essere  specificate: questa valutazione potrà essere assoluta (per esempio,  tasso di successi, di risposte, di remissioni) o relativa, utilizzando  come riferimento dati di letteratura o uno specifico gruppo di controllo (storico). In entrambi i casi, le dimensioni dello studio potranno essere contenute, perché lo studio non randomizzato si giustifica solo in presenza di un rilevante beneficio atteso, che è  anche quello che può permettere di superare i dubbi interpretativi
    legati a tutti i possibili bias.
  4. È da notare che talora nell’ambito di trial di fase I o II, non finalizzati a valutazioni di efficacia, si osservano risultati così favorevoli da precludere un trial randomizzato di efficacia. In questi  casi sarebbe un dovere delle agenzie regolatorie imporre ulteriori  sperimentazioni di efficacia su larga scala, sia pure non controllate, prima di permettere l’introduzione della nuova terapia nella pratica
    clinica.

In conclusione, le differenze tra studi osservazionali e sperimentazioni non randomizzate sono enormi, ed è importante tenerle sempre presenti, perché diverso è l’obiettivo che si pongono. Mentre per i primi le recenti innovazioni metodologiche e statistiche si innestano in una metodologia ben consolidata, per le seconde mancano riferimenti metodologici riconosciuti e accettati, per cui tutti gli attori in scena, medici, agenzie regolatorie, sistemi sanitari nazionali e regionali e associazioni scientifiche procedono a tentoni, in modo contraddittorio
e spesso poco trasparente.

Qualità delle prove e conoscienza

In biomedicina, come in tutte le scienze empiriche, si è affermato il  primato dell’osservazione sulla teoria, per cui qualsiasi teoria ha  valore solo come spunto per nuove osservazioni finalizzate a  verificarne la validità, anche quando è stata elaborata per spiegare osservazioni precedenti. Il tipo di osservazione determina la qualità  delle prove empiriche utilizzate per validare l’ipotesi in studio (la  teoria), con un procedimento di falsificazione abbastanza contorto, e comunque innaturale per la logica umana: per accettare la nuova  teoria è necessario ipotizzare che sia falsa (la famosa ipotesi nulla) e se i risultati dell’osservazione sono troppo in contrasto con questa ipotesi nulla (per esempio, se la probabilità dei risultati osservati è <0,05), e non esistono altre spiegazioni legate alla bassa qualità delle osservazioni (cioè dei bias) l’ipotesi nulla viene rifiutata e l’ipotesi in  studio diventa la nuova teoria “dominante”.
La statistica frequentista si presta bene a questa operazione, specie nell’ambito dello studio randomizzato, ma non dobbiamo mai  dimenticare che la “p” frequentista ci dice molto poco sulla probabilità  che l’ipotesi nulla sia vera o falsa, e proprio nulla sulla probabilità che invece sia vera un’altra specifica ipotesi.
È un approccio chiaramente legato alla ricerca di base che vuole  sviluppare nuove conoscenze (per esempio in fisica, ma anche in biologia eccetera), dove è possibile creare le condizioni sperimentaliideali per scegliere tra l’ipotesi nulla e l’ipotesi alternativa (validità della nuova teoria). È però del tutto inadatto per l’utilizzo dei risultati di un’osservazione a scopo decisionale: lo insegna il meccanismo di funzionamento della mente umana, che ha sviluppato una straordinaria capacità di prendere decisioni in presenza di conoscenze limitate, che derivano da osservazioni incomplete o distorte. La comprensione del linguaggio parlato e scritto, in cui frammenti di vocaboli e di frasi sono rapidamente
processati e utilizzati a scopo decisionale, è un esempio clamoroso di questa capacità, che utilizza intensivamente un altro tipo di probabilità: la probabilità che un determinato costrutto  (affermazione/considerazione/assioma/legge) sia vero. È la probabilità che un soggetto positivo a un test sia realmente malato (il valore predittivo), la probabilità che un trattamento abbia realmente un’efficacia clinicamente rilevante, o che una certa esposizione sia realmente associata con un incremento sensibile del rischio di una malattia. Questo secondo tipo di probabilità, che è la probabilitàbayesiana, è sempre stato guardato consospetto in ambito scientifico, perché la sua stima richiede e incorpora una valutazione
della probabilità “a priori” della veridicità del costrutto, vale a dire  della sua plausibilità, e questa valutazione ha un’imprescindibile componente soggettiva. Ciononostante, è la probabilità utilizzata in tutte le decisioni umane, anche se spesso non in modo esplicito e trasparente.
È da notare che la rilevanza della probabilità a priori nella stima della probabilità bayesiana, è tanto maggiore quanto minore è la quantità e qualità dell’evidenza empirica; questo spiega perché l’interesse in medicina nei confronti della probabilità bayesiana è molto cresciuto negli ultimi anni: da un lato, le crescenti conoscenze biologiche e molecolari stanno portando a sezionare molte malattie, e in particolare i tumori, in sottogruppi che spesso costituiscono delle
vere e proprie malattie rare; dall’altro, come abbiamo visto, in molte situazioni cliniche diventa difficile proporre il classico studio  randomizzato su larga scala. Di fatto, ci si trova sempre più spesso, a livello sia regolatorio sia di decisione clinica, a doversi confrontare con opportunità terapeutiche la cui efficacia è molto plausibile, ma è sostenuta da evidenze empiriche deboli per quantità (piccoli numeri)  e qualità (studi non randomizzati con endpoint surrogati).
La maggior parte delle decisioni cliniche, da sempre, si basa su stime implicite della probabilità bayesiana che una certa scelta sia la migliore (il che spiega l’ampiezza e la rilevanza della cosiddetta area “grigia” delle conoscenze in medicina, quelle che si basano su  evidenze inadeguate), ma quello che mi preme sottolineare in questa sede è l’importanza di un’impostazione epistemologica bayesiana  anche in ambito regolatorio e di linee guida. È superfluo chiedersi se sia giusto, corretto, utile, prendere decisioni, non solo insieme al  paziente nella decisione clinica, ma a livello di raccomandazioni generali, o di approvazioni normative, utilizzando informazioni che derivano da studi piccoli e/o di qualità mediocre: una decisione va  comunque presa, e in tutti i casi in cui l’evidenza è principalmente  indiretta, ma convincente, questa non può essere ignorata. Il vero  problema è che fino a oggi questa impostazione non è riconosciuta  come ”scientifica” per cui queste decisioni sono prese al di fuori di  qualsiasi logica di trasparenza, quasi di soppiatto. È il caso, per  esempio, delle approvazioni di alcune indicazioni per l’immunoterapia antineoplastica, basate su “estrazioni” a posteriori di sottogruppi da  coorti di pazienti trattati in studi non controllati, o di nuove terapie  cellulari “provate” solo in studi pilota non controllati. Dovremmo  invece abituarci a riconoscere che la vera conoscenza, non solo in medicina, nasce dall’integrazione tra le evidenze (sperimentali o  osservazionali) dirette, passate al vaglio dei classici criteri della  validità interna ed esterna, e il patrimonio delle conoscenze disponibili che abbiano qualche rilevanza in merito. Questa operazione  (l’integrazione) è estremamente complessa, ha una forte componente  soggettiva, e non è codificabile nei suoi meccanismi  utilizzando acriticamente algoritmi preconfezionati come il GRADE, ma  deve essere trasparente, in modo da permettere a osservatori esterni  di verificare l’attendibilità e la rilevanza delle assunzioni su cui si basa.

Conflitti di interesse dichiarati: nessuno

Bibliografia e note

  1. Forastiere F, Ancona C. Rischi ambientali: la sintesi dell’evidenza  scientifica e la qualità delle prove tra triangolazione e punteggi.  Epidemiol Prev 2019; 43 (4): 215-217.
  2. Richiardi L. Il quesito di ricerca e la validità degli studi. Epidemiol  Prev 2019; 43 (4): 217-219.
  3. Davoli M. RCT o non RCT: è questo il problema? Epidemiol Prev  2019; 43 (5-6): 317-319.
  4. Le sperimentazioni che si propongono di valutare tossicità e  dosaggi (Fase I) o attività (Fase II) esulano da questa discussione.
Approfondisci su epiprev.it Vai all'articolo su epiprev.it Versione Google AMP