Perché funziona? Per costruire raccomandazioni migliori gli studi dovrebbero aiutarci a capire perché un intervento funziona e non solo se è migliore del controllo
SERIE «La qualità delle prove» 4a uscita
«Se un sistema di assiomi S
dell’aritmetica è coerente,
cioè non contiene contraddizioni,
allora S non è sintatticamente
completo, ossia in S esiste
una formula A tale che né A
né la sua negazione sono dimostrabili».Primo teorema di incompletezza di Godel
Se, per estensione del primo teorema di Godel,1 la dimostrabilità è una proprietà più ristretta della realtà, la dimostrabilità per mezzo di trial è una proprietà ancora più ristretta.
Ciononostante, siamo costretti a prendere decisioni sulla base della nostra capacità di predire le conseguenze delle nostre decisioni in una realtà non ristretta a ciò che è dimostrabile. Per affermare che una decisione è migliore di un’altra, dobbiamo prevederne gli effetti. Per fare ciò, deve essere possibile conoscere o almeno supporre i meccanismi causali che determinano le conseguenze a valle della nostra decisione, pur riconoscendone la natura stocastica.
Si sta diffondendo l’idea che un nuovo approccio al disegno dei trial di intervento, che permetta di dare risposte contemporaneamente al se e al perché un intervento funziona meglio di un altro, dovrebbe partire dall’esplicitazione di un modello causale sottostante.2,3 Questa esplicitazione obbliga a fare predizioni complesse sui risultati. La coerenza fra i risultati degli studi e le predizioni darà una robustezza ben al di là del semplice p-value del test d’ipotesi. Lo si inizia a fare in molti studi osservazionali, non sempre con un’esplicitazione a priori, e comincia a essere fatto in studi d’intervento complessi.
Costruire trial che diano risposte sui meccanismi implica che si disponga di un modello interpretativo dei nessi causali da poter testare con il nostro trial, insomma, quello che Popper chiamerebbe una congettura4 costruita sulla base delle migliori conoscenze attuali sull’argomento. Se vogliamo porci nell’ottica di costruire trial più informativi e che non portino solo a rispondere se “i” (intervento) è meglio di “c” (controllo), dobbiamo pensarli in modo tale che:
- non siano technology driven, ma siano trainati dal reale bisogno di informazioni anche su come, se e quanto usare la tecnologia “i” piuttosto che “c”;
- siano in grado allo stesso tempo di giustificare il modello causale, il background e la storia naturale in cui si inserisce l’intervento innovativo di cui vogliamo studiare l’efficacia o il rapporto danni-benefici.
Il primo punto necessita la pianificazione di analisi su sottogruppi o su specifici aspetti anche non prevedibili in fase di disegno dello studio, senza cadere in analisi guidate dai risultati. L’esempio più recente, non proprio positivo, è il trial Tailorx,5,6 che, tramite il suo disegno technology driven, ha portato a introdurre il test multigenico per guidare la scelta sull’aggiunta di chemioterapia adiuvante nel cancro precoce a basso rischio (HR+, HER2-) della mammella, con un algoritmo che deliberatamente ignora ogni informazione clinica. Probabilmente una simile ottimizzazione dell’uso della chemioterapia si potrebbe avere anche riservando il test a una minoranza delle donne, quelle per le quali esiste un reale dubbio legato alle caratteristiche biologiche del tumore, mentre per molte altre si potrebbe decidere sulla base di stime del rischio di recidive definito dalla dimensione del tumore, dal grading e da biomarcatori comuni come ki67. Il disegno dello studio e il modo in cui sono stati presentati i risultati ci permettono solo di prendere o rifiutare in toto un nuovo algoritmo decisionale, con implicazioni importanti per il rapporto costo-efficacia.7-9 In questo caso, quello che aiuterebbe non è un’applicazione più rigorosa delle regole di conduzione e analisi del trial (per esempio, intention to treat, distinzione dell’esito principale da quelli secondari, strategy-based randomization, niente analisi per sottogruppi), bensì analisi rivolte a comprendere come il nuovo intervento si colloca nel complessivo processo di storia naturale, trattamento ed esito, formulate sulla base di diverse strategie di intervento che identifichino sottopopolazioni da sottoporre al test per massimizzarne l’utilità.
Il secondo punto necessita di una condivisione preliminare del protocollo con la comunità scientifica e, cosa ancora più complessa, con gli altri stakeholder. Questo è accaduto nel caso di alcuni grandi trial di popolazione sui programmi di screening. L’esempio più di successo che possiamo presentare è quello del test HPV come test di screening primario. Alla fine degli anni Novanta-primi anni Duemila, la comunità scientifica ha convenuto sull’uso di endpoint surrogati, il CIN2+ e il CIN3+ anziché il cancro invasivo, e sul disegno di base dei trial, che assumeva una ben definita congettura falsificabile sulla base non di un semplice test fra due tassi, ma dal confronto fra le curve di incidenza attese e quelle osservate. Inoltre, grazie alle informazioni raccolte, è stato possibile ottimizzare la gestione clinica delle donne con test HPV positivi usando semplici modelli matematici. I trial NTCC,10 POBASCAM,11 Sweedscreen12 e Artistic13 sono stati disegnati per permettere analisi pooled14 e per studiare la storia naturale della malattia e come essa interagisce con l’intervento. Utili, quindi, a decidere se introdurre il test HPV o no, ma anche a definire i protocolli di gestione delle donne positive, l’età a cui iniziare, l’intervallo di screening e altri aspetti del protocollo.15 Queste qualità, però, li hanno anche resi particolarmente difficili da interpretare e sono stati vittime di alcune delle peggiori sintesi delle evidenze. Ne è esempio la vicenda delle linee guida della USPSTF. In breve, nel novembre 2011 uscì una revisione sistematica commissionata dall’USPSTF,16 le cui conclusioni chiaramente sconsigliavano l’uso del test HPV per lo screening. Le evidenze incluse erano, però, proprio i trial che nella comunità scientifica di riferimento erano stati considerati un completo successo del test HPV. Gli autori della revisione, nella loro analisi, avevano semplicemente confrontato i tassi di identificazione con i due test, concludendo che l’HPV era più sensibile, ma non si poteva dire nulla sulla sua capacità di prevenire il cancro. Quei trial, invece, testavano l’ipotesi, più complessa, che la detection fosse maggiore nel primo round e minore in quelli successivi, grazie a un’anticipazione della diagnosi, e l’analisi dell’incidenza cumulativa nel tempo mostrava proprio questo.14,17 Dopo qualche mese, le linee guida dell’USPSTF, completamente ignorando le conclusioni della revisione sistematica che avrebbe dovuto informarle,16 reinterpretavano, correttamente, i risultati dei trial e raccomandavano l’uso del test HPV.18 Lo stesso disegno sperimentale che ebbe successo nell’interpretare l’effetto dello screening dei precursori del cancro cervicale con HPV è stato applicato per rispondere alla domanda se introdurre la tomosintesi nello screening mammografico. Già sappiamo che la tomosintesi è superiore in termini di sensibilità e simile in termini di specificità alla mammografia tradizionale,19 ma non sappiamo abbastanza sull’eventuale riduzione dei cancri di intervallo e dei cancri avanzati ai round successivi. Anche qui, i trial sono stati costruiti sulla base di un modello interpretativo di come l’intervento agisce che permette di avere un atteso dell’andamento dell’incidenza di cancri di intervallo, dei cancri avanzati nei round successivi e dell’incidenza cumulativa complessiva.20 A seconda della coerenza fra i risultati e l’atteso potremo dare una risposta, e il modello concettuale adottato ci permetterà di concludere se la maggiore sensibilità della tomosintesi si traduce in anticipazione della diagnosi – quindi con un possibile beneficio, in quanto si è evitato un tumore avanzato con una prognosi peggiore – oppure in un aumento delle diagnosi di cancri indolenti, dunque in un aumento della sovradiagnosi.
Trial di intervento dicotomici e raccomandazioni cliniche
Le raccomandazioni che sono alla base delle linee guida cliniche dovrebbero aiutare clinici, pazienti e decision-maker a prendere decisioni di intervento finalizzate al miglior bilancio fra effetti desiderati e indesiderati.
Il processo per definire le raccomandazioni ha visto negli ultimi anni una standardizzazione che ne ha reso più trasparenti i criteri. La definizione di procedure ha anche standardizzato il quadro concettuale della domanda clinica a cui la raccomandazione dà risposta. Il quadro concettuale è il PICO (population, intervention, comparator, outcome). Questo modo di formulare la domanda porta con sé un confronto dicotomico: in pazienti di tipo x, è meglio usare il nuovo intervento “i” o il controllo “c”, attualmente considerato il migliore disponibile?
La formulazione del quesito clinico in forma dicotomica nasce dalla struttura del disegno sperimentale del trial, principalmente farmacologico, che in medicina è stato quasi sempre adottato come un confronto diretto fra due regimi di trattamento. Ma negli ultimi anni questa formulazione del quesito clinico adottata per le raccomandazioni ha a sua volta influenzato la ricerca e il modo di disegnare gli studi, privilegiando, nella produzione di evidenze, studi che hanno come obiettivo quello di dimostrare che un intervento o una procedura è meglio di quanto fatto usualmente. La formulazione del quesito in PICO ha molti vantaggi di chiarezza e di riproducibilità; inoltre, crea una comoda corrispondenza fra disegno sperimentale corretto e domanda a cui si risponde. D’altra parte riduce la generalizzabilità e restringe il campo di applicazione delle sperimentazioni e delle raccomandazioni, limitando, come già detto, la capacità di sfruttare l’intero ambito di conoscenze sull’argomento. In questa formulazione della domanda, ci si riduce a un sì o un no all’intervento, e l’unico uso che facciamo delle conoscenze pregresse e di background sta nel razionale dell’intervento (che, però, non influenza la nostra scelta) e nel definire il controllo che è considerato il migliore disponibile allo stato delle conoscenze attuali. Questo può essere un problema minore, come detto, nei trial farmacologici quando il modello causale cui ci si riferisce sia ridotto all’inserimento dell’intervento che si vuole valutare in un contesto già ben controllato. In questi contesti, può essere lecito ignorare la storia, la conoscenza di come l’intervento è arrivato a confrontarsi con la storia naturale della malattia, come è stato comparato in studi precedenti e se è stato valutato in pazienti simili, anche se non identici. Questa scelta, però, è limitativa in situazioni in cui o si trascura l’esistenza di un modello causale complesso (per esempio, lo studio TaylorX), anche se conosciuto a priori, oppure si interviene proprio sulla storia naturale della malattia, come avviene per definizione nello screening oncologico.
Il punto centrale di questo contributo non è di rimettere per l’ennesima volta in discussione una gerarchia dei disegni di studio nella loro capacità di definire nessi causali, ma piuttosto di cercare di comprendere i limiti di una logica che adotti esclusivamente domande dicotomiche per prendere decisioni e per produrre le evidenze a supporto di esse e che si astrae dalla conoscenza esistente. Analizziamo ora alcuni limiti importanti e alcune delle conseguenze che ne stanno originando. Per fare ciò, prendiamo spunto da esempi soprattutto tratti dallo screening oncologici, perché è l’ambito in cui abbiamo lavorato di più, dunque conosciamo quali sono state le dinamiche che hanno portato alla formulazione delle raccomandazioni.
Risposte dicotomiche a domande che in realtà (quasi sempre) non lo sono
Rispondere a domande che per loro natura non hanno una formulazione dicotomica utilizzando esclusivamente PICO dicotomici è difficile, soprattutto quando è necessario definire le modalità di un intervento. Per esempio, a che età iniziare lo screening e quale intervallo adottare fra un test e l’altro (1, 2 o 3 anni) sono due domande che, se affrontate con un approccio dicotomico, portano a rendere inutilizzabile gran parte delle evidenze disponibili. Nello screening mammografico, la maggior parte delle agenzie internazionali e dei panel di esperti che hanno rivisto le evidenze è arrivata alla conclusione che lo screening fra i 50 e 69 anni debba essere raccomandato sulla base dei trial che hanno randomizzato donne in questa fascia di età.21-23 Una domanda legittima può essere: perché proprio a 50 anni e non a 52? Il nuovo PICO sarebbe: «Le donne devono ricevere un invito alla mammografia da 52 a 69 anni anziché da 50 a 69?». Altrettanto legittimo è chiedersi se iniziare prima possa portare un beneficio. Alcuni gruppi, fra cui l’ECIBC-GDG, hanno affrontato la domanda chiedendosi: «Le donne fra i 45 e i 49 anni devono essere invitate allo screening mammografico?».19,24 In questo modo, si confrontano gli outcome che si ottengono in donne invitate allo screening, sia che abbiano partecipato sia che non abbiano accettato l’invito, con quelli che si ottengono nelle donne ancora non invitate. Questo confronto permette di avere un contrasto fra i benefici ottenibili con le due opzioni, ma in una situazione artefatta, in quanto, data la raccomandazione forte allo screening dopo i 50 anni, la decisione sia individuale sia a livello di comunità non è se sottoporre a screening donne fra i 45 e 49 o non farlo, ma se iniziare a 45 o a 50. Come vedremo nel prossimo paragrafo, questo artefatto dovuto alla formulazione del PICO ha implicazioni molto importanti sulla quantificazione soprattutto dei danni dello screening mammografico.
Non abbiamo soluzioni operative da proporre per affrontare questo domande. Il metodo GRADE,25 che al momento è il più adottato per formulare raccomandazioni e che ha raggiunto il maggior livello di proceduralizzazione, non prevede un framework che non sia dicotomico, imponendo così una lunga concatenazione di confronti a due, quasi un girone all’italiana, per esempio, fra i diversi intervalli tra test e tra tutte le possibili età d’inizio, prima di provare a dare una raccomandazione sensata.19
Si potrebbe pensare di non essere normativi nell’imporre un framework dicotomico a domande che chiaramente non lo sono, perché in questi casi ciò non porta a nessuno dei vantaggi che in altri contesti la standardizzazione del PICO ha dato. Infatti, si rischia di rendere più difficile la conduzione di revisioni sistematiche e, peggio ancora, di non riuscire a usare tutto il corpus delle evidenze disponibili. Nessun ricercatore ragionevole costruirà mai un trial per dimostrare se lo screening da 52 a 69 anni è, in termini di efficacia attesa, superiore all’offerta fra i 50 e i 69. Se, per assurdo, qualche ricercatore intraprendesse questa strada, con una logica di non inferiorità – che pure sembrerebbe accettabile, visto che l’intervento sarebbe meno invasivo e costoso (una mammografia in meno di screening) – una serie di questi esperimenti porterebbe giocoforza a ridurre l’intervento fino a farlo scomparire. Infatti, per quanto si possa mettere un delta di non inferiorità piccolo, è ragionevole pensare che con uno studio correttamente potenziato arriveremmo a dimostrare che non c’è differenza; così potremmo via via togliere una mammografia alla volta fino a dimostrare la non inferiorità di 0 mammografie rispetto a una sola mammografia a 69 anni. Inoltre, PICO così formulati sono destinati – e la sensazione è frequente tra chi lavora a definire raccomandazioni cliniche – a far trarre la conclusione che nessun ricercatore ha condotto gli studi necessari, con un implicito rimprovero a tutti coloro che avrebbero fatto studi inutili e, comunque, non fatto gli studi che avrebbero risposto alle domande veramente rilevanti!
Quando il trial c'è, ma non lo vediamo
Il tema centrale dell’intervallo tra test nello screening mammografico per le donne giovani (45-49enni) è stato affrontato dal gruppo di lavoro dell’ECIBC-GDG, che ha prodotto le raccomandazioni europee.19,24 Per calcolare i benefici attesi con intervallo annuale vs intervallo biennale, non esistendo un trial che abbia confrontato direttamente i due intervalli, è stata condotta un’analisi ad hoc, commissionata dal panel, confrontando il differenziale dei benefici ottenuti nei trial con intervallo biennale e quelli dei trial con intervallo 12-18 mesi. Si è sfruttata l’evidenza indiretta cercando di trarre il massimo dell’informazione con l’approccio delle network metanalysis. Per quantificare la sovradiagnosi, invece, ci si è affidati a modelli matematici che davano stime del differenziale di sovradiagnosi associati all’uso dei diversi intervalli di screening.26,27 Questi ultimi modelli erano stati pensati e validati prima della più recente pubblicazione dello UK Age trial,28 l’unico studio randomizzato in cui sono state arruolate donne con invito a ricevere la mammografia annualmente fra i 40 e i 49 anni. Il gruppo di controllo non riceveva screening fino all’ingresso nel normale programma di screening inglese che prevede una mammografia ogni tre anni a partire dai 50 anni. Sorprendentemente, il follow-up del trial mostra che l’incidenza cumulativa nei due gruppi raggiunge lo stesso livello non appena il gruppo di controllo entra nel programma di screening a 50 anni. Può non essere così intuitivo, ma questo trial è un’evidenza forte e diretta del fatto che l’intervallo di screening che si adotta fra 45 e 49 anni non ha nessun impatto sulla sovradiagnosi: abbiamo, infatti, la prova che un intervallo annuale non produce più sovradiagnosi rispetto a una sola mammografia (cioè un intervallo indefinitamente lungo) e, quindi, informa su qualsiasi confronto intermedio, come 1 anno vs 3 oppure 2 vs 3. Inoltre, i risultati dello UK Age trial dimostrano che è molto differente quantificare il rapporto fra effetti desiderati e indesiderati di un PICO in cui si chiede se si debbano sottoporre a screening le donne fra i 45 e i 49 anni o di un PICO in cui si chiede se sia meglio iniziare a 45 o a 50 anni, dato che si smette a 69. Bene, questo trial non risponde al PICO costruito per raccomandare l’intervallo e non è rientrato tra i trial analizzati per quantificare il differenziale di sovradiagnosi, se non in una nota aggiunta dopo la valutazione del corpus di evidenze. Ciò dimostra che anche uno dei panel per la costruzione di linee guida metodologicamente più attrezzato e con competenze sull’argomento molto robuste (non era un panel da cui fossero esclusi gli esperti, come l’Independent UK panel) fa fatica a orientarsi quando il quesito si focalizza su domande falsamente dicotomiche.
Tentativo di conclusione: tra il teorema di Bayes e i modelli causali
Per tentare di risolvere queste discrasie fra una formulazione dicotomica della domanda e la necessità di rispondere al come o quando fare un intervento, si può procedere a correzioni successive del quesito scientifico. Un rimodellamento a posteriori, però, è sempre soggetto a forzature interpretative e al rischio di analisi guidate dai dati. Un uso formalizzato delle evidenze a priori può superare questi rischi di analisi guidate dai dati.
Sono ben conosciuti quesiti come, per esempio, quelli in cui non si ha equivalenza delle due ipotesi e per i quali è ragionevole pensare che il nuovo intervento abbia molte probabilità di essere superiore al controllo che non lo riceve. In questi casi, Paolo Bruzzi ha proposto un’epistemologia bayesiana degli studi sperimentali.29 Anche noi anni fa avevamo timidamente accennato a un concetto simile.30 La sintesi delle evidenze, analogamente, dovrebbe essere in grado di valutare la coerenza dei risultati fra loro, tenendo presente quanto già noto sulla storia naturale della malattia e, a questo fine, utilizzare modellizzazioni robuste. Ciò è particolarmente importante per le domande non dicotomizzabili, come nel caso dell’intervallo o dell’età di inizio nello screening, ma probabilmente è altrettanto vero nel caso di domande dicotomiche classiche, dove la coerenza fra risultati in differenti popolazioni o di differenti outcome surrogati è più importante della precisione della stima. In sede di progettazione dei trial randomizzati, la possibilità di prevedere modelli causali e di condividerli a priori con chi è chiamato a raccomandare o no l’intervento (gli esperti che faranno parte dei panel per la definizione di linee guida e gli stakeholder) richiede certamente un grande sforzo nella fase preliminare del disegno della ricerca, ma potrebbe facilitare l’interpretazione e la definizione della raccomandazione e garantire una maggiore condivisone e accettabilità delle stesse.
Conflitti di interesse dichiarati: nessuno.
Bibliografia
- Enciclopedia Treccani della matematica. Teorema di Godel. Disponibile all’indirizzo: http://www.treccani.it/enciclopedia/teorema-di-godel_%28Enciclopedia-della-Matematica%29/
- Pearl J. Causality: Models, Reasoning, and Inference. Cambridge, Cambridge University Press, 2000.
- Pearl J, Mackenzie D. The Book of Why: The New Science of Cause and Effect. New York, Basic Books, 2018.
- Popper K. Realism and the aim of science: from the postscript to “The Logic of Scientific Discovery”. Routledge 1985.
- Sparano JA, Gray RJ, Makower DF et al. Adjuvant Chemotherapy Guided by a 21-Gene Expression Assay in Breast Cancer. N Engl J Med 2018;379(2):111-21.
- Sparano JA, Gray RJ, Ravdin PM et al. Clinical and Genomic Risk to Guide the Use of Adjuvant Therapy for Breast Cancer. N Engl J Med 2019;380(25):2395-405.
- Giorgi Rossi P, Paci E. RE: Expected Monetary Impact of Oncotype DX Score-Concordant Systemic Breast Cancer Therapy Based on the TAILORx Trial. J Natl Cancer Inst 2020;112(3):318-19.
- Paci E, Giorgi Rossi P. Alla ricerca del “minimo efficace” nella cura del tumore al seno. Scienza in rete, 24/10/2018. Disponibile all’indirizzo: https://www.scienzainrete.it/articolo/alla-ricerca-del-minimo-efficace-nella-cura-del-tumore-al-seno/eugenio-paci-paolo-giorgi
- Giorgi Rossi P, Lebeau A, Schünemann HJ et al. Clinical and Genomic Risk in Adjuvant Therapy for Breast Cancer. N Engl J Med 2019;381(13):1289-90.
- Ronco G, Giorgi-Rossi P, Carozzi F et al. Efficacy of human papillomavirus testing for the detection of invasive cervical cancers and cervical intraepithelial neoplasia: a randomised controlled trial. Lancet Oncol 2010 Mar;11(3):249-57.
- Rijkaart DC, Berkhof J, Rozendaal L et al. Human papillomavirus testing for the detection of high-grade cervical intraepithelial neoplasia and cancer: final results of the POBASCAM randomised controlled trial. Lancet Oncol 2012;13(1):78-88.
- Naucler P, Ryd W, Törnberg S et al. Human papillomavirus and Papanicolaou tests to screen for cervical cancer. N Engl J Med 2007;357(16):1589-97.
- Kitchener HC, Almonte M, Thomson C et al. HPV testing in combination with liquid-based cytology in primary cervical screening (ARTISTIC): a randomised controlled trial. Lancet Oncol 2009;10(7):672-82.
- Ronco G, Dillner J, Elfström KM et al. Efficacy of HPV-based screening for prevention of invasive cervical cancer: follow-up of four European randomised controlled trials. Lancet 2014;383(9916):524-32.
- Anttila A, Arbyn A, De Vuyst H et al (eds). European guidelines for quality assurance in cervical cancer screening. Second edition, Supplements. Luxembourg, Office for Official Publications of the European Union, 2015.
- Whitlock EP, Vesco KK, Eder M, Lin JS, Senger CA, Burda BU. Liquid-based cytology and human papillomavirus testing to screen for cervical cancer: a systematic review for the U.S. Preventive Services Task Force. Ann Intern Med 2011;155(10):687-97, W214-15.
- Ronco G, Meijer CJL, Cuzick J et al. Screening for cervical cancer. Ann Intern Med 2012;156(8):604-5; author reply 605-6.
- Moyer VA; U.S. Preventive Services Task Force. Screening for cervical cancer: U.S. Preventive Services Task Force recommendation statement. Ann Intern Med 2012;156(12):880-91, W312.
- Schünemann HJ, Lerda D, Dimitrova N et al. Methods for Development of the European Commission Initiative on Breast Cancer Guidelines: Recommendations in the Era of Guideline Transparency. Ann Intern Med 2019;171(4):273-80.
- Giorgi Rossi P, Bagni A, Bernardi D et al (eds). La tomosintesi nello screening: indicazioni per la conduzione di trial clinici. Osservatorio Nazionale Screening. Disponibile all’indirizzo: https://www.osservatorionazionalescreening.it/sites/default/files/allegati/trial%20tomosintesi_controlli%20qualit%C3%A0.pdf
- Independent UK Panel on Breast Cancer Screening. The benefits and harms of breast cancer screening: an independent review. Lancet 2012;380(9855):1778-86.
- IARC Working Group on the Evaluation of Cancer-Preventive Interventions. Breast cancer screening. 2nd edition. IARC Handbooks of cancer prevention. Volume 15. Lyon, IARC, 2015. Disponibile all’indirizzo: https://publications.iarc.fr/Book-And-Report-Series/Iarc-Handbooks-Of-Cancer-Prevention/Breast-Cancer-Screening-2016
- Schünemann HJ, Lerda D, Quinn C et al. Breast Cancer Screening and Diagnosis: A Synopsis of the European Breast Guidelines. Ann Intern Med 2020;172(1):46-56.
- European Commission Initiative on Breast Cancer, Guidelines Development Group. European guidelines on breast cancer screening and diagnosis. Disponibile all’indirizzo: https://healthcare-quality.jrc.ec.europa.eu/european-breast-cancer-guidelines
- Alonso-Coello P, Oxman AD, Moberg J et al. GRADE Evidence to Decision (EtD) frameworks: a systematic and transparent approach to making well informed healthcare choices. 2: Clinical practice guidelines. BMJ 2016;353:i2089.
- Mandelblatt JS, Stout NK, Schechter CB et al. Collaborative modeling of the benefits and harms associated with different U.S. breast cancer screening strategies. Ann Intern Med 2016;164(4):215-25.
- Vilaprinyo E, Forné C, Carles M et al. Cost-effectiveness and harm-benefit analyses of risk-based screening strategies for breast cancer. PLoS One 2014;9(2):e86858.
- Moss SM, Wale C, Smith R, Evans A, Cuckle H, Duffy SW. Effect of mammographic screening from age 40 years on breast cancer mortality in the UK Age trial at 17 years’ follow-up: a randomised controlled trial. Lancet Oncol 2015;16(9):1123-32.
- Bruzzi P. Qualità delle prove in medicina: differenze in ambito preventivo e assistenziale. Epidemiol Prev 2020;44(1):11-12.
- Giorgi Rossi P. Recommendation without experts? Epistemological implications in the development of screening guidelines. Prev Med 2016;83:22-25.