Percorsi clinici in linguaggio naturale per l’assegnazione automatizzata di topografia e morfologia nei registri tumori: sfruttare i flussi sanitari per il machine-coding oncologico tramite l’algoritmo LN-PDTA
ð¬ð§ English version
Introduzione
I registri tumori (RT) rappresentano uno strumento cardine per la ricerca e la sanità pubblica in ambito oncologico, in quanto raccolgono, analizzano e archiviano, secondo modalità strutturate e sistematiche, informazioni sui casi di tumore occorsi in una determinata popolazione o territorio. Indicatori come incidenza, prevalenza, sopravvivenza e mortalità sono indispensabili per descrivere l’epidemiologia, valutare gli screening organizzati, indirizzare la programmazione sanitaria e monitorare l’impatto delle misure di prevenzione e terapia.1
Per garantire validità e confrontabilità dei dati, è cruciale che le informazioni cliniche e patologiche siano codificate accuratamente e secondo standard internazionali. Le linee guida elaborate dall’International Agency for Research on Cancer (IARC) e dal Joint Research Centre (JRC) della Commissione europea definiscono le procedure di riferimento per la registrazione dei tumori.2-4 Queste linee guida, basate su uno strutturato sistema di regole e classificazioni, orientano il lavoro dei RT nella valutazione approfondita di ogni singolo caso, indicando i criteri per identificare la data di incidenza, la sede anatomica della neoplasia (topografia), il tipo istologico (morfologia), il grading istopatologico e lo stadio alla diagnosi. Oggi questo processo è gestito con modalità prevalentemente manuali, svolto da rilevatori specializzati: topografia e morfologia, in particolare, sono attribuite a ciascun tumore interpretando le informazioni contenute in referti istopatologici e cartelle cliniche, adottando sistemi di codifica standard secondo l’ICD-O-35. La codifica manuale assicura controllo e verifica, ma richiede tempi considerevoli e personale esperto; inoltre, è soggetta a variabilità intra e interoperatore, legata all’interpretazione individuale dei referti articolati e mitigata solo attraverso formazione e confronti continui.
Nonostante gli standard internazionali indichino limiti temporali stringenti, come i 23 mesi per la chiusura dell’incidenza annua suggeriti dalla North American Association of Central Cancer Registries6 o i 3 anni previsti dal Piano Oncologico Nazionale per il conferimento da parte delle regioni al Registro Tumori Nazionale7, la crescente complessità dei dati e l’aumento dei carichi di lavoro rendono spesso difficile rispettare tali tempistiche. Per gestire l’aumento dei volumi informativi, accelerare il processo di registrazione, alleggerire il carico di lavoro dei rilevatori e preservare la completezza e l’accuratezza dei dati raccolti, diversi RT hanno avviato forme di codifica automatizzata. In un approccio ibrido, un software analizza il testo libero dei referti per proporre sede anatomica e morfologia; successivamente, un operatore addetto alla validazione controlla le corrispondenze suggerite, correggendo dove necessario.8-10 Esempi rilevanti di questo approccio si trovano nel “Surveillance, Epidemiology, and End Results” (SEER) Program statunitense, che già da diversi anni utilizza un sistema (SEER*DMS) per la preelaborazione dei referti patologici, e nel Netherlands Cancer Registry, dove un modulo semiautomatizzato ha dimostrato di ridurre i tempi di codifica fino al 30%-40%. Esperienze analoghe, anche se più recenti, si segnalano nel National Cancer Registration and Analysis Service (NCRAS) del Regno Unito, dove la percentuale di referti codificati automaticamente con successo si è attestata intorno all’80%-90% per le neoplasie più comuni.11-13 In Italia, progetti pilota regionali hanno riportato tassi di concordanza rispetto alla codifica interamente manuale superiori al 70%-80%.14-16 Tuttavia, questi algoritmi si limitano a predire la topografia, lasciando la morfologia alla codifica manuale.11,16 L’attribuzione erronea di classi tumorali e la mancata identificazione di casi sono spesso dovuti a fonti informative inaccurate o alla mancata ospedalizzazione del paziente; l’integrazione di fonti amministrative aggiuntive può migliorare la sensibilità e la specificità del processo.9
Nel contesto di questi approcci di codifica automatizzata, il machine learning (ML), una delle applicazioni dell’intelligenza artificiale (IA), sta trasformando la medicina, offrendo strumenti avanzati per analisi e gestione dei dati sanitari, dalla diagnostica alla previsione del rischio. In oncologia, i modelli ML possono automatizzare la codifica: l’apprendimento supervisionato e il deep learning integrano dati da referti elettronici, schede di dimissione ospedaliera (SDO) e altri flussi informativi rilevando pattern complessi utili per l’identificazione della topografia e morfologia.
In questo lavoro si introduce il concetto di percorso diagnostico terapeutico assistenziale in linguaggio naturale (LN-PDTA): una narrazione sintetica, cronologica e semantica degli eventi assistenziali che descrivono il percorso clinico di ciascun paziente oncologico. Obiettivi principali sono lo sviluppo e la validazione di un algoritmo basato su reti neurali ricorrenti di tipo long short-term memory (LSTM) che, analizzando la stringa LN-PDTA generata per ciascun caso incidente, assegni automaticamente la combinazione topografia-morfologia. L’approccio affronta l’eterogeneità dei dati, è scalabile, riproducibile, apprende dai dati reali. Il modello è pensato per integrarsi nei processi di routine dei registri tumori, velocizzando i tempi di chiusura e ampliando la capacità di analisi, a supporto di decisioni cliniche ed epidemiologiche.
Metodi
Definizione della popolazione in studio e criteri di inclusione
Lo studio è stato condotto sui casi di tumore incidenti rilevati dal RT di Milano nel periodo compreso tra il 01.01.2017 e il 31.12.2018, riguardanti residenti nel territorio dell’ATS di Milano, che comprende le province di Milano e Lodi, per un totale di circa 3,5 milioni di abitanti. Sono stati selezionati i tumori maligni, escludendo i tumori non melanomatosi della cute e i soggetti con tumori multipli.
Questo progetto, relativo al consolidamento e all’ottimizzazione del processo di registrazione, è incluso tra gli obiettivi istituzionali del Registro Tumori (CR) dell’Agenzia di Tutela della Salute della Città Metropolitana di Milano (ATS Milano). La base giuridica del trattamento dei dati è definita per legge (DGR Lombardia n. XI/6818 del 02.08.2022).
Fonti informative e finestra temporale
Mediante record linkage deterministico basato su codice univoco anonimizzato, a ciascun caso sono state associate informazioni anagrafiche (sesso e età), prestazioni sanitarie provenienti dai flussi dei ricoveri (SDO), prestazioni ambulatoriali (28/SAN), prestazioni farmaceutiche territoriali (convenzionata e distribuzione per conto, DPC) e ospedaliere contenute nel File F, registro nominativo delle cause di morte (ReNCaM) e referti codificati di anatomia patologica (AP). Sono stati considerati eventi nei 180 giorni precedenti o successivi la data di incidenza (la prima tra: data del ricovero ospedaliero con diagnosi di neoplasia, data dell’esame anatomopatologico, data di diagnosi clinica/strumentale, data di decesso per causa oncologica). Dalle fonti informative, sono state selezionate le sole informazioni direttamente correlate a diagnosi e cura del tumore, come di seguito dettagliato.
Estrazione della diagnosi tumorale e dell’intervento dal flusso dei ricoveri
Nel flusso dei ricoveri ospedalieri (inclusa la mobilità extraregionale), sono stati ricercati (considerando le prime tre cifre) codici di diagnosi riferiti a tumori maligni con sede definita (ICD-9-CM: 140*-194*; 200*-208*); questi codici identificano potenziali ricoveri per neoplasie solide ed ematologiche, escludendo i tumori maligni di altre o mal definite sedi. Sono state considerate unicamente la diagnosi principale e la prima diagnosi secondaria, selezionando quella oncologica o, nel caso fossero entrambe oncologiche, la principale. Nel caso di ricoveri multipli, è stato considerato quello più prossimo alla data di incidenza. Per quanto riguarda l’intervento, sono stati ricercati nel campo “intervento principale” i codici di procedura ICD-9-CM all’interno di un elenco prestabilito.
La selezione è stata effettuata considerando, a seconda del gruppo di procedure, le prime tre o quattro cifre del codice, al fine di identificare tipologie di intervento specifiche (tabella S1, materiali supplementari online). Nel caso di ricoveri multipli contenenti procedure eleggibili, è stato considerato l’intervento più prossimo alla data di incidenza. Inoltre, per ciascun soggetto è stato acquisito il codice identificativo della struttura di ricovero; nel caso di ricoveri multipli, è stata privilegiata la struttura presso la quale è stato eseguito l’intervento chirurgico selezionato.
Definizione dei trattamenti oncologici
L’erogazione di trattamenti non chirurgici è stata ricostruita utilizzando i flussi informativi relativi a ricoveri, farmaceutica e prestazioni ambulatoriali, senza distinzione di fonte. Per ogni trattamento sono stati identificati codici di prestazione e farmaci specifici (tabella S2, materiali supplementari online). Le prestazioni sono state ricodificate in tre categorie: radioterapia, chemioterapia e ormonoterapia.
È stata introdotta anche la distinzione tra chemioterapia pre- e post-intervento; in caso di mancata effettuazione di un intervento chirurgico, la chemioterapia a scopo palliativo è stata ricompresa nella categoria “chemio prima”. Per ogni paziente e trattamento, è stato considerato l’evento più vicino alla data di incidenza, prendendo in esame solo il primo ciclo nel caso di trattamenti ripetuti.
Identificazione dei farmaci specifici per neoplasie
Dal File F (dispensazione farmaceutica specialistica e/o ad alto costo a erogazione diretta da parte delle strutture di ricovero), sono state incluse tutte le prescrizioni con codice ATC appartenenti al gruppo L01* (antineoplastici) o L02* (ormonoterapia), considerando l’intero codice ATC (7 caratteri). Se il paziente aveva ricevuto più erogazioni con lo stesso codice ATC, è stata considerata solo quella più vicina alla data di incidenza.
Associazione con la causa di morte oncologica
A ciascun deceduto della coorte, è stata associata la causa di morte tumorale (codici ICD-10 C00-D48), considerando solo la causa principale.
Normalizzazione e selezione dei referti di anatomia patologica
Dal flusso dell’AP, sono stati selezionati i referti tumorali aventi morfologia codificata con M8* o M9*, escludendo i tumori benigni, incerti e metastatici (con l’ultimo carattere diverso da 3). I campi topografia e morfologia SNOMED sono stati normalizzati (eliminazione di spazi e caratteri speciali) e convertiti in ICD-O-3. Per la topografia sono stati considerati solo i primi tre caratteri del codice, tranne nei casi in cui il secondo carattere fosse una lettera tra A, C, D, F, Y o X: in questi casi, sono stati considerati i primi quattro caratteri. Nei codici in cui il secondo e il terzo carattere coincidevano con EA, è stato considerato l’intero codice.
Strutturazione delle informazioni per la predizione
A ogni caso è stata associata la stringa di topografia e morfologia definita dai rilevatori del RT, formata rispettivamente dai primi 3 e 5 caratteri di topografia e morfologia secondo la classificazione ICD-O-3. Per brevità, da qui in avanti la coppia codificata dal RT verrà chiamata topo-morfo. Per permettere analisi a un livello più aggregato, le singole morfologie sono state anche raggruppate in categorie più ampie (gruppi morfologici) secondo le corrispondenze dettagliate in tabella S3 (materiali supplementari online).
Ogni evento rilevato nei flussi informativi è stato trasformato in un token descrittivo e inserito in una stringa alfanumerica che include: sesso ed età, codici ricovero (ICD-9-CM di diagnosi e intervento, identificativo dell’ospedale), esecuzione di ormonoterapia, radioterapia, chemioterapia (prima o dopo la data di incidenza), ATC di farmaci antineoplastici, causa di decesso e coppia topografia-morfologia desunta dall’anatomia patologica, selezionata secondo le regole descritte in precedenza. I token sono ordinati cronologicamente, separati dal simbolo |. Eventuali posizioni mancanti nel percorso (per esempio, un paziente che non ha ricevuto radioterapia) sono sostituite da un placeholder m (missing).
La lunghezza massima osservata della stringa LN-PDTA nei dati analizzati è di 16 token, ma il valore può variare in funzione della completezza e della complessità clinica dei singoli casi.
In caso di prestazioni eseguite nella stessa data, l’ordine stabilito per convenzione è il seguente: chemioterapia, radioterapia, ormonoterapia, coppia topografia-morfologia, ATC del farmaco specifico, causa del decesso, causa del ricovero. Se, nella stessa data, erano presenti più prestazioni dello stesso tipo, queste sono state inserite in ordine alfabetico.
La tabella 1 sono riportati due esempi di come la concatenazione di eventi rintracciati dai flussi in ordine cronologico concorra a generare la stringa alfanumerica LN-PDTA.
Sviluppo e applicazione del modello predittivo
Per l’applicazione dell’algoritmo, il dataset è stato suddiviso in 80% per l’addestramento del modello (training set) e 20% per la validazione (test set), al fine di garantire un’adeguata rappresentazione di tutte le classi considerate. A ogni LNâPDTA del training è stata associata la topoâmorfo del RT (gold standard). La suddivisione è stata effettuata mediante stratificazione per topografia, al fine di garantire un’adeguata rappresentazione delle sedi tumorali più frequenti in entrambi i set.
La predizione della combinazione topografia-morfologia è stata effettuata mediante un modello di deep learning basato su LSTM17, progettato per apprendere relazioni semantiche e sequenziali all’interno della rappresentazione testuale dei PDTA in linguaggio naturale. L’architettura LSTM è costituita da blocchi di memoria ricorrentemente connessi, ognuno dei quali contiene celle di memoria autoconnesse e tre porte moltiplicative (input, output e forget gate). Queste porte agiscono come meccanismi di scrittura, lettura e reset, permettendo al modello di gestire in modo efficace le informazioni rilevanti lungo la sequenza ed evitare la perdita del contesto. L’impiego di un’architettura LSTM, già consolidato in letteratura, sia in altre applicazioni di ambito oncologico18 sia in studi condotti a partire da flussi informativi e/o electronic health records19, è stato ritenuto metodologicamente appropriato per l’analisi di dati sequenziali e per la gestione delle dipendenze a lungo termine grazie al meccanismo di gating (in particolare il forget gate), che consente di modulare la conservazione e l’aggiornamento dell’informazione nel tempo.
Per ciascun paziente, come primo passaggio, il testo LN-PDTA è stato trasformato in token e codificato in sequenze numeriche utilizzando un vocabolario costruito a partire dall’intero corpus, in cui a ogni token è stato assegnato un indice univoco.
Il dataset codificato è stato incapsulato in una classe personalizzata, contenente la sequenza di token e le etichette numeriche corrispondenti alla topografia e alla morfologia.
Il modello (TumorModel) è composto da:
- uno strato di embedding che proietta i token in uno spazio denso di dimensione 64;
- una LSTM con 128 hidden layer (strati nascosti) che elaborano la sequenza;
- due strati fully connected finali: uno dedicato alla classificazione della topografia e uno alla classificazione della morfologia, ciascuno con dimensione in uscita pari al numero di classi.
In fase di forward pass, la sequenza di token viene trasformata tramite embedding e processata dalla LSTM; infine, il vettore dell’ultimo hidden state viene utilizzato per produrre le due predizioni (topografia e morfologia) in parallelo.
L’ottimizzazione è stata effettuata utilizzando l’algoritmo Adam con learning rate di 0,001. La funzione di loss utilizzata è la somma di due CrossEntropyLoss, una per ciascuna delle due etichette. Il modello è stato addestrato per 10 epoche.20 Durante ciascuna epoca, il modello è stato posto in modalità training e, per ogni batch del train_loader, sono state effettuate le seguenti operazioni:
- azzeramento del gradiente;
- predizione delle classi topo e morfo;
- calcolo della loss totale come somma delle due cross-entropy;
- backpropagation e aggiornamento dei pesi del modello.
L’addestramento ha previsto il monitoraggio della loss aggregata su ogni epoca, al fine di verificare la stabilità dell’apprendimento. La fase di valutazione è stata condotta separatamente sul test set, utilizzando le etichette del RT come gold standard.
Le analisi sono state effettuate utilizzando il linguaggio Python (versione 3.10) e le librerie PyTorch (versione 2.1.0)21 e scikit-learn (versione 1.3.1)22.
Metriche per la valutazione delle performance
La valutazione delle performance del modello LSTM è stata effettuata sul test set per entrambe le classi di predizione: topografia e morfologia. Per ogni batch del test set, sono state raccolte le etichette reali e le predizioni del modello per topografia e morfologia. È stata calcolata l’accuratezza, ovvero la percentuale di predizioni corrette sul totale delle osservazioni, sia separatamente per le due componenti, riflettendo la natura multi-task del modello, sia per la predizione dell’intera combinazione topografia-morfologia, vero obiettivo dello studio. Inoltre, sono state calcolate metriche aggregate di precision, recall e F1-score, utilizzando le apposite funzioni della libreria scikit-learn.22 Per ogni combinazione topo-morfo è stata costruita una tabella di contingenza misurando:
- precision (valore predittivo positivo): la capacità di effettuare predizioni corrette evitando falsi positivi (ossia soggetti erroneamente assegnati alla classe topo-morfo diversa dalla reale);
- recall (sensibilità): la capacità di individuare tutte le istanze appartenenti a una classe;
- F1-score: media armonica tra precision e recall, che fornisce un indicatore bilanciato delle performance per ogni classe.
Per una valutazione complessiva, medie di queste metriche sono state calcolate considerando lo stesso peso per tutte le singole classi di topografia e morfologia, indipendentemente dalla loro frequenza. Gli intervalli di confidenza al 95% Sono stati calcolati con il metodo bootstrap.
Analisi della salienza dei token per topografia e morfologia
Per capire quali token influenzano maggiormente le predizioni, è stata effettuata un’analisi di saliency a livello di token, separatamente per ciascuna classe di topografia e morfologia, utilizzando una funzione di calcolo basata su hook applicati al modello. La saliency media di ogni token per classe è stata normalizzata tra 0 e 1, per facilitare la comparazione. Sono stati così identificati i 20 token più influenti per ogni classe di topografia e morfologia, consentendo di mettere in evidenza le parole o i simboli testuali maggiormente rilevanti nel processo decisionale del modello.
Confronto con approccio deterministico
Le prestazioni dell’algoritmo proposto sono state confrontate con quelle di un approccio statico e deterministico,23 secondo il quale, nel test set, la stringa topo-morfo predetta viene assegnata esclusivamente in presenza di una corrispondenza con stringhe etichettate presenti nel training set. In questo scenario, l’algoritmo non considera alcuna forma di similarità parziale o approssimata, limitandosi a riconoscere solo le corrispondenze esatte. Questo confronto ha permesso di valutare l’efficacia del modello proposto nel gestire l’eterogeneità e la variabilità presenti nei dati reali, mettendo in luce i vantaggi dell’approccio adottato.
Risultati
Utilizzo e copertura delle fonti sanitarie nella coorte
Nel periodo compreso tra il 01.01.2017 e il 31.12.2018, sono stati identificati 34.168 casi incidenti in soggetti residenti nel territorio dell’ATS di Milano che soddisfacevano i criteri di inclusione precedentemente definiti. Di questi, il 49% (n. 16.723) erano maschi e il 51% (n. 17.445) femmine. La distribuzione per fascia di età era la seguente: 0,9% (n. 290) di età inferiore ai 18 anni, 2,0% (n. 691) tra i 18 e i 34 anni, 16,4% (n. 5.608) tra i 35 e i 54 anni, 45,1% (n. 15.412) tra i 55 e i 74 anni, e 35,6% (n. 12.167) di età pari o superiore a 75 anni.
La tabella 2 riporta l’accesso alle diverse tipologie di prestazioni sanitarie. Nei 180 giorni precedenti o successivi la data di incidenza, il 79% della coorte (n. 26.859) ha effettuato almeno un ricovero per causa tumorale; di questi, l’82% (65% del totale, n. 22.110) è stato sottoposto a intervento chirurgico; per quanto riguarda le terapie non chirurgiche, il 54% dei pazienti (n. 18.389) è stato sottoposto a chemioterapia (11% prima, 50% dopo l’intervento), il 17% (n. 5.668) a ormonoterapia e il 27% (n. 9.087) a radioterapia. Per il 12% (n. 4.119) sono state tracciate erogazioni di farmaci specifici per neoplasie dai flussi della farmaceutica; il 16% (n. 5.598) è deceduto per causa oncologica; il 66% (n. 22.481) dispone di un referto AP in cui è riportato il codice topografico e il 56% (n. 19.139) di un referto AP con codice morfologico.
A ciascun caso della coorte risulta così associata la stringa topo-morfo come assegnata dai rilevatori (gold standard) e la stringa relativa alle prestazioni sanitarie (LN-PDTA) composta da 16 token, corrispondenti al numero massimo di prestazioni sanitarie registrate fra i pazienti della coorte.
Prestazioni del modello e confronto tra sedi tumorali
Il dataset è stato suddiviso in un set di training, composto dall’80% dei casi della coorte (n. 27.424), e un set di validazione composto dal restante 20% (n. 6.744).
La tabella 3 riporta le performance dell’algoritmo proposto sul dataset di validazione e su alcune sedi specifiche (mammella, colon retto, prostata, polmone e vie biliari). L’algoritmo proposto predice correttamente la topografia nell’89% dei casi e la morfologia nel 59%; nel 56% è esatta la combinazione topo-morfo. Limitando l’analisi ai tumori della mammella, l’algoritmo mostra performance più elevate: predice correttamente la topografia nella quasi totalità dei casi (98,5%), riuscendo a predire entrambe contemporaneamente nel 73% dei casi. Per i tumori del polmone, il secondo tipo più frequente, la topografia è corretta nel 94% dei casi, la morfologia nel 58% ed entrambe nel 56%. Per i tumori della prostata, le performance del modello sono risultate pari al 54,7% complessivo, con una predizione della topografia più accurata (97,8%) e una predizione della morfologia pari al 55,2%. Per i tumori delle vie biliari, invece, l’algoritmo mostra performance inferiori a quelle ottenute sull’intero dataset di validazione, con la previsione della topografia corretta nel 52% dei casi, della morfologia nel 61% dei casi e di entrambe le informazioni nel 43%.
Rispetto all’algoritmo proposto, l’approccio statico e deterministico con assegnazione della stringa topo-morfo basata su corrispondenze esatte mostra performance inferiori e, nel 26% dei casi, non assegna una topografia e una morfologia al caso, in quanto le stringhe di prestazioni di questi individui non sono presenti nella matrice dei vettori. Questi casi vengono, invece, recuperati dall’algoritmo proposto, che sfrutta una rete LSTM per predire topografia e morfologia anche in assenza di corrispondenze esatte.
Nella tabella 4 sono riportate le prestazioni del modello in termini di recall (sensibilità), precision e F1-score medi. L’algoritmo proposto mostra una sensibilità media (fra tutte le classi topo-morfo) del 56%, con una precision del 56%, per un F1-score medio del 56%. Per i tumori della mammella, l’algoritmo mostra un aumento sia nella sensibilità sia nella precision. Nei casi di tumori del colon retto e del polmone, i risultati sono generalmente più soddisfacenti rispetto all’intero dataset di validazione. Per i tumori della prostata e delle vie biliari, la sensibilità e la precision risultano in linea con i valori osservati sull’intero dataset, senza riportare scostamenti significativi.
Le prestazioni dell’algoritmo statico risultano generalmente inferiori in termini di F1-score, con una sensibilità media che mostra una riduzione significativa all’8% e una precision del 34%.
Valutazione delle performance in funzione della probabilità di corrispondenza
L’ultima serie di analisi intende rispondere alla seguente domanda: se si considerassero valide soltanto le etichette topo-morfo assegnate tramite stringhe di prestazioni per cui la probabilità associata alla predizione è superiore a una soglia di x%, come cambierebbe la performance del modello?
La tabella 5 riporta le prestazioni dell’algoritmo considerando soglie crescenti: 25%, 50%, 75% e 90%. Considerando una soglia del 25% di probabilità, le metriche risultano quasi del tutto sovrapponibili a quelle del modello base, indicando che la maggior parte delle predizioni viene effettuata con probabilità che si attestano su quest’ordine di grandezza. Aumentando la soglia minima al 75% di probabilità, i casi a cui viene attribuita un’etichetta sono 1.961 (pari al 29% del dataset completo) e si osserva una sensibilità media del 23%, una precision dell’82% e un F1-score del 36%. Infine, restringendo ulteriormente l’analisi alle stringhe con almeno il 90% di probabilità di predizione corretta, si ottengono predizioni per 472 soggetti (pari al 7% del dataset di validazione). La precision raggiunge un valore superiore al 90%, a indicare una quota ridotta di falsi positivi, al costo di un importante calo nel recall (6%), per un F1-score pari a 11%.
Saliency dei token
Infine, l’analisi di saliency ha permesso di identificare le fonti più informative nella composizione della stringa LN-PDTA (figura 1): i tre flussi più rilevanti, considerando l’importanza media normalizzata dei token che da essi sono ricavati, sono risultati AP, SDO, ReNCaM sia per la predizione della topografia sia della morfologia.
Discussione
Il contributo principale del lavoro è l’introduzione di un algoritmo di codifica automatizzata capace di predire congiuntamente topografia e morfologia dei tumori integrando informazioni da flussi informativi sanitari. Nel test set, il modello ha raggiunto un’accuratezza complessiva del 56% per la combinazione topografia-morfologia, risultato rilevante nel contesto di un problema di classificazione multiclasse con oltre 400 possibili categorie. Sebbene si osservino limiti nella predizione per sedi meno frequenti e più eterogenee, come le vie biliari e altre sedi a bassa incidenza, per le quali la quota di attribuzioni corrette scende al 43%, per alcune sedi tumorali ad alta incidenza, come mammella e colon retto, si ottengono performance superiori (73% e 61%, rispettivamente).
Considerando la complessità del processo di codifica oncologica storicamente affidato a rilevatori esperti, questi risultati rappresentano un potenziale passo in avanti rispetto agli algoritmi descritti finora in letteratura:11,14,16,24 questi si concentrano sulla previsione della topografia, raggiungendo sensibilità comprese tra il 58% e il 78%, e demandano alla classificazione manuale l’attribuzione della diagnosi istologica. Alcuni lavori hanno esplorato la classificazione automatica della morfologia a partire da referti patologici, adottando approcci rule-based o modelli supervisionati, spesso focalizzati su singole lingue o contesti nazionali e su dataset relativamente omogenei, limitandosi a un sottogruppo di sedi e morfologie.25 Altri studi propongono sistemi di supporto alla codifica che suggeriscono possibili codici ICD-O di topografia e morfologia, senza tuttavia affrontare esplicitamente il problema della predizione congiunta come task multiclasse a elevata dimensionalità.26
La stringa LN-PDTA, sfruttando la sequenzialità e il contesto dei flussi sanitari, riassume il percorso clinico di ciascun paziente in una “frase” di token che ne descrive in ordine cronologico gli eventi chiave (ricoveri, trattamenti, referti AP, decesso eccetera). Ciò consente di integrare simultaneamente informazioni di diversa natura – diagnostiche, terapeutiche e di follow-up – andando oltre l’uso di singoli codici isolati tipico di molti algoritmi precedenti.
D’altra parte, i punti di forza legati all’utilizzo della stringa in una rete LSTM sono messi in luce dal confronto con un approccio deterministico, che impone una corrispondenza esatta tra le stringhe di prestazioni: mentre l’algoritmo deterministico non riesce ad assegnare alcun codice in circa un quarto dei casi (26%), la rete LSTM è sempre in grado di proporre una predizione, anche in presenza di informazioni parziali o disomogenee, con metriche di performance complessiva migliori (recall 56%, precision 56%).
L’analisi stratificata per livello di affidabilità delle predizioni sulla base delle stringhe di prestazioni suggerisce una potenziale strategia per l’implementazione pratica dell’algoritmo nell’attività routinaria dei registri tumori. Limitando l’utilizzo del modello ai soli casi con medio-alta probabilità di predizione corretta (≥75%), si ottiene una precision dell’82%, suggerendo un uso mirato del modello come supporto alla codifica manuale piuttosto che come strumento completamente autonomo. Sebbene la rilevazione manuale dei casi rimanga tuttora imprescindibile, una riduzione anche solo del 20%-30% del lavoro manuale, in particolare nelle fasi di sottomissione dei dati alle agenzie nazionali e internazionali, può avere un impatto positivo rilevante. Ciò consentirebbe ai registri di concentrare le risorse sui casi meno frequenti e di più complessa codifica, migliorando l’efficienza complessiva del processo.
La tempestività del coding dei registri tumori costituisce una priorità comune in tutti i Paesi, specialmente in quelli occidentali, poiché consente di monitorare e sorvegliare le patologie oncologiche in modo efficace. Secondo uno studio recentemente pubblicato, condotto su dati statunitensi SEER, trascorrono circa 28 mesi dalla fine dell’anno di diagnosi di riferimento fino alla pubblicazione dei dati.11 I Center for Disease Control and Prevention (CDC) hanno sottolineato l’esigenza di una maggiore rapidità nella rilevazione dei nuovi casi di tumore e stanno promuovendo interventi mirati alla modernizzazione e all’accelerazione dell’intero processo di registrazione.27
In un momento storico in cui l’utilizzo dei big data e dei modelli di intelligenza artificiale sta rivoluzionando ogni aspetto della vita quotidiana, l’attuale organizzazione dei registri tumori, basati sul lavoro manuale di rilevatori esperti, sembra essere l’esempio calzante in cui questi aggiornamenti tecnologici potrebbero portare un netto miglioramento delle performance.
Il modello proposto in questo lavoro ha dimostrato che un utilizzo integrato e automatizzato delle diverse fonti informative sanitarie (tra cui referti di anatomia patologica, schede di dimissione ospedaliera, flussi ambulatoriali e farmaceutici, nonché il registro delle cause di morte) può contribuire in modo significativo alla riduzione del carico di lavoro dei registri tumori, favorendo al contempo una maggiore rapidità nella codifica automatizzata dei casi. Un ulteriore vantaggio risiede nella flessibilità del sistema: è possibile effettuare periodici retraining per riflettere i cambiamenti nella pratica clinica, come l’introduzione di nuovi farmaci (per esempio, terapie a bersaglio molecolare o immunoterapici di recente commercializzazione) o nuovi protocolli radioterapici, nonché revisioni o aggiornamenti delle linee guida o regole di registrazione.
L’uso dei percorsi clinici in linguaggio naturale (LNâ PDTA), combinati con una rete neurale, consentirebbe, decidendo il comportamento da tenere a diverse soglie di affidabilità, di automatizzare una quota delle codifiche topoâmorfo, riducendo sensibilmente i tempi di lavorazione e alleggerendo il carico dei rilevatori. In un impianto operativo riskâbased, le predizioni ad alta confidenza possono essere recepite direttamente, mentre i casi complessi restano al controllo umano, con un bilanciamento più efficiente tra produttività e qualità.
Il guadagno di efficienza è funzionale a due obiettivi strategici e tra loro complementari: l’estensione della copertura dei registri in territori oggi parzialmente (o non) coperti e l’incremento della tempestività della registrazione nelle aree in cui vi è una richiesta di evidenze in tempo reale, per esempio, quelle ad alta pressione ambientale, dove servono stime rapide e aggiornabili per il monitoraggio dello stato di salute della popolazione. Nelle aree esposte a carichi emissivi elevati o a sorgenti industriali specifiche, la disponibilità di un flusso automatizzato di codifica fornirebbe con cadenza ravvicinata stime di incidenza per sede e, quando utile, per gruppi morfologici; ciò permetterebbe il calcolo di indicatori stratificati per territorio e per periodo, abilitando una sorveglianza quasi continua e la tempestiva individuazione di scostamenti rispetto ai trend attesi e indirizzando interventi di prevenzione e mitigazione.
Lo strumento sviluppato è portabile in contesti differenti, perché si fonda sulla mappatura locale dei flussi informativi (ricoveri, ambulatoriale, farmaceutica, anatomia patologica, mortalità) e su un riâaddestramento programmato che recepisce peculiarità regionali, cambiamenti clinicoâorganizzativi e introduzione di nuovi farmaci o protocolli. Il percorso di diffusione può essere progressivo, a partire da registri già consolidati per rifinire regole e strumenti, passando al trasferimento assistito verso i registri in fase di avvio o rafforzamento, quindi al roll-out prioritario nelle aree ambientalmente critiche e, infine, alla manutenzione evolutiva del modello.
Per massimizzare l’utilità pubblica, l’LNâPDTA può essere arricchito con dati di imaging e di laboratorio, correntemente già utilizzati nella valutazione dei percorsi clinico-assistenziali assieme ai dati dei RT28, o con la geocodifica dell’indirizzo e il collegamento a layer ambientali (indicatori di qualità dell’aria, prossimità a sorgenti emissive, misure di vulnerabilità)29,30.
L’efficacia reale potrà essere valutata verificando l’ampliamento della copertura territoriale e della popolazione coperta, la riduzione del ritardo tra data di incidenza e disponibilità di stime utilizzabili, la concordanza tra codifiche automatiche e gold standard e la progressiva riduzione dei divari di tempestività e completezza tra aree prioritarie e non. Questi risultati richiedono una governance unificata delle regole di codifica, la formazione di rilevatori e data manager sull’uso del triage algoritmico e una reportistica standardizzata verso i decisori, in grado di comunicare in modo trasparente qualità, limiti e incertezze delle stime prodotte.
Permangono, tuttavia, alcuni limiti. Le neoplasie rare presentano percorsi altamente eterogenei e poco ripetibili, con un supporto numerico ridotto in fase di training: il modello fatica, quindi, a stabilizzare rappresentazioni robuste e la performance ne risente. La qualità e la completezza dei flussi sono determinanti: dati frammentati o mancanti ostacolano la costruzione di LNâPDTA coerenti e riducono la capacità predittiva. La validazione è stata condotta su una sola area geografica, circoscritta all’ATS di Milano; ciò richiede verifiche multicentriche su popolazioni con diversa composizione sociodemografica e in sistemi sanitari organizzati in modo differente, per confermare generalizzabilità ed eventuali adattamenti necessari. Inoltre, le prestazioni dipendono dal periodo analizzato: l’evoluzione delle pratiche cliniche, dei percorsi organizzativi e della disponibilità/uso di farmaci traccianti possono modificare le distribuzioni osservate e, di conseguenza, la stabilità del modello. Per mantenere l’accuratezza nel tempo è imprescindibile un programma di manutenzione evolutiva con riâaddestramenti su coorti di anni differenti, così da assorbire i cambiamenti nei flussi informativi e nello scenario clinicoâassistenziale corrente.
Conclusioni
Il presente lavoro offre una base operativa immediatamente scalabile e trasferibile in diverse aree geografiche: la rappresentazione in linguaggio naturale dei percorsi clinicoâassistenziali (LNâPDTA), combinata con una rete neurale, attribuisce correttamente oltre metà delle codifiche di topografia e morfologia. Inserita in un processo decisionale riskâbased che tenga conto di soglie crescenti di affidabilità, può consentire di semiautomatizzare o automatizzare con successo una quota significativa delle codifiche topoâmorfo nei registri tumori, riducendo sensibilmente i tempi di registrazione e liberando risorse specialistiche per le attività a maggior valore aggiunto.
Questo strumento, perfezionabile grazie a un arricchimento informativo progressivo, mette gli operatori di sanità pubblica nella condizione di estendere i registri tumori, accelerare la registrazione e fornire stime rapide e affidabili. Ne consegue un rafforzamento della sorveglianza e una maggiore capacità di orientare tempestivamente le politiche di tutela della salute, mantenendo al contempo standard elevati di qualità, trasparenza e riproducibilità.
Conflitti di interesse dichiarati: nessuno.
Finanziamento: questo studio è stato finanziato dal Ministero della Salute nell’ambito del Piano nazionale per gli investimenti complementari (PNC), investimento relativo al sistema “Salute, Ambiente, Biodiversità e Clima” CUP PROGETTO E19I23001260001. Template associato: 231000. Capofila/Proponente: Regione Puglia per il tramite di AReSS Puglia (DGR 1199/2023). Principal Investigator Lucia Bisceglia. Si specifica che l’ente finanziatore (Ministero della Salute) non ha avuto alcun ruolo nella progettazione e conduzione dello studio, nella raccolta, gestione, analisi e interpretazione dei dati.
Authorship: concezione e disegno dello studio: Antonio Giampiero Russo; acquisizione, analisi o interpretazione dei dati: tutti gli autori; stesura del manoscritto: tutti gli autori; revisione critica del manoscritto per contenuti intellettuali rilevanti: tutti gli autori; analisi statistica: Adele Zanfino, Carlotta Buzzoni; finanziamento: Antonio Giampiero Russo; supporto amministrativo, tecnico o materiale: Adele Zanfino, Carlotta Buzzoni; supervisione: Antonio Giampiero Russo, Carlotta Buzzoni.
Bibliografia
- Bouchardy C, Rapiti E, Benhamou S. Cancer registries can provide evidence-based data to improve quality of care and prevent cancer deaths. Ecancermedicalscience 2014;8:413. doi: 10.3332/ecancer.2014.413
- Esteban D, Whelan S, Laudico A, Parkin DM (eds). Manual for Cancer Registry Personnel. IARC Technical Report No. 10. Lione, IARC, 1995. Disponibile all’indirizzo: https://publications.iarc.fr/Book-And-Report-Series/Iarc-Technical-Publications/Manual-For-Cancer-Registry-Personnel-1995 (ultimo accesso: 06.10.2025).
- Parkin DM, Chen VW, Ferlay J, Galceran J, Storm HH, Whelan SL (eds). Comparability and Quality Control in Cancer Registration. IARC Technical Report No. 19. Lione, IARC, 1994. Disponibile all’indirizzo: https://publications.iarc.fr/Book-And-Report-Series/Iarc-Technical-Publications/Comparability-And-Quality-Control-In-Cancer-Registration-1994 (ultimo accesso: 06.10.2025).
- Martos C, Giusti F, Van Eycken E, Visser O. A common data quality check procedure for European cancer registries. European Commission. Ispra, JRC, 2023. Disponibile all’indirizzo: https://www.encr.eu/sites/default/files/Recommendations/JRC132486_cancer_data_quality_checks_procedure_report_2.0.pdf
- World Health Organization. International classification of diseases for oncology, 3rd Edition (ICD-O-3). Ginevra, WHO, 2013. Disponibile all’indirizzo: https://www.who.int/standards/classifications/other-classifications/international-classification-of-diseases-for-oncology (ultimo accesso: 06.10.2025).
- Hofferkamp J (ed). Standards for Cancer Registries Volume III. Standards for Completeness, Quality, Analysis, Management, Security and Confidentiality of Data. Springfield (IL), North American Association of Central Cancer Registries, 2008. Disponibile all’indirizzo: https://storage.googleapis.com/google-code-archive-downloads/v2/code.google.com/ssr-anapath/Standards%20for%20Cancer%20Registries,%20Volume%20III.pdf
- Ministero della Salute. Piano Oncologico Nazionale: documento di pianificazione e indirizzo per la prevenzione e il contrasto del cancro 2023-2027. Disponibile all’indirizzo: https://www.osservatorionazionalescreening.it/sites/default/files/allegati/PON%202023-2027.pdf (ultimo accesso: 06.10.2025).
- Nguyen AN, Moore J, O’Dwyer J, Philpot S. Automated Cancer Registry Notifications: Validation of a Medical Text Analytics System for Identifying Patients with Cancer from a State-Wide Pathology Repository. AMIA Annu Symp Proc 2017;2016:964-73.
- Simonato L, Canova C, Corrao G, Costa G, Tessari R. Ricerca e sviluppo di algoritmi: la definizione di alcune patologie neoplastiche. Epidemiol Prev 2008;32(3) Suppl:94-96.
- Ferretti S, Guzzinati S, Zambon P et al. Stima dell’incidenza del carcinoma mammario attraverso il flusso dei ricoveri ospedalieri: confronto con i dati dei Registri tumori. Epidemiol Prev 2009;33(4-5):147-53.
- Chen HS, Negoita S, Schwartz S et al. Toward real-time reporting of cancer incidence: methodology, pilot study, and SEER Program implementation. J Natl Cancer Inst Monogr 2024;2024(65):123-31. doi: 10.1093/jncimonographs/lgae024
- Langhout SAM, Hermans SJF, Smit AJT et al. Real-time data in cancer registries: Validation of an automated data extraction system. iScience 2025;28(8):113056. doi: 10.1016/j.isci.2025.113056
- Nguyen AN, Moore J, O’Dwyer J, Philpot S. Assessing the Utility of Automatic Cancer Registry Notifications Data Extraction from Free-Text Pathology Reports. AMIA Annu Symp Proc 2015;2015:953-62.
- Martina S, Ventura L, Frasconi P. Classification of Cancer Pathology Reports: A Large-Scale Comparative Study. IEEE J Biomed Health Inform 2020;24(11):3085-94. doi: 10.1109/JBHI.2020.3005016
- Tagliabue G, Maghini A, Fabiano S et al. Consistency and accuracy of diagnostic cancer codes generated by automated registration: comparison with manual registration. Popul Health Metr 2006;4:10. doi: 10.1186/1478-7954-4-10
- Tognazzo S, Andolfo A, Bovo E et al. Quality control of automatically defined cancer cases by the automated registration system of the Venetian Tumour Registry. Quality control of cancer cases automatically registered. Eur J Public Health 2005;15(6):657-64. doi: 10.1093/eurpub/cki035
- Hochreiter S, Schmidhuber J. Long short-term memory. Neural Comput 1997;9(8):1735-80. doi: 10.1162/neco.1997.9.8.1735
- Kaddes M, Ayid YM, Elshewey AM, Fouad Y. Breast cancer classification based on hybrid CNN with LSTM model. Sci Rep 2025;15(1):4409. doi: 10.1038/s41598-025-88459-6.
- Kiser AC, Shi J, Bucher BT. An explainable long short-term memory network for surgical site infection identification. Surgery 2024;176(1):24-31. 10.1016/j.surg.2024.03.006
- Zhang Z, Sabuncu MR. Generalized cross entropy loss for training deep neural networks with noisy labels. Adv Neural Inf Process Syst 2018;32:8792-802.
- Paszke A, Gross S, Massa F et al. PyTorch: an imperative style, high-performance deep learning library. Adv Neural Inf Process Syst 2019;32: 8024-8035. In: Wallach, H., Larochelle, H., Beygelzimer, A., d’Alché-Buc, F., Fox, E. and Garnett, R., Eds., Advances in Neural Information Processing Systems, Neural Information Processing Systems Foundation Inc. (NeurIPS), Vancouver, 8024-8035.
- Pedregosa F, Varoquaux G, Gramfort A et al. Scikit-learn: machine learning in Python. J Mach Learn Res 2011;12:2825-30.
- Sayers A, Ben-Shlomo Y, Blom AW, Steele F. Probabilistic record linkage. Int J Epidemiol 2016;45(3):954-64. doi: 10.1093/ije/dyv322
- Qiu JX, Yoon HJ, Fearn PA, Tourassi GD. Deep Learning for Automated Extraction of Primary Sites from Cancer Pathology Reports. IEEE J Biomed Health Inform 2018;22(1):44-251. doi: 10.1109/JBHI.2017.2700722
- Hammami L, Paglialonga A, Pruneri G et al. Automated classification of cancer morphology from Italian pathology reports using Natural Language Processing techniques: A rule-based approach. J Biomed Inform 2021;116:103712. doi: 10.1016/j.jbi.2021.103712
- Villena F, Báez P, Peñafiel S, Rojas M, Paredes I, Dunstan J. Developing and Validating an Automatic Support System for Tumor Coding in Pathology Reports in Spanish. JCO Clin Cancer Inform 2025;9:e2400124. doi: 10.1200/CCI.24.00124
- US Centers for Disease Control and Prevention. National Program of Cancer Registries. Data Modernization. 2024. Disponibile all’indirizzo: https://www.cdc.gov/national-program-cancer-registries/data-modernization/index.html (ultimo accesso: 06.10.2025).
- Frammartino B, Crocetti E, Buzzoni C, Cereda D, Russo AG. Valutazione dell’appropriatezza della prescrizione del PSA come test di screening opportunistico del carcinoma prostatico: i dati dell’Agenzia di Tutela della Salute della Città Metropolitana di Milano. Epidemiol Prev 2025;49(5-6):415-23. doi: 10.19191/EP25.5-6.001
- Murtas R, Andreano A, Greco MT, Tunesi S, Russo AG. Cancer incidence and congenital anomalies evaluation in the contaminated sites of Sesto San Giovanni – the SENTIERI Project. Ann Ist Super Sanita 2019;55(4):345-50. doi: 10.4415/ANN_19_04_07
- Tunesi S, Bergamaschi W, Russo AG. Estimated number of deaths attributable to NO2, PM10, and PM2.5 pollution in the Municipality of Milan in 2019. Epidemiol Prev 2024;48(1):12-23. doi: 10.19191/EP24.1.A660.001. Erratum in: Epidemiol Prev 2024;48(4-5):388.