I dati occupazionali negli studi analitici e le prospettive di integrazione delle informazioni disponibili attraverso gli archivi amministrativi
Introduzione
La raccolta di informazioni sull’ambiente di lavoro nasce con i censimenti ottocenteschi e con registri amministrativi legati a tasse, servizio militare o registrazioni parrocchiali. All’inizio del XX secolo, si affermarono le prime indagini campionarie e le interviste dirette, che introdussero una sistematicità nella rilevazione delle condizioni occupazionali, dei salari e degli orari di lavoro.1 Questi approcci, basati su rilevazioni sul campo, garantivano un controllo diretto sull’intervistato, ma risultavano onerosi e soggetti a bias di non risposta e di memoria.
Con la diffusione della statistica campionaria e delle tecniche di inferenza (metà XX secolo), emersero indagini standard come le Labour Force Surveys (LFS)2 e le indagini nazionali sulle forze di lavoro. Organismi internazionali come l’International Labour Organization3 promossero standard metodologici e classificazioni di industrie e occupazioni (per esempio, ISCO-08) per rendere confrontabili i dati tra Paesi e nel tempo. Questa fase ha prodotto dataset ufficiali regolari, con definizioni condivise di occupazione, orario di lavoro, permanenza del posto di lavoro, professione eccetera.2
Dalla fine del XX secolo, la diffusione dell’informatica ha determinato la digitalizzazione dei registri amministrativi, includendo informazioni relative a retribuzioni, rapporti di lavoro, tipologie contrattuali, dati contributivi e retributivi. La digitalizzazione e le banche dati hanno progressivamente ampliato la capacità di monitorare in modo continuativo il mercato del lavoro. È diventato possibile monitorare anche informazioni sulla salute, come assenze per malattia, infortuni sul lavoro e utilizzo dei servizi sanitari.
L’analisi dei dati occupazionali è, quindi, intrinsecamente interdisciplinare e può essere utilizzata per comprendere i meccanismi che regolano il lavoro, le disuguaglianze e le dinamiche socioeconomiche.4 Fra le varie discipline, ricordiamo l’economia, la sociologia, la demografia, le scienze politiche e l’epidemiologia. Tuttavia, ogni campo di ricerca si focalizza su aspetti specifici. Per esempio, in epidemiologia, i dati occupazionali possono essere utilizzati per valutare il ruolo specifico dell’occupazione come determinante di salute, ma anche per stimare senza distorsioni il peso della componente di rischio presa in esame (per esempio, esposizione ambientale) tenendo conto del contributo dell’esposizione professionale ad agenti nocivi.5
Con l’emergere delle piattaforme digitali e dei big data, nuove fonti di informazione hanno reso disponibili volumi di dati senza precedenti, favorendo analisi più tempestive e multidimensionali. L’integrazione di questi dati con tecniche di machine learning (ML) e con l’intelligenza artificiale (AI) sta aprendo prospettive rilevanti anche per la ricerca epidemiologica, consentendo l’analisi di fenomeni complessi e l’individuazione di pattern non rilevabili con i metodi tradizionali.
La tendenza più recente è verso approcci ibridi che integrano metodi tradizionali e nuove fonti: indagini campionarie calibrate con dati amministrativi e big data.2,6 Un’evoluzione simile offre vantaggi significativi di tempestività, granularità e capacità analitica, ma pone anche criticità legate alla gestione della privacy e alla sicurezza delle informazioni, con questioni etiche e normative.7
Altra criticità è legata al controllo dei potenziali confondenti dell’associazione fra esposizione occupazionale ed esiti sanitari, come abitudine al fumo e consumo di alcol, generalmente non disponibili negli archivi sanitari e occupazionali. Le indagini epidemiologiche analitiche (particolarmente gli studi di coorte) condotte su campioni di popolazione generale permettono di superare tale limite, fornendo informazioni su esiti sanitari e fattori di rischio di livello individuale, consentendo, quindi, nei modelli di analisi statistica, di poter aggiustare per variabili di confondimento e valutare modificatori di effetto.
In questo ambito, il progetto “Big data e deep learning nella sorveglianza dei tumori professionali” (BEST) ha sperimentato un modello di integrazione di dati occupazionali e sanitari per migliorare l’identificazione del rischio di tumori, in particolare quelli con bassa frazione eziologica.
Nello specifico, si è utilizzato lo studio longitudinale della Regione Lazio, la coorte dei residenti nella regione censiti nel 2011 e seguiti attraverso i sistemi sanitari, integrando le informazioni delle storie lavorative mediante record linkage con l’archivio amministrativo delle storie contributive dei residenti. Questa integrazione di archivi, prevista dalla scheda del Programma Statistico Nazionale (PSN) e approvata annualmente dal Garante della privacy, ha permesso di mettere in relazione gli esiti di salute con i settori in cui le persone hanno lavorato, mettendo in evidenza quelli più a rischio.8-10 Inoltre, si è valutato il contributo dei fattori di rischio individuali sulle associazioni fra esposizione professionale e salute utilizzando i dati di uno studio epidemiologico analitico condotto su popolazione generale (lo studio epidemiologico analitico di Pisa).11
L’obiettivo di questo manoscritto è descrivere le potenzialità delle procedure di record linkage fra archivi di dati occupazionali e sanitari, mettendo in luce al contempo le criticità rispetto ai metodi classici di acquisizione dati tramite intervista.
Metodi
Nel progetto BEST sono stati considerati lo studio longitudinale del Lazio, ovvero una coorte di popolazione generale basata su dati amministrativi, e lo studio epidemiologico analitico di Pisa, ovvero una campione trasversale di popolazione generale indagato con questionari e dati clinici. Per ogni sezione dei metodi si farà riferimento a entrambi gli studi.
Popolazione in studio
Studio longitudinale del Lazio. La popolazione adulta residente nella Regione Lazio, censita all’ultimo Censimento generale della popolazione (2011), è stata seguita attraverso i sistemi informativi sanitari dal 01.01.2012 al 31.12.2020. Ogni individuo è seguito fino alla fine del follow-up o fino a quando non è più assistito dal Sistema Sanitario Regionale (definito come un anno dopo la mancanza di un medico di medicina generale assegnato) oppure fino al momento del decesso. La popolazione dello studio longitudinale del Lazio è costituita da 3.754.270 adulti. Nel progetto BEST, sono stati inclusi gli individui di età compresa tra i 30 e gli 89 anni (età al 01.01.2012) che hanno lavorato in almeno un’azienda privata nel periodo che va dal 1974 al 2011.
Lo studio longitudinale della Regione Lazio ha l’obiettivo di studiare le disuguaglianze socioeconomiche e gli effetti delle esposizioni ambientali sulla salute umana, è parte del PSN (scheda LAZ-00006) ed è approvato annualmente dal Garante della Privacy.
Studio epidemiologico analitico di Pisa. Un campione di popolazione generale, residente nella zona urbana di Pisa e suburbana di Cascina (Toscana), è stato arruolato negli anni Ottanta e seguito fino al 2011 nell’ambito di tre indagini trasversali. Per il progetto BEST, sono stati oggetto di analisi tutti i lavoratori o ex-lavoratori che hanno partecipato alla seconda indagine trasversale (PI2) condotta nel periodo 1991-1993 (n. 2.138, età 15-97 anni), aventi le informazioni più complete sull’esposizione in ambito occupazionale.
Fonti dei dati sanitari e occupazionali
Studio longitudinale del Lazio. Gli esiti considerati in questo studio sono stati la mortalità per tumore maligno e l’incidenza di tumore maligno.
I dati relativi all’incidenza di tumori sono stati raccolti tramite i sistemi informativi sanitari (schede di dimissione ospedaliera – SDO, esenzioni per patologia, chemio o radioterapia, mortalità). Utilizzando sistemi informativi con caratteristiche e informazioni diverse, non è stato possibile identificare la sede del tumore presente solo nelle SDO.
Per la valutazione dell’incidenza di tumore maligno, sono stati esclusi dalla popolazione in studio tutti i casi prevalenti di tumore al 01.01.2012, identificati tramite il codice 048 delle esenzioni per patologia, le SDO con una diagnosi principale o secondaria di tumore maligno, ma anche di chemio o radioterapia nei cinque anni precedenti. Una volta esclusi i casi prevalenti, sono stati identificati i nuovi casi di tumore maligno durante il follow-up.
La mortalità per tumore è stata definita sulla base della codifica della causa di morte (ICD-9 140-208; ICD-10 C00-C97).
Lo studio longitudinale è stato arricchito delle informazioni contenute nell’archivio dei dati contributivi INPS dal 1974 al baseline dello studio (01.01.2012). Il database INPS contiene i dati relativi agli individui che hanno lavorato in un’azienda privata, la durata dell’impiego e il settore in cui hanno lavorato. I settori occupazionali sono stati classificati secondo la classificazione statistica delle attività economiche nell’Unione europea (NACE Rev. 2).12 È stato considerato il settore prevalente al baseline (cioè quello in cui i soggetti hanno lavorato per la maggior parte della loro storia contributiva) e per almeno 12 mesi.
Studio epidemiologico analitico di Pisa. I dati relativi a sintomi/malattie e fattori di rischio individuali sono stati raccolti tramite un questionario standardizzato somministrati da intervistatori.13,14
Gli esiti sanitari considerati sono stati: malattie respiratorie (asma, broncopneumopatia cronico ostruttiva – BPCO – definita come enfisema o bronchite cronica), sintomi respiratori (sibili, attacchi d’asma, tosse o espettorato cronico, dispnea).
Per la valutazione della funzionalità polmonare, tutti i soggetti di età ≤75 anni sono stati invitati a eseguire misurazioni spirometriche (manovra di capacità vitale forzata – FVC) seguendo il protocollo ATS15 tramite uno spirometro a campana (Baires, Biomedin). I risultati spirometrici hanno permesso di valutare la presenza di ostruzione delle vie aeree (OA) valutata in base al criterio del limite inferiore di normalità (AOLLN) del rapporto del volume espiratorio forzato nel primo secondo (FEV1)/FVC16,17 e il criterio della Global Initiative for Chronic Obstructive Lung Disease (AOGOLD, FEV1/FVC < 70%)18.
Inoltre, è stato possibile linkare i dati relativi alle ospedalizzazioni per tumore o per tumore al polmone al 2011 (causa primaria o secondaria).
Attraverso il questionario, è stato possibile definire l’esposizione occupazionale mediante diversi approcci:
1. settore lavorativo nella vita/prevalente; 2. lavoro in settori a rischio per almeno 3 mesi; 3. esposizione regolare a specifici inquinanti occupazionali. Per queste analisi, sono stati presi in considerazione alcuni esempi più significativi relativi ai settori a rischio: agricoltura/industria molitoria; industria mineraria/cave/costruzioni e altro (lavorazione pietra, costruzione di strade, scavo di gallerie, cementifici eccetera); industria meccanica; industria chimica/vernici.
Inoltre, il questionario ha permesso di avere informazioni sui fattori di rischio individuali utilizzati come possibili variabili di confondimento: caratteristiche demografiche e sociali (età, sesso, livello di istruzione); abitudine al fumo; esposizione al fumo passivo; presenza di fonti di inquinamento vicino alla casa di residenza; temperatura percepita sul luogo di lavoro in estate e in inverno (normale, torrida/calda, fredda/fresca); esposizione a combustibili in casa (bombole, kerosene, carbone/olio combustibile, legna, altri); residenza in area urbana/suburbana.
Al momento dell’indagine PI2, la normativa italiana non richiedeva l’approvazione di un comitato etico. Un comitato di revisione interno nell’ambito del Progetto “Medicina Preventiva” del Consiglio Nazionale delle Ricerche ha approvato il protocollo. Lo studio è stato condotto in conformità con i principi fondamentali della Dichiarazione di Helsinki e il consenso informato è stato ottenuto da tutti i soggetti e/o dai loro tutori legali prima della partecipazione all’indagine.
Linkage
Studio longitudinale del Lazio. Il linkage è avvenuto secondo le norme vigenti e come dichiarato nella scheda del PSN. Personale incaricato ha pseudonimizzato l’archivio contributivo INPS e assegnato un codice identificativo parlante con l’identificativo presente nello studio longitudinale, fornendo alle persone incaricate delle analisi dei dati un file pseudonimizzato e con il minimo numero di informazioni necessario.
Studio epidemiologico analitico di Pisa. Per il progetto BEST, nello studio di Pisa non è stato effettuato un linkage fra dataset, in quanto i dati erano già a disposizione dell’unità di ricerca. Sono state comunque effettuate procedure di controllo e pulizia del dato.
Metodi di analisi
Studio longitudinale del Lazio. Sono state studiate le caratteristiche della popolazione selezionata rispetto ai soggetti esclusi, cioè i soggetti non linkati al database INPS. Le caratteristiche associate all’esclusione dallo studio sono state analizzate mediante un modello logistico multivariato. Sono state condotte analisi descrittive sui comparti. Sono stati eseguiti modelli di Cox, con l’età come asse temporale, per analizzare l’associazione tra i comparti e i due esiti considerati (mortalità per tumore maligno e incidenza di tumore), considerando come categoria di riferimento il comparto “Credito e assicurazioni”. Sono state eseguite le analisi inserendo nel modello la diversità dei tassi al baseline tra maschi e femmine.
Gli hazard ratio (HR) sono aggiustati per età (utilizzata come scala temporale) e sesso (modello 1) e per età, sesso, titolo di studio, cittadinanza, e stato civile (modello 2). Sono stati calcolati gli HR e intervalli di confidenza (IC) al 90%.19
Studio epidemiologico analitico di Pisa. Sono state condotte analisi di regressione logistica mediante tre approcci: modello 0. regressione con modelli grezzi; modello 1. regressione con modelli aggiustati per sesso, età, istruzione (in linea con le analisi condotte da INAIL sui propri database); modello 2. regressione con modelli aggiustati per sesso, età, istruzione, abitudine al fumo, fumo passivo, tipo di combustibile per cucinare/riscaldarsi, temperatura sul luogo di lavoro, presenza di fonti di inquinamento vicino alla casa di residenza, zona di residenza (fattori di confondimento selezionati sulla base di evidenze di letteratura). Sono stati calcolati odds ratio (OR) e intervalli di confidenza (IC) al 90%.19 Questi modelli sono stati eseguiti per capire il potenziale contributo dei fattori di confondimento individuali nelle analisi di associazione fra esposizione occupazionale ed esiti respiratori.
Risultati
Studio longitudinale del Lazio. La figura 1 mostra la selezione della popolazione in studio dallo studio longitudinale del Lazio. L’esito del linkage con le storie contributive è stato del 59%. Tale proporzione si è leggermente alzata escludendo i casi prevalenti di tumore nella popolazione di età tra i 30 e gli 89 anni.
La tabella 1 mostra le caratteristiche della popolazione inclusa nello studio (1.963.749 individui) e della popolazione esclusa (1.318.384 individui); inoltre, riporta i risultati dell’analisi sulle caratteristiche associate all’esclusione dallo studio (OR aggiustati per tutte le variabili in tabella). Le caratteristiche associate all’esclusione sono l’aumentare dell’età, il sesso femminile, l’alta istruzione, l’essere straniero e l’essere fuori dal mercato del lavoro al Censimento del 2011.
I settori lavorativi hanno caratteristiche diverse: alcuni sono caratterizzati dalla preponderanza di un sesso rispetto all’altro, da un’età più o meno avanzata o da durate medie di lavoro nel settore diverse.
La figura 2 mostra la distribuzione dei sessi nei diversi comparti. Nella maggior parte dei comparti, in particolare in quelli industriali, si evince la preponderanza di uomini, ma in alcuni settori, caratterizzati dai servizi e dalla cura, si vede la preponderanza di donne.
Esiste, inoltre, una variabilità dell’età media nei comparti, con età sopra i 60 anni nei forestali, negli agricoltori, nella zootecnia o tra i lavoratori degli zuccherifici. Ed esiste una variabilità nella durata media del lavoro in un comparto che va dagli 8 anni tra i parrucchieri ai 25 anni tra i ferrovieri (dati non mostrati).
La tabella 2 mostra l’associazione tra settore prevalente e i due esiti in studio: mortalità per tumore e incidenza di tumore, oltre alla distribuzione della popolazione in studio nei comparti, il numero di decessi per tumore e il numero di nuovi casi di tumore. Il settore del credito e assicurazioni scelto come riferimento appare non privo di rischi, probabilmente dovuti a stili di vita dannosi. Gli hazard ratio presentati in tabella sono aggiustati per età (utilizzata come scala temporale) e sesso (modello 1) e per età, sesso, titolo di studio, cittadinanza, e stato civile (modello 2). I comparti che risultano più a rischio per la mortalità per tumore del settore di riferimento sono il settore alberghiero, quello dell’edilizia, dell’industria alimentare, dei laboratori fotografici e della nettezza urbana. Quando, però, si aggiusta per i potenziali confondenti, solo il settore della nettezza urbana risulta associato a un rischio più alto di mortalità rispetto al settore del credito e assicurazioni. Per quanto riguarda il rischio di incidenza di tumore, i comparti più a rischio di quello di riferimento sono quello del noleggio e magazzinaggio, dell’industria del petrolio e dei trasporti marittimi.
Studio epidemiologico analitico di Pisa. Il campione di lavoratori/ex-lavoratori dello studio PI2 era costituito da 2.138 soggetti (50,1% femmine) di età media 52,6±17,6 con un basso livello di istruzione. Il 60% era fumatore o ex-fumatore, circa il 50% esposto a fumo passivo, a fonti di inquinamento vicino alla casa di residenza e residente in area urbana. L’11% faceva uso di combustibili inquinanti per cucinare o riscaldarsi e il 70% percepiva un ambiente caldo in inverno o in estate sul luogo di lavoro. Per quanto riguarda gli esiti respiratori, il 6,7% riportava asma e il 9,3% BPCO. I sintomi respiratori variavano dal 3% degli attacchi di asma al 26,6% della dispnea. Circa il 12% mostrava un’ostruzione delle vie aeree; il 22% aveva riportato di avere un tumore e il 2,5% aveva avuto un ricovero nella vita per tumore al polmone (tabella 3).
Per quanto riguarda l’esposizione professionale, sono stati selezionati come esempio i seguenti settori a rischio: agricoltura/industria molitoria (11,8%); industria mineraria/cave (7,7%); industria meccanica (10,0%); industria chimica/vernici (4,5%).
La tabella 4 mostra i risultati dei 3 modelli applicati nello studio di Pisa portando in luce come, in base all’outcome e al settore a rischio, la presenza dei fattori di confondimento possa modificare in maniera più o meno rilevante i risultati delle analisi statistiche.
Per esempio, nel settore agricolo evidenti associazioni fra esposizione e outcome sanitari nel modello grezzo diventano non più rilevanti nel modello aggiustato, con una riduzione importante del valore di OR, in particolare per la BPCO e l’ostruzione. Nell’industria mineraria e nell’industria chimica, vengono confermati i risultati nei tre modelli, anche se i modelli aggiustati mostrano OR ridotti.
Nel confronto fra modello 1 e 2, non vi sono differenze importanti, ma si evince comunque il contributo dato dall’aggiustamento completo del modello 2, che tiene conto di importanti fattori di rischio individuali per gli outcome respiratori come l’esposizione al fumo di sigaretta e l’esposizione all’inquinamento ambientale, in particolare per il tumore al polmone.
Discussione
Gli studi analitici considerati nell’ambito del progetto BEST hanno permesso, da un lato, di utilizzare dati amministrativi occupazionali, in particolare le storie contributive, per individuare il comparto prevalente su oltre due milioni di persone; dall’altro lato, di raccogliere tramite questionari informazioni approfondite sulla salute e i fattori di rischio individuali non rilevabili dai dati amministrativi, anche se su un numero più esiguo di partecipanti.
I risultati dello studio longitudinale del Lazio confermano l’efficacia del metodo adottato nel consentire di identificare in modo semplice ed economico gli eccessi di rischio di tumore in alcuni settori occupazionali, come l’edilizia, la nettezza urbana o i laboratori fotografici,8 nonostante le informazioni relative all’occupazione siano limitate alle caratteristiche dell’archivio utilizzato che include esclusivamente il settore privato. Il progetto BEST si è concentrato sull’analisi dell’incidenza dei tumori. Per questo tipo di analisi, i sistemi informativi sanitari non rappresentano sempre una fonte adeguata, poiché talvolta non consentono di identificare con precisione la localizzazione della neoplasia (per esempio, esenzione ticket o trattamenti farmacologici). I dati utilizzati in questo lavoro hanno, quindi, permesso di valutare l’incidenza di tumore senza poterne determinare la sede, portando talvolta a risultati inattesi o confondenti. Queste considerazioni hanno messo in evidenza la necessità di integrare lo studio longitudinale della Regione Lazio con le informazioni provenienti dal Registro Tumori del Lazio, contenente informazioni sulla sede tumorale.
I risultati mostrati nello studio epidemiologico analitico di Pisa portavano alla luce l’importanza della disponibilità di dati relativi ai fattori di rischio individuali nelle analisi di associazione fra esposizione ed esiti di salute per evitare di produrre stime distorte o fuorvianti (sovrastima) dovute a un confondimento residuo e comprendere in maniera più chiara il contributo di tali fattori nelle relazioni fra l’esposizione occupazionale e la salute respiratoria. D’altro canto, è necessario sottolineare alcuni limiti di questo studio, come la mancanza di informazioni dettagliate sull’esposizione occupazionale, non paragonabili a quelle utilizzate nello studio longitudinale del Lazio, e l’utilizzo dei questionari per la raccolta dei dati che può determinare limitazioni significative quali il recall bias (i partecipanti potrebbero non ricordare con precisione). Nonostante ciò, il questionario standardizzato è uno degli strumenti principali utilizzato negli studi di epidemiologia respiratoria20 e la somministrazione da parte di personale addestrato ha permesso di ridurre al minimo il problema dei dati mancanti (<1%). Inoltre, i risultati ottenuti sono stati confermati anche mediante l’utilizzo di test oggettivi, non affetti da potenziali bias, quali la spirometria.
L’aggiustamento statistico per fattori di rischio individuali – attraverso modelli multivariati, analisi stratificate o approcci più avanzati – consente di isolare meglio l’effetto dell’esposizione di interesse, rendendo l’analisi più robusta, affidabile e interpretabile. In assenza di un aggiustamento simile, si rischia di attribuire all’esposizione un effetto che in realtà dipende da differenze individuali non controllate.
Nel campo occupazionale, l’aggiustamento per fattori individuali – in particolare, il fumo di tabacco – è essenziale per distinguere i rischi legati all’ambiente di lavoro da quelli derivanti da abitudini personali. Un importante esempio deriva da uno studio condotto su oltre 15 milioni di lavoratori del Nord Europa, in cui sono stati confrontati i tassi standardizzati di incidenza del tumore della vescica prima e dopo l’aggiustamento per una stima della prevalenza di fumo nelle diverse professioni. Le stime aggiustate risultavano sistematicamente più basse: in molti casi, il rischio, inizialmente elevato nei modelli grezzi, si riduceva sensibilmente o perdeva significatività statistica dopo l’aggiustamento.21 Risultati simili sono stati riportati anche in uno studio caso-controllo su donne dove gli OR di tumore alla vescica per alcune categorie occupazionali si riduceva fino al 40% dopo il controllo per il fumo (per esempio, manifatture prodotti minerali: OR grezzo 4,78 vs OR aggiustato 3,41).22
Questi esempi dimostrano, quindi, che la mancata correzione per confondenti noti può portare a distorsioni significative nella valutazione del rischio professionale.
Nonostante queste evidenze, la raccolta di informazioni sui fattori potenzialmente confondenti non sempre è possibile. In particolare, gli studi di coorte occupazionale in genere non dispongono di dati sui rischi derivanti dallo stile di vita di un individuo, poiché non sono registrati nelle fonti di informazione normalmente utilizzate per costruire le coorti, come i registri tenuti dal datore di lavoro o le misurazioni dell’esposizione. Di conseguenza, il confondimento residuo può distorcere le associazioni esposizione-malattia riportate in questi studi. Inoltre, è stato dimostrato che il confondimento residuo può essere ancora presente anche dopo aver controllato un fattore confondente misurato in modo impreciso.23 Sono stati proposti diversi metodi per stimare la sensibilità delle stime del rischio a fattori confondenti non misurati, ma generalmente richiedono informazioni sulla prevalenza del fattore confondente non misurato, la sua associazione con l’esposizione e il suo effetto sull’esito per “aggiustare esternamente” la stima del rischio originale.23 Da ciò emerge l’importanza di selezionare banche dati in grado di fornire informazioni adeguate e di integrare successivamente i dati provenienti da diverse fonti attraverso tecniche di record linkage, arricchendoli con informazioni individuali raccolte tramite questionari specifici.
Lo studio delle condizioni occupazionali e dei rischi di salute associati al lavoro può basarsi, infatti, su diverse fonti di dati: dati amministrativi, matrici job-exposure (JEM) e interviste ad hoc. Ciascuna fonte presenta vantaggi e limiti che devono essere attentamente valutati, soprattutto in relazione alle criticità metodologiche che possono compromettere la qualità e la confrontabilità delle informazioni raccolte.
I dati amministrativi – provenienti da registri contributivi, assicurativi, anagrafici o fiscali – costituiscono una fonte informativa di grande valore per l’analisi dei fenomeni occupazionali e socioeconomici. La loro principale caratteristica è la copertura pressoché universale: si tratta di dati raccolti su intere popolazioni e non su campioni, il che garantisce una base informativa ampia, continua e spesso completa.24 Un ulteriore vantaggio risiede nei costi contenuti della loro utilizzazione, poiché tali dati derivano da procedure amministrative già esistenti e non richiedono operazioni di rilevazione dedicate. Inoltre, la disponibilità di serie storiche lunghe consente di condurre analisi longitudinali e di monitorare nel tempo le dinamiche del mercato del lavoro e dei comportamenti previdenziali.25 Tuttavia, la loro finalità originaria non è statistica, le informazioni disponibili possono risultare incomplete o non sufficientemente dettagliate per l’analisi occupazionale o della salute lavorativa. A ciò si aggiungono problematiche legate alla tutela della privacy e alle restrizioni di accesso, che possono limitare la disponibilità dei dati per fini di ricerca.6
Le JEM rappresentano strumenti che associano a gruppi occupazionali livelli stimati di esposizione a fattori di rischio chimici, fisici o psicosociali, assumendo che mansioni simili implichino esposizioni comparabili.26 Sono particolarmente utili negli studi epidemiologici su larga scala, poiché riducono i costi e facilitano l’analisi dei rischi professionali. Tuttavia, possono causare errori di classificazione a causa dell’eterogeneità delle condizioni lavorative e tendono a semplificare la variabilità individuale. Inoltre, richiedono aggiornamenti continui per restare affidabili di fronte ai cambiamenti tecnologici e organizzativi.27
Le indagini basate su interviste costituiscono uno strumento fondamentale per la raccolta di informazioni dettagliate sulle mansioni, le condizioni di lavoro e le percezioni individuali dei lavoratori. A differenza delle fonti amministrative, queste indagini consentono di esplorare dimensioni soggettive e psicosociali del lavoro, difficilmente rilevabili con altri approcci, fornendo una prospettiva più completa e multidimensionale dei contesti occupazionali.28 Un ulteriore vantaggio deriva dalla flessibilità nella progettazione dei questionari, che consente di adattare gli strumenti di rilevazione a specifici obiettivi di ricerca rendendoli particolarmente utili per analisi comparative tra gruppi professionali o per la validazione di indicatori psicosociali. Inoltre, potrebbero essere utilizzate per colmare il gap dovuto alla mancanza di informazioni sui fattori di rischio individuali. Tuttavia, queste indagini presentano alcune criticità dovute ai costi di organizzazione e ai tempi di raccolta generalmente elevati, specialmente nei casi di campioni di grandi dimensioni o di indagini multinazionali. Inoltre, possono emergere problemi di non risposta, dovuti al rifiuto di partecipare o all’interruzione dell’intervista, che introducono potenziali bias di selezione. Altri limiti riguardano la sottodichiarazione di attività o esposizioni, spesso legata a errori di memoria o a fenomeni di desiderabilità sociale, che possono compromettere l’accuratezza delle risposte.29
D’altro canto, è bene sottolineare che le fonti dati fin qui discusse permettono di ottenere solo un proxy dell’esposizione occupazionale, senza poter determinare la vera esposizione individuale o quantificarne l’intensità. Sarebbe, quindi, importante integrare queste informazioni con misure provenienti dal monitoraggio ambientale o biomonitoraggio su fluidi corporei.
Il linkage di diversi database sia occupazionali sia sanitari rappresenta oggi una delle frontiere più promettenti della ricerca scientifica.7 Tuttavia, le opportunità offerte da questi strumenti sono associate a notevoli problematiche riguardanti la privacy e la gestione delle informazioni personali. In particolare, i dati sanitari sono sottoposti a protezione per obbligo normativo (General Data Protection Regulation – GDPR – Regolamento generale sulla protezione dei dati dell’Unione europea in vigore dal 25.05.2018), ma anche come dovere etico per preservare la fiducia dei cittadini nella ricerca scientifica.
La privacy del singolo individuo deve essere tutelata e l’utilizzo di dati sanitari per ricerca scientifica non ci esonera da tale obbligo. Nel caso di studi osservazionali retrospettivi, emerge il problema dell’utilizzo dei dati raccolti per scopi diversi rispetto a quanto inizialmente previsto, con la conseguente necessità di ottenere un nuovo consenso dagli interessati per il trattamento dei loro dati, con un enorme costo in termini di tempo e impegno.7
Dal punto di vista metodologico, è fondamentale trovare un equilibrio tra l’accuratezza del linkage e la protezione della privacy. Strategie come la pseudonimizzazione, l’impiego di codici identificativi cifrati o l’inclusione di trusted third parties (terze parti fiduciarie) che cercano di minimizzare i pericoli, tuttavia, generano problematiche legate alla complessità operativa e alla gestione. Sul piano legale, le leggi a livello nazionale ed europeo impongono restrizioni rigorose, che talvolta possono ritardare o limitare l’accesso ai dati da parte dei ricercatori.
Il problema centrale, quindi, è trovare un equilibrio tra il valore sociale della ricerca scientifica e la protezione dei diritti individuali.
Conclusioni
L’evoluzione delle fonti informative in ambito occupazionale e sanitario, dalle indagini campionarie tradizionali ai big data, ha profondamente trasformato le possibilità di analisi epidemiologica e di sorveglianza dei rischi professionali. L’esperienza maturata nel progetto BEST dimostra che l’integrazione di archivi amministrativi e sanitari, mediante tecniche di record linkage, rappresenta oggi uno strumento metodologico di grande valore per lo studio delle relazioni tra esposizione lavorativa ed esiti di salute.
L’uso di dati amministrativi consente di disporre di popolazioni di riferimento ampie e di lungo periodo, favorendo analisi di tipo longitudinale e una maggiore rappresentatività dei risultati. Tuttavia, la mancanza di informazioni sui fattori di rischio individuali – come fumo, abitudini di vita o condizioni ambientali – limita la capacità di controllo dei confondenti e può introdurre distorsioni nelle stime del rischio. In questo senso, gli studi basati su questionari o indagini dirette, come quello di Pisa, offrono un valore aggiunto essenziale, consentendo di integrare la dimensione individuale e comportamentale nei modelli di analisi.
L’integrazione di diverse fonti informative, unita a un solido impianto metodologico e a un attento rispetto delle norme sulla privacy, consente di rafforzare la capacità di identificare e monitorare i rischi professionali, migliorando la qualità dell’evidenza scientifica a supporto delle politiche di prevenzione e di tutela della salute dei lavoratori.
Conflitti di interesse dichiarati: nessuno.
Finanziamenti: questo progetto è stato finanziato dall’Istituto Nazionale Assicurazione Infortuni sul Lavoro (INAIL) nell’ambito del Bando BRiC 2022 (progetto ID 56/2022).
Bibliografia
Groves RM, Fowler Jr. FJ, Couper MP, Lepkowski JM, Singer E, Tourangeau R. Survey Methodology. Hoboken (NJ), Wiley, 2004.
Eurostat. Labour Force Survey Methodology. Luxembourg, Publications Office of the European Union, 2019.
International Labour Organization. International Standard Classification of Occupations (ISCO-08). Ginevra, ILO; 2018. Disponibile all’indirizzo: https://ilostat.ilo.org/methods/concepts-and-definitions/classification-occupation/
Haupt A, Ebner C. Occupations and Inequality: Theoretical Perspectives and Mechanisms. Köln Z Soziol 2020;72:19-40.
Maio S, Gariazzo C, Massari S, Marinaccio A, Viegi G, Annesi-Maesano I. Esposizione ambientale e occupazionale: utilità di un’analisi integrata dei determinanti di salute. Epidemiol Prev 2023;47(6):5-7. doi: 10.19191/EP23.6.S3.002
International Labour Organization. Resolution concerning statistics of work, employment and labour underutilization. Ginevra, ILO, 2018. Disponibile all’indirizzo: https://www.ilo.org/resource/resolution-concerning-statistics-work-employment-and-labour
Aurucci P. Legal Issues in Regulating Observational Studies: The impact of the GDPR on Italian Biomedical Research. European data protection law review 2019;5:197-208.
Bauleo L, Massari S, Gariazzo C et al. Sector of Employment and Mortality: A Cohort Based on Different Administrative Archives. Int J Environ Res Public Health 2023;20(10):5767. doi: 10.3390/ijerph20105767
Cesaroni G, Bauleo L, Zengarini N et al. Settore occupazionale e mortalità respiratoria negli studi longitudinali metropolitani di Roma e Torino. Epidemiol Prev 2023;47(6):67-76. doi: 10.19191/EP23.6.S3.009
Massari S, Bauleo L, Gariazzo C et al. Cancer mortality and sectors of employment: a cohort study in Italy. BMC Public Health 2025;25(1):458. doi: 10.1186/s12889-025-21328-z
Maio S, Baldacci S, Carrozzi L et al. Respiratory symptoms/diseases prevalence is still increasing: a 25-yr population study. Respir Med 2016;110:58-65. doi: 10.1016/j.rmed.2015.11.006
Commissione europea. Nace Rev 2. Statistical classification of economic activities in the European Community. Luxembourg, Office for Official Publications of the European Communities; 2008. Disponibile all’indirizzo: https://ec.europa.eu/eurostat/documents/3859598/5902521/KS-RA-07-015-EN.PDF.pdf/dd5443f5-b886-40e4-920d-9df03590ff91?t=
1414781457000
Viegi G, Paoletti P, Carrozzi L et al. Prevalence rates of respiratory symptoms in Italian general population samples exposed to different levels of air pollution. Environ Health Perspect 1991;94:95-99. doi: 10.1289/ehp.94-1567935
US Department of Health Education and Welfare. In: Proceedings of the First NHLBI Epidemiology Workshop. Washington DC, US Government Printing Office, 1971.
[No authors listed]. Standardization of spirometry – 1987 update. Statement of the American Thoracic Society. Am Rev Respir Dis 1987;136(5):1285-98. doi: 10.1164/ajrccm/136.5.1285
Pellegrino R, Viegi G, Brusasco V et al. Interpretative strategies for lung function tests. Eur Respir J 2005;26(5):948-68. doi: 10.1183/
09031936.05.00035205
Pistelli F, Bottai M, Carrozzi L et al. Reference equations for spirometry from a general population sample in central Italy. Respir Med 2007;101(4):814-25. doi: 10.1016/j.rmed.2006.06.032
Global Initiative for Chronic Obstructive Lung Disease. Global strategy for prevention, diagnosis and management of COPD: 2024 Report. Disponibile all’indirizzo: https://goldcopd.org/2024-gold-report/
Sterne JAC. Sifting the evidence – what’s wrong with significance tests? Another comment on the role of statistical methods. BMJ 2001;322:226-31.
Bakke PS, Rönmark E, Eagan T et al. Recommendations for epidemiological studies on COPD. Eur Respir J 2011;38(6):1261-77. doi: 10.1183/09031936.00193809
Hadkhale K, Martinsen JI, Weiderpass E et al. Occupational variation in bladder cancer in Nordic males adjusted with approximated smoking prevalence. Acta Oncol 2019;58(1):29-37. doi: 10.1080/0284186X.2018.1518591
‘t Mannetje A, Kogevinas M, Chang-Claude J et al. Smoking as a confounder in case-control studies of occupational bladder cancer in women. Am J Ind Med 1999;36(1):75-82. doi: 10.1002/(sici)1097-0274(199907)36:1<75::aid-ajim11>3.0.co;2-o
de Vocht F, Kromhout H, Ferro G, Boffetta P, Burstyn I. Bayesian modelling of lung cancer risk and bitumen fume exposure adjusted for unmeasured confounding by smoking. Occup Environ Med 2009;66(8):502-8. doi: 10.1136/oem.2008.042606
Eurostat. European Statistics Code of Practice. Lussemburgo, Eurostat, 2017. Disponibile all’indirizzo: https://ec.europa.eu/eurostat/web/quality/european-quality-standards/european-statistics-code-of-practice
Wallgren A, Wallgren B. Register-based Statistics: Administrative Data for Statistical Purposes. Wiley 2007.
Kauppinen T, Toikkanen J, Pukkala E. From cross-tabulations to multipurpose exposure information systems: a new job-exposure matrix. Am J Ind Med 1998;33(4):409-17. doi: 10.1002/(sici)1097-0274(199804)33:4<409::aid-ajim12>3.0.co;2-2
Peters S, Vermeulen R, Portengen L. A systematic review of job-exposure matrices developed for epidemiological research. Int J Epid 2015;44(2):379-92.
Groves RM, Fowler Jr. FJ, Couper MP, Lepkowski JM, Singer E, Tourangeau R. Survey Methodology. Wiley 2009.
Tourangeau R, Yan T. Sensitive questions in surveys. Psych Bulletin 2007;133(5):859-83. doi: 10.1037/0033-2909.133.5.859