Rubriche
05/06/2012

Errori nell’identificativo personale e conseguenze sulle stime di prevalenza con record linkage

, ,

La disponibilità di data base amministrativi ricchi di informazioni e i cui dati individuali relativi alle prestazioni usufruite sono riferibili tramite un identificativo ai differenti soggetti consente di arrivare a stimare alcune misure epidemiologiche prima difficilmente ottenibili con altri metodi se non attraverso indagini ad hoc o sistemi complessi e onerosi come i registri di patologia.

L’utilizzo principale finora attuato è quello della stima di prevalenza ottenuta con il linkage di tutte le prestazioni usufruite dai soggetti malati, siano queste ricoveri, visite, esami, farmaci, esenzioni eccetera. Ci sono ormai numerosissimi esempi in letteratura delle potenzialità di questo approccio che sicuramente arricchisce la conoscenza, ma che ha bisogno di essere approfondito per mettere in evidenza problemi e potenzialità. In particolare, in questo contributo (per via della sua collocazione in una specifica rubrica) metteremo l’accento sui problemi insiti in questo approccio per evidenziare gli eventuali granchi che il ricercatore può prendere. La realtà, come sempre del resto, è sicuramente più complessa di quella che qui di seguito presentiamo, ma (come è già successo nei contributi precedenti) un esempio semplificato può servire a meglio comprendere le possibili distorsioni nei risultati cui questo approccio può dare luogo.

Abbiamo posto l’attenzione sulle conseguenze che può avere un errore di registrazione dell’identificativo personale, solitamente il codice fiscale, che viene rilevato con diverse modalità, ciascuna associata probabilmente a una differente probabilità di compiere un errore. La modalità più sicura è oggi quella della registrazione elettronica del codice tramite la tessera sanitaria. Questa modalità non dovrebbe comportare praticamente errori se non quelli molto rari dovuti a un “rumore” informatico, ma può anche accadere, per errore o per dolo, che venga utilizzata una tessera differente rispetto a quella dell’utente della prestazione. La seconda modalità è la copiatura del codice da un documento o la dettatura dello stesso da parte dell’utente. Qui la probabilità di errore è molto più elevata e se può essere stimato come “fisiologico” 1 errore su 1.000 caratteri ricopiati, ciò significa che 1 codice fiscale su 62,5 verrebbe registrato con un digit errato. Molto più probabili ancora sono poi gli errori nel caso in cui il codice fiscale venga ricostruito a partire dai dati anagrafici del soggetto a loro volta molto spesso registrati in modo erroneo. Assumere perciò, come ipotesi, delle soglie di errore dell’1%, del 5%, o ancora maggiori (10%,…) sembra piuttosto ragionevole. Alcune verifiche effettuate sul campo hanno indicato la vicinanza della realtà a queste ipotesi anche se, ovviamente, il diffondersi della registrazione elettronica riduce considerevolmente la probabilità di errore.

Che succede se viene compiuto un errore su un digit del codice fiscale? Teoricamente i codici composti da 9 lettere alfabetiche e da 7 cifre sono pari a un numero molto elevato (219 x 107, cioè circa otto miliardi di miliardi) e la probabilità che un errore casuale porti a identificare uno dei circa 60milioni di codici esistenti è pari a circa 7-12, cioè un valore molto basso. Anche se in realtà la probabilità di creare con un errore un altro codice esistente non dipende da una distribuzione totalmente casuale, si può comunque assumere che un errore su un codice produce un identificativo inesistente e quindi induce a considerare la presenza di un altro soggetto in realtà inesistente.

Figura 1. Relazione tra percentuale di assistiti e numero di prescrizioni erogate in una ASL Lombarda. Figure 1. Relationship between percentage of population and number of prescriptions, in a Local Health Unit of the Lombardy Region (Italy).

Quali e quante sono le informazioni che, per esempio in un anno, vengono registrate dal sistema sanitario a carico dei singoli soggetti? Nella figura seguente riportiamo i dati relativa a una ASL lombarda presa come esempio di ciò che ragionevolmente si può verificare sia a livello regionale sia nazionale.

Si considerano qui come “prescrizioni singole o multiple” le prescrizioni che generano un singolo record dei file amministrativi e che possono comprendere l’indicazione di una o più prestazioni (per esempio più farmaci, più esami di laboratorio eccetera).

Tabella 1. Effetto, assoluto e percentuale, dell'errore di identificazione individuale dei soggetti. Table 1. Absolute and relative effect of errors in personal identification codes.

A parte qualche soggetto che risulta aver ricevuto nell’anno un numero straordinario (ben 503 nell’esempio) di prescrizioni, e che potrebbe a sua volta essere frutto di errore di codice fiscale, solo l’1%ha ricevuto più di 80 prescrizioni, il 19% ne ha ricevuta una sola, quasi la metà degli assistiti ha ricevuto 5 prescrizioni: in media gli assistiti hanno ricevuto 12,3 prescrizioni annue.

Assumendo che queste prescrizioni corrispondano esattamente a tutti i soggetti indicati dal codice fiscale a loro associato, possiamo considerare il loro totale come stima di tutti gli assistiti dell’ASL rimanendo non compresi solo gli assistibili che non abbiano avuto nell’anno alcuna prestazione.

A questo punto potremmo chiederci cosa succederebbe se su questi dati, considerati veri e senza errore, applicassimo un errore di identificativo dell’1%, del 5% o del 10%. Con un errore dell’1% la prevalenza di soggetti consumatori crescerebbe del 12%, con un errore del 5%la prevalenza crescerebbe del 61% e con un errore del 10% addirittura del 121%, cioè sarebbe più del doppio della realtà!

Tabella 2. Effetto percentuale dell'errore di identificazione individuale dei soggetti in funzione del numero di prestazioni erogate per soggetto. Table 2. Relative effect of errors in personal identification codes, according to number of services used by each subject.

L’errore nella stima della prevalenza dipende quindi sia dalla frequenza di errori dell’identificativo del soggetto sia dal numero di prescrizioni annue (o del periodo considerato) di ogni soggetto: la tabella seguente riporta esemplificativamente questi valori. Come si può osservare, si tratta di valori tutt’altro che insignificanti e che, soprattutto, risultano molto maggiori rispetto all’errore percentuale dell’identificativo.

Ciò premesso, qual è il “granchio” che si può prendere (e che in realtà si è già visto qui e là sgambettare)? È quello di pensare che l’errore nella prevalenza sia dello stesso ordine di grandezza dell’errore presente nell’identificativo, per cui, per esempio, a un errore del 5% sulla registrazione del codice fiscale si fa corrispondere all’incirca un errore del 5%anche nella stima della prevalenza, ma così, ahimè, non è!

Come fare per evitare di prendere questi granchi? Innanzitutto cercando di limitare (o meglio, evitare) gli errori di registrazione degli identificativi personali, anche se sovente questo è al di fuori della portata dell’intervento dell’epidemiologo che effettua l’analisi perché rientra invece nei compiti di chi gestisce e controlla il sistema informativo.

Sul fronte di chi analizza i dati si può cercare di ovviarvi adottando alcune scelte di elaborazione: il caso più tipico è quello dell’esclusione di tutti i soggetti che non risultino presenti nell’anagrafe degli assistiti. Ogni scelta analitica introduce problemi e opportunità: si tratta di valutarli/e e di esaminare se danno luogo a bias superiori o inferiori a quelli sopra descritti.

Purtroppo in molte realtà non ci si può affidare a un’anagrafe degli assistiti e quindi si deve ragionare solo sui dati delle prescrizioni: in questo caso, per esempio, se la patologia in esame è di tipo cronico rilevante si potrebbe ipotizzare che nessun soggetto credibilmente possa avere una sola prestazione (di qualsiasi tipo) durante l’anno (fatta eccezione per qualche caso particolare, quale un ricovero con decesso ospedaliero), il che porterebbe a escludere dall’analisi tutti i soggetti che compaiono solo una volta (o che compaiono un numero di volte tanto piccolo da essere ritenuto inferiore a un valore minimo per quella patologia).

In conclusione. L’esempio descritto dimostra che il bias che può derivare dal linkage tra archivi fondati su identificativi individuali non è marginale, non é dell’ordine di grandezza dell’errore di registrazione dell’identificativo (spesso inferiore al 5%),ma può diventare molto più elevato e portare a conclusioni anche molto lontane dai valori reali. Poiché il problema è serio e può essere originato/affrontato a diversi livelli (raccolta dei dati, gestione degli archivi, linkage delle informazioni, scelte di analisi,…) occorre che chi intende adottare i sistemi di analisi che l’esempio ha prefigurato metta in campo tutte le iniziative che possono servire a evitare di farsi catturare dai granchi qui descritti.

Approfondisci su epiprev.it Vai all'articolo su epiprev.it Versione Google AMP