strumenti e metodi
Epidemiol Prev 2009; 33 (4-5): 190-192

Per standardizzare i dati senza fatica e in modo standard

Effective and effortless data standardization

  • Cesare Cislaghi1,2

  1. Università di Milano
  2. Agenzia nazionale per i servizi sanitari regionali, Roma.

Riassunto:

La standardizzazione dei tassi o di altri indici è ormai un’operazione comune che non comporta reali difficoltà di calcolo con qualsiasi alternativa metodologica si voglia realizzare.1 Esistono proposte metodologiche più raffinate rispetto ai metodi usuali della demografia classica, quale per esempio la regressione di Poisson, ma per scopi descrittivi i metodi classici sono a nostro parere più che soddisfacenti. Un difficoltà sorge solitamente a causa della noiosità dei calcoli non così immediati soprattutto per coloro che non sono molto agili sul calcolatore. Inoltre, non esiste uno standard di riferimento italiano stabile, per cui ciascuno corregge secondo scelte personali. La proposta qui presentata è molto semplice e quasi banale, ma probabilmente utile ed efficiente: si propone di utilizzare una popolazione tipo italiana e poi di inserire direttamente nei file dei dati i coefficienti di standardizzazione.


  • Se sei abbonato scarica il PDF nella colonna in alto a destra
  • Se non sei abbonato ti invitiamo ad abbonarti online cliccando qui
  • Se vuoi acquistare solo questo articolo scrivi a: abbonamenti@inferenze.it (20 euro)


Popolazione tipo Italia 2000

La popolazione tipo che si propone è una popolazione molto simile a quella del censimento 2001 ma elaborata come le popolazioni proposte 50 anni fa da Segi a livello internazionale.2 Si tratta di una popolazione virtuale di 1.000.000 di abitanti che riproduce similmente i rapporti di composizione per età e genere di quella censuaria, come si può osservare nella figura 1. I valori di questa popolazione tipo e i relativi rapporti di composizione sono riportati in tabella 1.

190-92
Figura 1. Struttura per età della popolazione italiana del censimento 2001 (linee) e della popolazione tipo Italia 2001 (pallini).
Figure 1. Age structure of the Italian population at the 2001 census (lines) and Italian 2001 “standard” population (dots).


Tabella 1. Popolazione tipo Italia 2000.
Table 1. Standard population, Italy 2000.

Calcolo di frequenze standardizzate

Se si applicano ai valori della popolazione tipo i tassi specifici per età di una popolazione reale si ottengono i valori virtuali della frequenza del fenomeno nella popolazione tipo con l’ipotesi che questa si comporti nello stesso modo della popolazione reale.

La somma dei valori è già automaticamente il tasso standardizzato con il metodo cosiddetto diretto in quanto le frequenze sono equivalenti a un tasso per milione di abitanti. Se questa operazione fosse effettuata su tutte le regioni o su tutte le ASL di una regione, e via dicendo, si otterrebbero frequenze diverse non dipendenti né dal totale degli abitanti né dalla struttura demografica delle diverse popolazioni, e quindi subito confrontabili. Si noti il fatto che l’errore campionario rimane legato all’ampiezza delle popolazioni reali per cui, per esempio, se si applicasse la popolazione tipo alle frequenze reali della Valle d’Aosta e della Lombardia, otterremmo un confronto tra due popolazioni di uguale ampiezza, ma l’errore relativo di campionamento sarebbe in Valle d’Aosta circa quasi 10 volte superiore a quello della Lombardia.

 

Inserimento dei coefficienti di standardizzazione nei file dati

Solitamente per standardizzare i tassi, o altri indici, si procede calcolando delle tabelle disaggregate per età (o per età e genere) per poi effettuare su queste i calcoli, con procedura più o meno automatica.

In tabella 2, invece, sono riportati per ogni regione e riferiti all’anno 2007 (limitati alla sola variabile età, e non al genere, per brevità esemplificativa) i coefficienti di standardizzazione calcolati come rapporti tra la popolazione tipo di tabella 1 e la popolazione reale. Questi coefficienti possono essere inseriti direttamente nei file dei record individuali (per esempio di mortalità e di dimissione ospedaliera) abbinando la classe d’età e la regione di residenza. Questi coefficienti possono essere utilizzati come “pesi” di ciascun record, specifica prevista praticamente da tutti i package di analisi statistica; in figura 2 si evidenzia, per esempio, il menù di SPSS. Con questa pesatura dei singoli record si possono ottenere automaticamente delle frequenze standardizzate sulla popolazione tipo leggibili anche come tassi, senza dover eseguire ulteriori calcoli o costruire ulteriori tabelle; ciò permette di leggere output anche complessi con dati standardizzati senza dover sprecare energie di calcolo.


Tabella 2. Coefficienti di standardizzazione regionali relativi alla popolazione globale di entrambi i generi per l’anno 2007.
Table 2. Regional standardization coefficients regarding global population (both sexes together) for 2007.

190-92
Figura 2. Esempio del menù di SPSS per l’uso dei coefficienti come peso dei record.
Figure 2. Example of the SPSS menu for the use of coefficients as weight of the records.

Estendibilità del sistema

Il sistema è qui descritto con i coefficienti regionali del 2007 e considerando come variabile di confondimento solo l’età; lo stesso sistema può essere riferito a qualunque altra popolazione (ASL, Comuni, popolazioni specifiche come i rispondenti della Multiscopo, eccetera) e a qualsiasi altra variabile di cui si conosca la distribuzione nella popolazione (per esempio delle classi di deprivazione per Comune o per area di censimento). Si osservi però che, come già accennato, l’aver riportato tutte le popolazioni non solo alla stessa struttura ma anche allo stesso totale di un milione di abitanti non significa che i valori ottenuti abbiano la stessa precisione statistica. Se per esempio ci sono 100 casi in una popolazione di 100.000 abitanti e 10.000 casi in una popolazione di 10.000.000 di abitanti, il tasso è il medesimo ma l’errore standard relativo poissoniano sarà di 100 ?/100, cioè il 10% nel primo caso e di 10.000 ?/10.000, cioè dell’1% nel secondo, quindi 10 volte inferiore. Queste frequenze, riportate alla popolazione tipo di 1.000.000 diventeranno in entrambe le popolazioni di 1.000 casi, ma l’errore rimarrà sempre del 10% del valore nel primo e dell’ 1% nel secondo, e quindi sempre 10 volte inferiore: con la popolazione tipo noi introduciamo infatti solo delle costanti che non possono modificare la variabilità. Occorre infine avvertire che quando i sistemi diventano semplici e automatici la frequenza degli errori umani aumenta; gli utilizzatori dovranno quindi controllare attentamente i risultati per intuire immediatamente le distorsioni che possono far sospettare la presenza di un errore logico o anche solo di calcolo.

Conclusione

Se questo sistema troverà il necessario consenso soprattutto in merito all’adozione della popolazione tipo, si potrà arrivare ad avere sempre, accanto alle frequenze reali di un fenomeno in una certa popolazione, le frequenze tipo Italia 2000: questo permetterà senza ulteriori calcoli di renderle confrontabili con le frequenze tipo di un’altra qualsiasi popolazione, anche non italiana, mantenendo i valori nazionali simili ai valori reali, cosa che non succederebbe adottando una popolazione tipo europea o mondiale.

Bibliografia

  1. Fleiss J.L. Statistical methods for rates and proportions, 2nd edition. John Wiley and Sons, New York, 1981
  2. Segi M. Cancer mortality for selected sites in 24 countries (1950-57). Department of Public Health, Taboky University School of Medicine. Saudai, Japan, 1960.