supplemento
Epidemiol Prev 2016; 40 (5): 55-64

L’analisi statistica dei cluster in epidemiologia

Cluster statistical analysis in epidemiology

  • Patrizia Schifano1

  • Michela Leone1

  • Paola Michelozzi1

  1. Dipartimento di epidemiologia del Servizio sanitario regionale, ASL Roma 1, Regione Lazio, Roma
Patrizia Schifano -

Scarica l'articolo Free FULL TEXT

L’analisi statistica rappresenta un punto critico nello studio dei cluster, poiché non esiste una metodologia in grado di tenere conto di tutti gli aspetti di un ambito così complesso. Proprio per questo è importante definire un approccio di analisi standardizzato che possa essere utilizzato quando è necessario rispondere all’allarme della popolazione di fronte a un sospetto cluster di malattia. In questo lavoro si propone una possibile strategia di analisi statistica di cluster e se ne discutono le principali limitazioni e i punti di forza. A questo scopo si porta come esempio l’analisi spaziale di cluster dei casi di leucemia linfoide acuta (LLA) diagnosticati tra il 2000 e il 2011 nei bambini residenti a Roma. I casi sono stati selezionati attraverso il record linkage di tre database sanitari correnti che sono stati georeferenziati a tre diversi livelli di aggregazione spaziale: i distretti (D), le zone urbanistiche (ZUR) e le sezioni di censimento (SC). Sono stati calcolati i rapporti standardizzati di incidenza (SIR) per le ZUR, utilizzando come riferimento il tasso medio di incidenza di LLA di Roma, e si è poi applicato il modello di smoothing di Besag-York-Mollie (BYM). Si è utilizzato il test di Tango per testare la tendenza generale al clustering e i test di Besag e Newell e di Kulldorf e Nagarwalla per verificare la presenza di cluster localizzati. Entrambe le analisi sono state condotte sia per l’intera area del comune di Roma, utilizzando le ZUR come unità areali, sia per alcuni distretti, utilizzando le SC come unità. Sono stati identificati 194 casi di LLA nella fascia di età 0-14 anni (incidence rate – IR: 43,7x1.000.000). I SIR variavano tra 0,00 e 18,1 tra le diverse ZUR e, dopo l’applicazione dello smoothing, si è riscontrato un eccesso significativo di casi solo in 3 distretti. Nell’analisi sull’intera area di Roma non si è identificata una tendenza al clustering, (p-value di Tango: 0,08) mentre entrambi i test per il clustering localizzato sono risultati significativi in uno dei tre cluster con i SIR più alti. Infine, a livello di distretto sono stati identificati 7 cluster nei 3 distretti con i più alti SIR. I risultati ottenuti indicano la presenza di cluster localizzati in alcune aree di Roma, visibili solo utilizzando la SC come unità areale. La procedura di analisi proposta può rappresentare uno strumento utile per gli operatori di sanità pubblica.

Parole chiave: analisi spaziale, leucemie infantili, cluster, clustering, test di Tango

Statistical analysis represents a critical point in cluster analysis, because a methodology able to take into consideration the complexity of this analysis has not yet been developed. However, a common approach in statistical analysis of a suspected cluster is a necessary tool for public health operators who have to face population worries and requests. We propose an approach for the analysis of clusters and discuss the main limitations and strengths of the used methods. To this aim, we present, as a case study, the spatial clustering analysis of acute lymphoblastic leukaemia (ALL) cases among children in Rome between 2000 and 2011. Cases were selected through a record linkage of three different health and administrative current databases. Cases were geocoded at 3 spatial resolutions: 20 districts (D), 155 neighbourhoods (NB), and 5,812 census areas (CA). Indirect standardized incidence ratios (SIR) were computed for the NBs with Rome average incidence rate (IR) of ALL as reference and then smoothed by Besag-York-Mollie (BYM) model. General clustering was tested by Tango statistics, whereas localized clustering was detected through two different statistics: Besag and Newell’s, and Kulldorf and Nagarwalla’s. Both general and local clustering were tested at city level, using NBs as area units, and at district level, using CAs as area units. We identified 194 ALL cases in the 0-14 age group (IR: 43.7x1,000,000). SIRs ranged between 0.00 and 18.1 among NBs. After smoothing, a significant excess of cases was identified only in 3 Ds. At city level, no general clustering was highlighted (Tango’s test p-value: 0.08), while both tests for local clustering were significant in one of the 3 Ds with the highest SIRs. Finally, at district level, although no general cluster was founded, a total of 7 clusters were identified in the 3 Ds with the highest SIRs, each cluster being composed by a number of cases ranging between 2 and 6. Results indicate the presence of clusters in some areas of Rome, which are evident only when the finest spatial resolution is used. This standardised procedure is an important tool to properly analyse potential clusters.

Keywords: spatial analysis, childhood leukaemia, cluster, clustering, Tango’s test