Post dei blog
06/06/2023

Come fare a capire quando i dati presentano anomalie?

In una situazione epidemica come l’attuale che è di sostanziale stabilità del numero di diagnosi di positività notificate, la presenza di dati anomali può creare false letture. I dati dei contagi Covid che vengono registrati dalle Asl mostrano da sempre una chiara e costante ciclicità settimanale.  Le ragioni di questa ciclicità sono molteplici: meno persone chiedono di eseguire un tampone nei fine settimana e anche pochi laboratori li eseguono nei giorni festivi.  Gli uffici che raccolgono i dati hanno anch’essi spesso delle chiusure nei giorni di festa. E così il lunedì ci sono poche diagnosi registrate, e quindi il martedì raggiungono il massimo raccogliendo la maggior parte anche di quelle non registrate precedentemente. In questi tre anni di pandemia questa ciclicità intra settimanale si è sempre osservata con regolarità in tutte le Regioni, ed è per questa ragione che si preferisce presentare delle medie mobile a sette giorni che eliminano, o perlomeno riducono, questa ciclicità.

Dall'inizio di febbraio 2023 la situazione dei contagi è diventata pressoché stazionaria pur con qualche crescite e con qualche decrescite, al di là di una tendenza generale di lieve diminuzione.

Pur con questa ciclicità costante talvolta avvengono delle anomalie dovute o alla presenza di giornate festive infrasettimanali o a fatti tecnici e organizzativi che hanno determinato dei ritardi nella registrazione dei dati.

È chiaro che se i dati reali fossero tutti i giorni gli stessi ma per tre giorni ci fosse ad esempio una Regione che non trasmettesse i dati, contabilizzandoli poi nei giorni successivi, si avrebbe una situazione come quella descritte nell'esempio seguente in cui le medie settimanali invece che essere uguali avrebbero un andamento apparentemente di  crescita temporanea:

Come fare allora per individuare queste anomalie e poi come fare per stimare un trend non condizionato da loro? Calcolando la variabilità relativa intra settimanale (il coefficiente di variazione, cioè la deviazione standard divisa per la media per i valori di ogni sette giorni successivi).

Se la ciclicità fosse effettivamente sempre uguale di dovrebbe osservare un andamento lineare mentre si osserva alcune una oscillazione, pur limitata, che non sembra sia dovuta solo ad una sua componente casuale.

In realtà si osservano queste anomalie laddove intervengono delle festività infrasettimanali che aumentano la variabilità tra i giorni della settimana in quando durante i giorni festivi diminuisce l'attività diagnostica.

 Nessuna anomalia si osserva a febbraio e marzo 2023, mentre si osserva l'aumento di variabilità dovuta alle festività natalizie e di fine anno 2022e d a quelle pasquali nonché di fine aprile inizio maggio 2023.

Si possono allora calcolare i coefficienti di variazione "mobili" per tutte le Regioni per poi rapportarli ai coefficienti di variazione nazionali. In tal modo si eliminano. le anomalie dovute alla presenza di festività settimanali, presenti sia nelle singole Regioni che nel totale nazionale, ed emergono solo le differenze di variabilità dovute a delle situazioni locali. E' molto improbabile che queste differenze improvvise di variabilità a livello locale, se di una certa intensità, possano essere dovute a differenze nella reale circolazione epidemica e quindi è più probabile che siano da attribuire a delle anomalie nella registrazione dei dati. Di seguito il grafico riproduce gli andamenti dei coefficienti di variazione di alcune Regioni e del coefficiente nazionale (Il grafico è di difficile lettura ma lo si presenta per evidenziare gli andamenti simili tra Regioni).

Calcolando la media della variazione relativa dei coefficienti regionali dai valore nazionale si osserva che ci sono comunque delle Regioni che nell'ultimo anno dell'epidemia hanno mostrato maggiore o minore variabilità delle frequenze nei giorni della settimana.

Il rapporto tra il coefficiente di variazione intra settimanale di un'area e l'analogo coefficiente di variazione di tutta la nazione può considerarsi un utile indice di individuazione di anomalie nei dati.

Naturalmente, come si evidenzia nei grafici, la distribuzione dell'indice risente anche dell'ampiezza della Regione, più è piccola e più ampia può essere la variazione anche casuale dell'indice. 

Può essere allora opportuno correggere ancora l'indice calcolando il rapporto con il 95° percentile della sua distribuzione regionale considerando così un valore anomalo solo nella misura in cui è maggiore del suo 95° percentile, e così facendo si riduce la componente di variabilità casuale ed anche le differenze strutturali di lungo periodo. Al riguardo si osservi i valori della distribuzione di alcune Regioni: il Lazio ha valori sempre molto simili, l'Emilia Romagna ha valori medi molto bassi, la Lombardia invece, pur essendo la Regione di maggior ampiezza demografica, ha un valore minimo tra i più elevati.

Utilizzando questi indici di anomalie corretti per il 95° percentile si osserva, ad esempio per cinque Regioni, un valore molto simile dal 1° all' 11 giugno ed invece delle anomalie dall'11 al 25 giugno.

Queste anomalie fanno sospettare che l'attenzione per la qualità dei dati della pandemia stia diminuendo e quindi crescano disattenzioni ed inconvenienti tecnici.

La perdita di dati può anche far cambiare, seppur solitamente in modo non troppo rilevante, l'immagine della circolazione del virus, come ad esempio succede per l'anomalia della Regione Lombardia che il 24 maggio non ha segnalato nuovi contagi.

Se si osserva l'andamento dell'RDt dei casi di tutta Italia si vede che l'RDt dopo aver raggiunto quota 1 il 23 maggio ha una flessione. Se invece si considera la somma dei casi tranne quelli lombardi si vede che l'RDt cresce sempre sino al 25 maggio.

Può essere quindi utile utilizzare nelle analisi l'indice proposto per rendersi conto se i dati registrati siano affidabili oppure se sia necessario capire se le probabili anomalie riscontrate non creino immagini distorte dell'andamento dell'epidemia ed è ciò che ad esempio .si è fatto per la settimana dal 26/5 al 1°/6.

Esaminando infatti i dati delle nuove diagnosi di positività registrate dal 26/5 AL 1°/6, (a parte la Valle d'Aosta "fuori scala", ma l'esiguità degli abitanti, e quindi della frequenza dei contagi, è la ragione dell'alta variabilità) si osservano anomalie per l'Abruzzo per la Lombardia per il Friuli Venezia Giulia e per la Sicilia, e questi sono i loro andamenti nelle ultime due settimane:

In generale sembra che la tendenza per la maggior parte delle Regioni sia verso un aumento della variabilità e ciò fa sospettare appunto che stia diminuendo la qualità delle rilevazioni.

Riteniamo quindi utile che accanto alle solite analisi si utilizzi anche questo indice delle anomalie per evitare di interpretare in modo scorretto le fasi dell'andamento della circolazione epidemica.

Vai all'articolo su epiprev.it Versione Google AMP