Ci si è più volte permessi di evidenziare alcuni errori nella comunicazione dei dati riguardanti l'andamento dell'epidemia da Covid-19, e ciò nonostante si continuano ad ascoltare le stesse cose tanto che da errori sembra spesso siano diventati veramente degli orrori.

Quando gli amici mi chiedono di scegliere il ristorante per uscire a cena, preferisco la cucina che mi garantisca materie ottime e che sappia cucinarle con eccellente semplicità, mentre solitamente evito locali dove si propongono ricette elaborate con nomi accattivanti ma poi, al gusto, spesso non gratificanti.

Lo stesso credo sia per le analisi epidemiologiche da scegliere: i dati migliori possibili e i metodi più semplici ma usati con competenza e saggezza. Spesso invece le analisi eleganti ed elaborate lasciano molti dubbi se non addirittura risultano fuorvianti. Quindi la regola credo debba essere partire dal semplice per poi, quando serve, raffinare anche complicando l'analisi, ma solo per eliminare dubbi o confondimenti.
E allora è opportuno evidenziare ancora i frequenti errori che vengono spesso presentati diffondendo immagini distorte dell'andamento dell'epidemia.

Ignorare la ciclicità settimanale

mac1.png

Le frequenze dei contagi vengono determinate attraverso il conteggio dei test con tampone, sia molecolari sia antigenici, che danno esito positivo. Si deve innanzitutto considerare che i dati non riguardano il giorno stesso in cui vengono diffusi verso sera, ma per lo più la giornata precedente.

Durante i fine settimana l'attività di somministrazione dei tamponi diminuisce e soprattutto diventano proporzionalmente più diffusi i tamponi eseguiti per un quesito diagnostico di sintomatici rispetto ai  i tamponi invece eseguiti solo per certificare la propria negatività ai fini di svolgere diverse attività. Si eviti così di dire ad esempio che il lunedì i contagi sono diminuiti e magari che il giovedì sono aumentati. La stessa ciclicità riguarda comunque anche i decessi e certo non perché si muore meno la domenica del venerdì, ma solo perché l'invio dei dati dei decessi in alcune realtà comunali non è attiva durante i fine settimana. Quindi utilizziamo delle medie mobili a sette giorni così eliminiamo questa ciclicità settimanale e non interpretiamo male la variabilità delle frequenze giornaliere.

Non dividere per i denominatori

Troppe volte si sono ascoltate delle classifiche per numero di contagi delle Regioni! sembra quasi impossibile, e per questo lo chiamiamo "orrore", non rendersi conto che le Regioni hanno tra di loro un numero molto diverso di abitanti (la Lombardia ha quasi cento volte gli abitanti della Valle d'Aosta) e quindi non ha alcun senso confrontare i numeri assoluti! Questo il grafico delle Regioni per numero di contagi da giugno ad agosto 2021 e il grafico per numero di abitanti, entrambi in ordine di valore:

due.png

 

Ovviamente la correttezza consiste nel presentare sempre il rapporto tra contagi e popolazione, cioè l'incidenza; una diversa modalità può essere quella di calcolare le percentuali per Regione sia dei contagi sia della popolazione e calcolarne il rapporto che coincide comunque con il rapporto tra incidenze e può essere letto come rischio relativo di contagiarsi per residenza regionale.

tre.png

Si osservi che in entrambi questi grafici le Regioni sono in ordine crescente di rischio relativo dove il valore 1 è l'Italia e nel primo grafico si vede come a sinistra le percentuali delle popolazioni siano spesso superiori a quelle dei contagi e viceversa a destra.

Confondere incidenza e prevalenza

Non sembra che tutti quelli che parlano di Covid abbiano dimestichezza con il concetto di incidenza (cioè relativo ai nuovi casi) e di prevalenza (cioè relativo ai casi presenti contemporaneamente).  La confusione nasce soprattutto in relazione ai ricoveri ospedalieri per i quali la Protezione Civile rilascia solo il dato di prevalenza e non quello di incidenza. E' bene ricordare che il valore della prevalenza puntuale è dato dalla somma di tutti i ricoveri precedenti meno la somma di tutte le dimissioni avvenute (vuoi per guarigione vuoi per decesso), e corrisponde chiaramente al concetto di "occupazione di posti letto".

Se si esaminano i ricoveri in terapia intensiva, di cui fortunatamente si hanno i dati sia di incidenza che di prevalenza, si vede che, come ci si può aspettare, la curva delle dismissioni segue quella delle ammissioni. Se poi si dividono le frequenze delle ammissioni e quelle delle prevalenze per le rispettive medie di tutto il periodo, in modo da ottenere la stessa scala con cui confrontarle, si osserva che la curva delle prevalenze si avvicina a quella delle dismissioni, e però avrebbe ben poco senso osservare la curva delle differenze di prevalenza qui posta al centro dei tre grafici.

quattro.png

Osservando la differenza tra le curve normalizzate (ottenute come detto dividendo le frequenze per le medie della loro serie) si osserva come la possibile stima del massimo della curva dell'incidenza precede di circa due settimane il massimo della curva della prevalenza e questo succede perché appunto la prevalenza diminuisce solo quando le dismissioni superano le ammissioni. Ciò dovrebbe far riflettere sull'opportunità di utilizzare indicatori di prevalenza, cioè di occupazione di posti letto, per assumere misure di intervento a contenimento dell'epidemia.

cinque.png

Attribuire i decessi alla data di morte

Un altro "orrore" che si deve sopportare di ascoltare o di leggere  è quello di ragionare sulla frequenza dei decessi come se la letalità dipendesse da quanto successo nel giorno stesso. La letalità è la percentuale dei decessi tra coloro che hanno contratto una patologia mentre si utilizza il termine mortalità per rapportare i decessi al totale della popolazione, sia malata che sana.
Gli andamenti dei casi di positività e di decessi dovuti a Covid dal 1° gennaio 2021 sembrano essere tra di loro simili e subito suggeriscono che non è corretto valutare i decessi se non si valutano contemporaneamente ai contagi.

sei.png

Ma se, come già qui fatto per altri dati, si normalizzano le scale delle frequenze dividendo per le medie delle intere serie, ci si accorge che le due curve non si sovrappongono, ma quella dei decessi segue di circa due settimane quella dei contagi. Infatti il numero medio di giorni tra una diagnosi ed un decesso è appunto pari a quello di due settimane ed allora se si fa una traslazione in avanti della curva dei decessi si ottiene una maggior sovrapposizione. Si vede peraltro che ciò non succede esattamente nel mese di agosto e la probabile spiegazione è che da allora si è quasi dimezzata la letalità, e ciò per due ragioni: per la minor età dei positivi e per la maggior frequenza tra i positivi di soggetti vaccinati.

sette.png

Per questo motivo una stima più corretta della letalità la si può ottenere, ad esempio, dividendo il numero dei decessi per il numero dei positivi di 13 giorni prima, avendo calcolato appunto in tredici giorni la media della distanza tra diagnosi e decesso.

otto.png

Confondere i diversi utilizzi dei test con tamponi

Non ritorniamo su questo punto su cui si è appena pubblicato un post al riguardo (vedi post in MADE in blog). Si consideri solo che non ha alcun senso parlare di "tasso di positività" in quanto il rischio a priori di coloro che fanno richiesta di un test cambia notevolmente sia per giorno della settimana, in quanto ad esempio negli WE spesso le farmacie non li eseguono, sia da una settimana all'altra. L'introduzione del Green Pass, ad esempio, ha già fatto aumentare notevolmente la percentuale di soggetti "sani" che chiedono il tampone solo per poter dimostrare la loro pur momentanea negatività.

Diversamente sarebbe se si facessero dei tamponi a campioni casuali della popolazione ovvero se si riuscisse a connotare i tamponi per i diversi obiettivi per cui sono stati eseguiti.

Credere che sia sempre meglio la data di inizio sintomi della data diagnosi

Si è più volte messo in evidenza come vi sia una fortissima correlazione tra le frequenze per data di diagnosi e le frequenze per data di inizio sintomi.

Analizzando i dati forniti da Epicentro (https://www.epicentro.iss.it/coronavirus/open-data/covid_19-iss.xlsx), si può confrontare l'andamento delle frequenze per data diagnosi e per data inizio sintomi, anche nelle loro medie mobili settimanali.nove.png

Sono naturalmente maggiori le frequenze per data diagnosi perché comprendono anche i casi di soggetti positivi asintomatici. Normalizzando le frequenze per la loro media gli andamenti delle due serie di dati sono molto simili sopratutto se si fa una traslazione in avanti di tre giorni dei dati per diagnosi che sembra essere mediamente il tempo che trascorre tra i primi sintomi e la diagnosi.

dieci.png

L'insistenza a voler considerare "esclusivamente" i dati per inizio sintomi (elaborando l'indice Rt) invece che affiancare anche l'analisi per data diagnosi (elaborando l'indice RDt) forse si motiva con la supposta esigenza di maggior rigorosità scientifica dato che laddove si ha la data di inizio sintomi si è più certi della data del contagio normalmente valutata di circa sette giorni prima.

Ma questa insistenza fa sì che la valutazione della crescita, o della diminuzione, dell'accelerazione dell'espansione dell'epidemia subisce un notevole ritardo. Si veda infatti quali sono le frequenze delle ultime tre settimane nei dati forniti da Epicentro.

undici.png

Se i dati per data diagnosi comunicati il 16 settembre da Epicentro e dalla Protezione Civile trovano tra loro quasi coincidenza se riferiti alla data del 1° settembre, negli ultimi giorni variano invece  moltissimo e i dati di Epicentro sono chiaramente sottostimati. Infatti questi dati derivano da due flussi differenti: quelli di Epicentro da un flusso di dati individuali e quelli della Protezione Civile da un flusso di dati aggregati per Provincia e Regione.

La necessità poi di aver dati completi per inizio sintomi fa si che si debbano aspettare diversi giorni perchè il dato arrivi ad un buon livello di completezza in quanto talvolta la diagnosi viene richioesta ed effettuata anche divertsi giorni dopo l'inizio sintomi.

Questo è il motivo per cui, dato che a regime si verifica che i due flussi sono sufficientemente convergenti, sarebbe opportuno elaborare gli indici più urgenti con i dati più tempestivi per poi averne anche solo dopo conferma con i rimanenti. Perdere una decina di giorni per ottenere una informazione rilevante che può consistere in un allarme, può essere di grande nocumento per la possibilità di fare in tempo ad intervenire efficacemente.

Conclusione

Si sono elencati qui alcuni dei possibili errori di comunicazione e/o di analisi che possono diffondere immagini distorte dell'andamento dell'epidemia da Covid-19.

Per evitare questi errori non occorrono raffinate capacità statistiche e modellistiche, anzi talvolta queste, se mal applicate, aumentano il livello delle distorsioni.

Occorre semplicemente un po' di linearità di analisi ed anche di disponibilità ad ascoltare i suggerimenti che spesso vengono dati da alcuni esperti perchè si evitino questi orrendi errori. Grazie quindi a chi, commentatori giornalisti ed opinionisti, vorrà cercare di evitarli nel prosieguo di questa epidemia che sembra non poter terminare così presto!

       Visite