Data diagnosi vs data primi sintomi: quale usare?

Per analizzare l'evoluzione della circolazione di una agente infettivo è essenziale riuscire a stabilire quale sia stata la data dei contagi, ma non c'è nessuna possibilità di rilevare direttamente il momento del contatto dell'agente infettivo con la persona. Ciò che si può rilevare è allora con precisione la data di certificazione della diagnosi, e su ricordo anamnestico la data di inizio dei sintomi. La latenza tra l'inoculazione del virus Sars-Cov-2 e l'inizio dei sintomi è valutata in media a poco più di sei giorni con una distribuzione di tipo Gamma come illustrato in figura:

La diagnosi invece può dipendere da vari fattori e primo tra tutti della decisione del soggetto di sottoporsi ad un test con tampone. La decisone può derivare però al sospetto di positività dovuta vuoi a sintomi vuoi a contatti con contagiati, ma anche a obblighi di certificazione della propria negatività richiesta, ad esempio per viaggiare o per accedere al luogo di lavoro o altro. Sicuramente, pur a parità di diffusione del virus, più test di tamponi vengono eseguiti più soggetti positivi vengono evidenziati. Per questo motivo è molto poco informativo il cosiddetto indice di positività calcolato come percentuale dei tamponi che hanno dato esito positivo, perché il suo valore dipende soprattutto dalla probabilità che un soggetto positivo si sottoponga a diagnosi e non solo dalla probabilità che il tampone dia esito positivo.

Questa incertezza dei dati sulla effettiva incidenza dei contagi potrebbe essere risolta con ripetute rilevazioni della prevalenza di soggetti positivi su campioni significativi di popolazione. Qualcosa del genere viene effettuato ad esempio in Inghilterra ed i risultati indicano sempre valori più elevati di quelli desumibili dai positivi ai test diagnostici forniti dai laboratori e dalle farmacie. Una possibilità alternativa sarebbe stata quella di valutare la percentuale di positivi tra la popolazione, distinta per età e genere, che si presenta in ospedale con motivazioni e sintomi sicuramente non collegabili con un possibile stato di positività.

Si ritiene allora che rifacendosi solo ai soggetti positivi che dichiarano sintomi compatibili con il contagio da virus si aumenta la precisione riducendo necessariamente così la percentuale di falsi negativi che non vengono diagnosticati, in quanto si può supporre che tutti, o quasi, i soggetti sintomatici chiedano di essere sottoposti a tampone. Ciò però è stato vero sino agli ultimi mesi del 2022 quando invece è aumentato moltissimo l'uso dei cosiddetti tamponi "fai da te" che hanno portato molti positivi autodiagnosticatisi a non. denunciare la propria positività per evitare le limitazioni conseguenti previste per i positivi, seppur molti di costoro probabilmente vi si sono spontaneamente adeguati.

Ma se l'incertezza dell'incidenza, e quindi della prevalenza, è stata elevata tanto che diversi osservatori ne hanno ipotizzato valori reali doppi o tripli, invece un indicatore che è meno sensibile a queste incompletezze è quello che valuta l'intensità di sviluppo dell'epidemia. Si può infatti ritenere che nel breve periodo la percentuale di completezza delle diagnosi rimanga costante e quindi non influisca sulla misura dell'accelerazione della velocità di diffusione, tranne quando è intervenuta una misura di contenimento, come la normativa associata al Green Pass, che può avere modificato sostanzialmente la percentuale di completezza delle diagnosi.

Per tutte queste ragioni si è dato molto valore agli indici di sviluppo come l'R_t che l'Istituto Superiore di Sanità comunica settimanalmente, o l'indice RDt da noi proposto e reso disponibile quotidianamente nel nostro sistema MADE che abbiamo elaborato per l'Associazione Italiana di Epidemiologia e per la rivista Epidemiologia & Prevenzione.

L'indice Rt viene calcolato sui soli dati dei sintomatici e attraverso il rapporto tra le frequenze osservate a distanza media del periodo stimato di latenza tra contagio e sintomi, e considerando la loro distribuzione stimata da una funzione Gamma. Il calcolo pur non complesso e realizzabile con procedure disponibili ad esempio su linguaggio "R", non è però così immediato e fattibile anche da chi non è solito ad usare strumenti di analisi statistica.

Il calcolo invece dell'RDt è molto semplice in quanto si limita a calcolare il rapporto tra le frequenze di un periodo con le frequenze di un periodo immediatamente precedente di ugual durata. L'indice può essere calcolato sia sulle diagnosi che sui sintomi (RSt), sia sui ricoveri (RHt) o sui decessi (RMt).

I dati più tempestivi resi disponibili sulla piattaforma fornita dalla Protezione Civile, e oggi ripresa dal Ministero della Salute, sono le frequenze aggregate delle diagnosi registrate di positività a livello nazionale, regionale e provinciale. Un serio problema di queste frequenze è la loro ciclicità settimanale che risente dei turni di apertura di laboratori e farmacie, che non sono disponibili ad effettuare test con tamponi nei giorni di loro chiusura, per lo più nei sabati e domenica, come si evidenzia nei grafici seguenti in cui le uniche irregolarità dipendono dai giorni festivi intra settimanali, e calcolando le medie mobili a sette giorni si può ben stimare l'andamento giornaliero effettivo delle diagnosi di positività.

Una vera fortunata opportunità di calcolo è la coincidenza della latenza tra contagio e sintomi e la durata della ciclicità, entrambe praticamente di sette giorni; per questa opportunità l'indice RD_t può essere calcolato come indice RD7_t, cioè come rapporto giornaliero tra la somma delle frequenze degli ultimi sette giorni e la somma delle frequenze dei sette giorni precedenti. La stima dell'accelerazione della velocità di circolazione viene così assegnata al giorno intermedio degli ultimi sette giorni. Nei due grafici seguenti, relativi al periodo tra il 1° dicembre 2022 e il 31 gennaio 2023, vengono illustrate nel primo le frequenze medie degli ultimi sette giorni (in rosso) e dei sette giorni precedenti (in blu), e nel secondo il rapporto tra le due, cioè l'RD_t che abbiamo chiamato indice di replicazione diagnostica.

Nei giorni di fine anno, probabilmente a causa di maggiori contagi durante le convivialità natalizie, le frequenze dell'ultima settimana sono più elevate di quelle della precedente, e l'RD_t supera la soglia 1 evidenziando una accelerazione positiva che, seppur temporaneamente, aveva invertito le accelerazioni negative precedenti e seguenti.

Il calcolo dell'RD_t può essere fatto il giorno stesso della disponibilità dei dati delle diagnosi, mentre il calcolo dell'R_t deve essere fatto non prima di una settimana dopo perché occorre aspettare che si completino i dati relativi alle frequenze sintomi di quei giorni che possono essere riferiti anche da soggetti diagnosticati vari giorni dopo. In realtà si può stimare che i dati delle diagnosi vengano rilasciati circa due giorni dopo la reale data di effettuazione, mentre i dati delle frequenze sintomi si completino almeno con una decina di giorni dopo la data reale della diagnosi. Questa diversità rende sicuramente l'RDt un indice molto più tempestivo dell'Rt in quanto segnalare con una decina di giorni di anticipo una modifica dell'andamento epidemico può essere determinante per le decisioni che devono essere assunte.

Ed allora, confrontando i dati della piattaforma della Protezione Civile (ora Ministero della Salute) che riporta solo le frequenze aggregate dei contagi per data certificata di diagnosi, con quelli di Epicentro (la direzione dell'Istituto Superiore di Sanità), possiamo verificare le loro differenze relative alle frequenze e tra queste e quelle per data di diagnosi e per data di inizio sintomi.

Confronto tra i dati per data di diagnosi tra le due fonti

Come si vede l'andamento generale è molto simile anche se i dati ISS sono più variabili di quelli della PC e questo probabilmente perché i primi rispettano esattamente la data segnata sulle schede individuali dei positivi mentre nei secondi dati come frequenze aggregate i casi si concentrano nei giorni di trasmissione. Le differenze proporzionali relative tra le medie mobili a 31 giorni delle due fonti non evidenziano forti scostamenti seppure risultino diverse fasi nel loro andamento.

Non è chiaro perché ci siano stati questi andamenti ma tranne quanto successo a fine 2020, quando vennero consentiti i test con tamponi antigenici, gli scostamenti si sono contenuti tra il +5% e il -5% delle frequenze.

Confronto tra i dati ISS per data di diagnosi e per data di inizio sintomi

Se confrontiamo i dati dell'ISS per data diagnosi e per data inizio sintomi troviamo ovviamente delle diversità in quanto i primi contengono tutti i casi di positività mentre i secondi sono quelli in cui sono stati segnalati dei sintomi.

La percentuale di casi sintomatici registrati si è aggirata attorno alla metà dei casi sino a fine 2021 quanto invece è quasi istantaneamente discesa ad un terzo. Ed il motivo non è stata la diminuzione della sintomatologia dei positivi quanto la diagnosi e la notifica di molti casi asintomatici che prima non emergevano ed invece da allora le regole del Green Pass portavano ad evidenza.

Guardando i grafici particolari di dicembre gennaio 2021/22 e 2022/23 si vede a fine anno nel primo la diminuzione dovuta probabilmente all'aumento dei sintomatici mentre nel secondo invece la successiva crescita probabilmente potrebbe esser dovuta ai casi di asintomatici non notificati perché diagnosticati con tamponi fai da te.

Differenze tra gli indici di replicazione calcolati per data diagnosi e per data inizio sintomi

Il quesito allora che ci si chiede è cosa cambierebbe calcolando un indice di riproduzione sui dati per diagnosi (RDt) e sui dati per sintomi (RSt) e il responso sarebbe che le differenze sarebbero minime e sicuramente inferiori al loro significato operativo nei confronti delle decisioni eventuali di contenimento da assumere.

Se si osservano poi dei particolari risulta che l'indice calcolato sulle diagnosi segue di qualche giorno quello calcolato sui sintomi che per lo più, ma non sempre, anticipano le diagnosi. Ma purtroppo il dato aggregato, seppur meno preciso, rilasciato dalla PC ha un ritardo, come precedentemente già detto, di vari giorni.

RD_t & R_t

Varrebbe allora la pena di valutare quale dei due indici sia meglio adatto ad un monitoraggio di Sanità Pubblica necessario per assumere decisioni tempestive. La differenza tra usare dati di diagnosi e dati di inizio sintomi non comporta sostanziali differenze di valori ma solo di tempestività. L'altra differenza tra i due indici è che l'RD_t confronta la distanza tra due medie mentre l'R_t calcola la distanza usando una distribuzione Gamma delle date di inizio sintomi. Non affrontiamo qui la rilevanza di questa differenza ma nelle prove effettuate le differenze sono risultate non influenti sull'informatività dei risultati

Conclusioni

Abbiamo espresso più volte il parere sull'opportunità di calcolare e presentare sempre entrambi questi indicatori magari associando anche quelli relativi ai ricoveri ed ai decessi.

Talvolta si ritiene che la complicazione renda migliore i calcoli, ovvero che la precisione sia determinante nell'informazione. Invece molte volte durante l'epidemia è successo che le variazioni di RD_t siano emerse più di una settimana prima delle variazioni di R_t e in taluni casi, dando attenzione solo all'R_t, ciò potrebbe aver rallentato i processi decisionali.

Un altro vantaggio dell'RDt è la sua semplicità di calcolo a portata di tutti ed anche comprensibile da parte di chi non ha familiarità con i calcoli statistici e questa caratteristica è molto importante soprattutto per chi a livello locale vuole capire se la situazione volge al meglio o al peggio.