Molte amministrazioni, giustamente, si preoccupano di garantire la privacy dei cittadini quando presentano i dati disaggregati in tabella di cui magari è in gioco una variabile cosiddetta sensibile, cioè che riguarda una sfera delicata della persona che ha tutto il diritto di non farla apparire.
La ratio da seguire, quindi, è di evitare che la probabilità di identificare una persona attribuendole una caratteristica della tabella sia troppo elevata. Possiamo discutere se basti il 66% di incertezza oppure ci voglia l'80% o il 90% o ancor di più, ma di sicuro non sarebbe, per esempio, protettiva una percentuale del 50%, cioè "se non è lui è l'altro"!

Ma come determinare questa incertezza? Facendo il rapporto tra i soggetti che hanno la caratteristica sensibile e tutti i soggetti che possiedono le altre caratteristiche descritte, cioè il rapporto tra numeratore e denominatore deve essere <p(i), cioè minore della probabilità di individuazione dei soggetti.
Se, come nella figura del titolo, su 20 omini tutti uguali tranne che per il colore si volesse che non fossero identificabili i verdi, la probabilità di individuarle il colore di uno di questi è di 3/20=15%, cioè l'incertezza sarebbe dell'85%, credo più che garantista!

Ma esaminiamo, per esempio, una tabella inserita nell'open data di Epicentro-ISS che tratta dei soggetti deceduti o contagiati dal virus SARS-CoV-2 e che giustamente deve essere sottoposta a controllo per garantire la privacy:

tabella1.png

In diverse caselle, quando le frequenze sono inferiori a 5, non è stato dato il valore reale, ma si è indicato solo <5. Ma questo era necessario per garantire la privacy? Noi non sappiamo quale fosse, per esempio, il denominatore dei soli quarantenni positivi di cui non era noto il genere, ma, anche se questi fossero stati pochi, non si sa a chi si riferivano nella popolazione dei milioni di quarantenni. Infatti, non è che dichiarando in tabella che i novantenni contagiati di sesso sconosciuto erano 7 abbia aumentato livello di incertezza, permettendo così di darne la frequenza, e se fossero stati <5 non avrebbe proprio cambiato il livello di garanzia della privacy.

Chiediamoci qual è l'incertezza degli esempi qui di seguito in cui l’informazione che non deve poter essere attribuita è il colore verde:

figura1.png

Nel primo caso, è chiaro che il verde avrebbe la probabilità di 1/4 di essere identificato, mentre nella seconda di 1/6, nella terza di 1/2, nella quarta addirittura di 5/6.
Se la regola fosse il numero di soggetti verdi >4 (il numeratore), allora si dovrebbero oscurare le prime due e non le ultime due.
Se la regola fosse il numero di soggetti totale >4 allora si dovrebbe oscurare solo la prima.
Se, invece, la regola fosse che la probabilità di identificazione dovesse scendere sotto al 20%, allora si dovrebbero oscurare le ultime due.

In conclusione, la regola da applicare a una tabella perché sia garantita la privacy non dovrebbe riguardare né la frequenza del numeratore né del denominatore, bensì il rapporto tra numeratore e denominatore che definisce la probabilità di assegnare a un individuo una determinata informazione magari sensibile.

Speriamo che la normativa sulla privacy e la sua applicazione ai casi concreti accetti queste indicazioni ed eviti di far oscurare le basse frequenze in una tabella quando queste non possono assolutamente portare a un'identificazione dei soggetti.

       Visite