Questa sostanziosa intervista sull’epidemia di Covid-19 ad Andrea Borruso,
presidente di onData (associazione di promozione sociale per la trasparenza dei
dati pubblici) ha due obiettivi fondamentali: 1) il primo è quello di passare
in rassegna i dati rilasciati dalle istituzioni destinati al pubblico e quindi
di esprimere un giudizio su quantità, qualità, dettaglio e tempestività di
questi dati; 2) il secondo è cercare di capire, da questi dati, cosa sta
succedendo oggi in Italia in particolare in Lombardia.
Siamo infatti in un momento particolare in cui i numeri del contagio appaiono sotto controllo
in tutto il resto d’Italia, ma non in Lombardia. I pochi casi significativi nel
resto d’Italia hanno numeri assoluti piuttosto bassi e sono tutti riconducibili
a focolai specifici di cui sappiamo quasi “nome e cognome” (vedi Roma San
Raffaele/Pisana e da lì Saxa Rubra, uno stabile della Garbatella, prima un
funerale in Molise ecc.) e sono stati affrontati con una reattività pari al
dettaglio dei dati.
Al contrario in Lombardia abbiamo numeri, anche di nuovi
contagi, significativamente più alti, ma di cui sappiamo pochissimo eppure
l’allarme delle istituzioni è di gran lunga inferiore. Il 9 giugno a pag. 8 del Corriere della Sera Chi sono i nuovi contagiati (di
Silvia Turin) l’epidemiologo dell’Ats di Milano Vittorio Demicheli ci spiegava
che a inizio giugno “il 5% dei casi sono
venuti dalle Rsa, il 3% dagli operatori sanitari, il 10% dai test sierologici
positivi e l’82% sono civili (...) in gran parte (...) dovrebbero essere
contagi di origine familiare”, il 14 giugno a pag. 2 de La
Repubblica-Milano Gori “Nuovi contagiati ma da infezioni vecchie” di Brunella
Giovara Andrea Gori, ordinario di malattie infettive al Policlinico di Milano
afferma: “Non si tratta di nuove
infezioni” ma probabilmente “‘code’ di precedenti infezioni”. Il 16 giugno, sul Corriere, a pag. 13, In
Lombardia l’85% dei casi di Sara Bettoni ancora Vittorio Demicheli, ci
porta un dato completamente diverso da quello del giorno 9, ma vuole essere
sempre rassicurante sui 259 casi lombardi (sul 303 totali in Italia): “Si tratta per metà di casi vecchi relativi
a focolai residenze per anziani oppure a operatori sanitari e socio-sanitari
[ma se erano il 3% e il 5% nell’intervista del 9 giugno, come fanno ora a
essere il 50%! n.d.r], su cui si fa
ricerca attiva. E poi ci sono i positivi emersi dai test sierologici, spesso
con sintomi lievi, in cui l’infezione non è recente”. Giustamente la
giornalista fa notare che non si capisce il motivo per cui debbano fare più
“rumore” i 79 ricoverati di Pechino dei 259 in Lombardia.
Certo non aiuta l’opinione pubblica il fatto che queste percentuali citate sui
nuovi casi, ad esempio dall’epidemiologo Demicheli dell’Ats di Milano, siano
forse raccolte, ma certamente comunicate in modo poco sistematico e
occasionale. Così come la dichiarazione dell’assessore al Welfare della Regione
Lombardia del 15 giugno in cui molti dei nuovi positivi erano definiti
“debolmente” positivi, riporta qualcosa che esiste davvero tra gli esiti dei
tamponi (esistono davvero tamponi “debolmente positivi”), ma introduce un campo
nuovo, una nuova colonna dei dati, che non era mai stata presa in
considerazione: ovvero il livello di positività, rendendo il dato di quel
giorno non paragonabile con quello dei giorni precedenti: quanti erano i
“debolmente positivi” sul totale dei positivi, ad esempio, il 15 maggio?
Nessuno lo sa. Non ha senso avere dati così raffazzonati e poco sistematici.
Ma andiamo per gradi e torniamo al primo punto: l’opinione pubblica è stata informata a sufficienza? Nel farci questa domanda non ignoriamo le facili ironie sugli italiani che a fine febbraio si sarebbero tutti trasformati da allenatori della nazionale di calcio in provetti epidemiologi. Lo trovo un appunto stucchevole per uno specifico motivo: per la nazionale non cambia nulla se il pubblico insorge di fronte alla scelta del CT Roberto Mancini di schierare Belotti, Insigne o Immobile: alla fine sarà sempre il presidente della Federcalcio Gabriele Gravina a scegliere l’allenatore. Mentre nel caso della pandemia saranno poi gli elettori a decidere se e come tenere conto anche della qualità della gestione della crisi ed eventualmente come valutare Conte e Speranza, se premiare o punire Zaia o Fontana nelle urne. Nel caso poi di Lombardia e Veneto saranno oggetto di valutazione anche le performance così diverse di due regioni così simili in quanto contigue, dello stesso ordine di grandezza e colpite dal virus negli stessi tempi (fortunatamente i due governatori sono dello stesso partito così non dobbiamo schierarci in nessuno modo). L’opinione pubblica ha il diritto di sapere se le due situazioni erano davvero simili, se i dati a disposizione del governo e delle regioni erano adeguati e se così non fosse se c’è stato un problema di raccolta o di trasmissione. In qualche caso, lo vedremo, i dati a disposizione delle istituzioni erano più completi di quelli ricevuti dall’opinione pubblica: ma perché abbiamo subito questa opacità? Per disorganizzazione, per dolo, per paternalismo o che altro? Se può essere giusto tenere segreto che Belotti non è stato schierato per un problema alla schiena, visto che non siamo noi a giudicare l’operato di Mancini, io penso che tutti i dati disponibili sulla pandemia dovrebbero essere resi leggibili in modo comodo e tempestivo a beneficio di tutti i cittadini italiani, salvo casi molto particolari e specifici. Di questo e di molto altro parliamo in questa corposa conversazione con Andrea Borruso.
Marco Ardemagni:
Presidente cos’è Ondata.it, quando è stata fondata e con quale missione?
Andrea Borruso: onData è un'associazione che promuove l'apertura dei dati pubblici per renderli
accessibili a tutti. Si impegna nella promozione di buone pratiche di trasparenza
amministrativa e crede nei dati come collante per favorire partecipazione e
nuovi percorsi civici e professionali.
È nata
nel 2015 e con sede a Palermo. È composta da un gruppo di cittadini sparsi in
tutta Italia: giornalisti, sviluppatori, dipendenti pubblici, professionisti,
ma soprattutto attivisti.
Realizza
progetti sfruttando la tecnologia per promuovere e abilitare la cittadinanza
digitale e la partecipazione civica.
Ardemagni: Qual è il giudizio
complessivo sulla qualità dei dati forniti dalle istituzioni al pubblico in
occasione dell'epidemia di covid-19?
Borruso: Il giudizio complessivo
non è positivo.
È
indubbio che quanto messo in piedi dal Dipartimento della Protezione Civile in
termini di pubblicazione, aggiornamento e descrizione dei dati è un buon
risultato e farà da esempio; questo è forse il risultato più importante, perché
avere un riferimento - per il futuro - sarà quasi metà dell’opera.
Ma da
inizio marzo ad ora però, troppo spesso cittadini, associazioni, centri di
ricerca, giornalisti, ecc. hanno cercato dati di maggiore dettaglio e/o con
“tagli” diversi (altre colonne) e/o con frequenza diversa, senza trovarli.
Allora sono state fatte lettere aperte, richieste FOIA, campagne social, ecc. alle quali spesso non si è avuta risposta
“adeguata” (sbagliate nel merito, mancate risposte, negative tout court).
Sino ad
arrivare a richieste/note come quelle presenti nel documento dell’Accademia dei
Lincei di inizio maggio: “Dati pubblici, governo delle epidemie e
democrazia”. È dedicato ai dati
relativi ai 21 parametri necessari per ottenere per ciascuna regione una
classificazione omogenea del rischio, in cui tra le altre cose si afferma “Tutti i dati sull’epidemia devono essere
resi pubblici [...], in assenza di trasparenza, ogni conclusione diviene
contestabile sul piano scientifico e, quindi, anche sul piano politico”.
È un documento molto netto, che fa comprendere quanta strada ci sia ancora da
fare.
Ardemagni: Partiamo da un aspetto
apparentemente marginale, ma su cui voi avete fatto una battaglia: i dati
venivano forniti tendenzialmente in pdf. Quali inconvenienti comporta?
Borruso: I file PDF di inizio marzo erano (e sono) dei comunicati stampa, ovvero
qualcosa di creato per essere leggibile dalle persone, con le colonne colorate,
doppie e triple intestazioni, note a piè di pagina, ecc.
Un Personal Computer non sa leggere questi
file in modo semplice e diretto: si dice infatti che non sono machine readable.
Inoltre
veniva prodotto un file “del giorno”, quindi era impossibile leggere le
variazioni dei dati nel tempo, che per fenomeni di questo tipo “è il dato”.
Allora
abbiamo creato una procedura automatica, che ogni giorno trasformava quei PDF
in “tabelle” leggibili da un PC, abbiamo lanciato insieme ad altri una campagna
di passaparola che - data l’emergenza - ha funzionato molto bene e tre giorni
dopo, oltre i PDF c’erano i file aperti e leggibili del Dipartimento della
Protezione Civile. Erano delle “vere” tabelle, corredate da descrizione (i
metadati). È evidente che il DPCM stesse lavorando sulla cosa, ma quanto fatto
da noi è stato un acceleratore.
Ardemagni: Parliamo ora di quantità e qualità dei dati forniti: per voi affamati di
numeri immagino che il primo piatto fosse anche quello più noto a livello
popolare, il report quotidiano della Protezione Civile che a lungo è stato
accompagnato dalla altrettanto popolare conferenza stampa delle ore 18. Ora il
file viene rilasciato senza conferenza stampa.
Borruso: Consentimi su questo di fare una considerazione. È interessante constatare che l'opinione pubblica abbia mostrato più attenzione ai “numeri”, per comprendere un fenomeno. Spesso però ho visto purtroppo anche un atteggiamento simile a chi - durante le Olimpiadi - vuole aggiornarsi sul medagliere.
Ardemagni: Disdicevole. Ma se lo andiamo ad analizzare bene, mi sembra che il report
quotidiano della protezione civile, nella sua prima versione sia piuttosto
scarno. All’inizio comprendeva solo 5 campi (senza alcun dettaglio se non le
regioni dei contagiati):
a) individui attualmente positivi ricoverate con sintomi
b) individui attualmente positivi in isolamento domiciliare
c) individui attualmente positivi in terapia intensiva
d) guariti a oggi
e) deceduti a oggi
Tutti gli altri dati forniti non aggiungevano nulla perché erano facilmente
ricavabili dalle somme e differenze di questi cinque campi o dal confronto di
questi cinque dati con gli stessi cinque del giorno prima: ad esempio per
calcolare gli individui attualmente positivi basta sommare a+b+c o per sapere i
contagiati a oggi basta sommare a+b+c+d+e.
Borruso: La cosa interessante della modalità scelta dalla protezione civile, è quella di poter visualizzare tutto lo storico dei dati pubblicati, tutte le variazioni in termini di contenuti, descrizione e schema quindi non solo il dato, ma anche la modifica nel corso del tempo della
struttura in cui veniva inserito.
Questo
perché la protezione civile pubblica i dati su GitHub, una piattaforma basata
sul cosiddetto "versionamento", che memorizza tutte le versioni di un
file nel tempo (qui lo storico delle variazioni del file per province del 24 febbraio).
Comunque al primo upload (7 marzo) i
dati avevano la struttura che dici. Oggi è invece così, con variazioni soprattutto in termini di leggibilità del dato (che è un
fatto sempre utile) senza però integrazioni importanti (specie per i dati
provinciali).
Ardemagni: Sì, è vero: ora c’è
qualcosa di più. Di fatto, come nuovi dati grezzi sono stati aggiunti soltanto
due campi: il numero dei “tamponi” effettuati e i “casi testati” (numero delle
persone sottoposte a tampone, che è necessariamente un numero inferiore
rispetto a quello dei tamponi, perché molti tamponi sono stati fatti a
individui che ne avevano già fatto almeno uno). Gli altri campi aggiunti
effettivamente aumentano la leggibilità,
ma ancora erano facilmente ricavabili da operazioni sugli altri campi o
sul file del giorno precedente.
Chi volesse approfondire
ulteriormente quali altri strumenti e fonti dati istituzionali ha a
disposizione?
Borruso: La seconda fonte, anche ben
realizzata dal punto di vista grafico è quella pubblicata sulla sezione “Epicentro” dell'Istituto Superiore di Sanità (con dati raccolti dalle regioni). Qui
ci vengono forniti alcuni dati che sul report quotidiano non sono presenti (del
resto là ci sono solo sette numeri): qui proseguendo la conta dei campi abbiamo
8) il numero di operatori sanitari contagiati; 9) lo stato clinico dei
contagiati attualmente positivi (percentuali su una scala di sei stati da
severo ad asintomatico); 10) La ripartizione in quattro fasce d’età dei casi; 11)
l’età mediana dei casi; 12) la ripartizione per genere dei casi 13) la
suddivisione in dieci fasce d’età dei deceduti; 14) la percentuale di ogni
fascia d’età sul totale dei deceduti; 15) la letalità per ognuna delle dieci
fasce d’età e totale; 16) il numero totale dei casi diviso per provincia (e
anche accorpato per regione).
Ardemagni: Questa infografica è rilasciata quotidianamente? E da quando?
Borruso: È settimanale ed è
disponibile da metà marzo, purtroppo, diversamente dal bollettino quotidiano della
protezione civile, il pubblico generalista non può reperire direttamente
l’archivio storico delle infografiche: può vedere solo l’ultima. Sarebbe meglio
rendere disponibili le vecchie versioni. Purtroppo queste comunicazioni sono
viste con la vecchia ottica del comunicato stampa e dell’aggiornamento e non
sono viste come uno strumento di lavoro e di analisi. Per questo motivo abbiamo
provveduto noi a salvare tutte le vecchie versioni dell’intera sezione
Epicentro sul web archive. Così che almeno gli analisti dati possano analizzare
le versioni storiche di questa infografica e delle due prossime preziose
risorse che sto per introdurre.
Ardemagni: Di cosa si tratta?
Borruso: Sono i due documenti più
importanti e si trovano sempre nella sezione Epicentro del sito dell’Istituto
superiore di Sanità:
- Epidemia Covid-19 - Aggiornamento nazionale (Report Esteso)
- appendice al bollettino con dettaglio regionale (qui l’ultimo)
Le ultime due versioni disponibili sono rispettivamente di 17 e di 136 pagine.
Questa
grafica, ad esempio è tratta dall’aggiornamento nazionale, e qui troviamo ben
rappresentato il dettaglio per genere e classe d’età:
Nel “bollettino con il dettaglio regionale” si trovano, ad esempio, i dati
suddivisi per comune:
O altri dati a livello regionale:
Ardemagni: Vedo che sono entrambi
molto dettagliati. Ci sono moltissimi dati, anche quelli di cui molti sindaci
lamentavano la mancanza. Ne cito alcuni: l’incidenza cumulativa (quanti casi
per 100.000 abitanti per ogni provincia), i casi con data prelievo/diagnosi nell’ultima
settimana, l’incidenza di questi casi (quanti per 100.000) e poi, finalmente,
troviamo il famoso indice di riproduzione, che dovrebbe dare il vero polso
della situazione sul contagio. Vedo però che a livello regionale è calcolato su
pochi casi e con intervalli di confidenza molto molto larghi, mentre in
Germania questo indice è aggiornato quotidianamente. Si potrebbe fare meglio?
Borruso: I problemi che vediamo
sono: 1) la frequenza; 2) la tempestività della pubblicazione: in questo
momento (sono le ore 14 del 16 giugno), abbiamo bollettini datati 9 giugno che
sono stati pubblicati il 12 giugno; 3) la mancanza di reperibilità dei vecchi
bollettini: abbiamo dovuto pensarci noi come “hacker civici” a salvare le
vecchie versioni del sito Epicentro per avere a disposizione tutte le versioni
dei due bollettini: (abbiamo
attivato l’archiviazione automatica su Internet
Archive), come quella del 26 marzo, trovi anche le fasce di
età (certo per il pubblico generalista è piuttosto complesso reperirle); 4) il
quarto problema è che purtroppo ancora una volta è tutto in PDF e quindi chi
vuole lavorarci e farci delle analisi ha la vita un po’ più dura. A nostro
avviso quindi non è un difetto di raccolta o di comunicazione, ma una scelta.
Va segnalato poi che, comunque, per quanto ricchi non ci sono esattamente tutti
i dati che potrebbero servire e poi ci sono alcune regioni che pubblicano
soltanto alcuni di questi dati, quindi si sta un po’ alla fortuna; perché non
c’è un protocollo condiviso e seguito dalle regioni, quantomeno nelle modalità
scelte per la diffusione pubblica dei dati.
Ardemagni: Aggiungo un ulteriore problema, che però affligge
anche il primo documento citato: il famoso bollettino della protezione civile,
perché è inerente alla raccolta dei dati sul territorio. Per le prime settimane
abbiamo dato per scontato che se il 15 marzo ci comunicavano, ad esempio,
prendo La stampa del 30 marzo: “Ieri in Piemonte si sono contati 72 decessi, di cui 23 in provincia di
Torino” allora questi 72 fossero tutti deceduti nelle ultime 24 ore.
Poi, a partire dal 2 maggio, ma molti lo sospettavano già da prima, ci siamo
resi conto che moltissimi di questi decessi o nuovi casi si riferivano a
qualche giorno prima o addirittura a molti giorni o settimane prima, a volte
mesi. Cosa sta alla base di questi caricamenti tardivi di dati relativi ai
contagi o ai decessi (come recentemente per la regione Abruzzo e per la
Lombardia a partire dal 2 maggio)?
Borruso: Qui mi sembra doveroso
inserire il link alla segnalazione sull’Abruzzo fatta da un utente e alla risposta ufficiale del DPCM: “c'è stato un errore di
comunicazione dei dati e domani saranno bonificati i dati del 31 in modo che i
dati saranno coerenti.”
Non si
hanno informazioni sui protocolli/procedure informatiche di raccolta e poi di
comunicazione di questi dati. Le cause di questi errori di “comunicazione”
possono essere quindi le più disparate.
Ardemagni: La tempestività (o la
mancata tempestività) e il livello di dettaglio (o lo scarso livello di
dettaglio) a cosa va imputato?
Borruso: È stata un’emergenza con
dei momenti molto complessi. È un fatto scontato, ma voglio sottolinearlo,
perché per una parte, specie nelle prima fasi è stato dovuto anche a questo.
È una
domanda che andrebbe girata ai responsabili della macchina informativa dei nodi
periferici di trasmissione e raccolta dati; la mia risposta è un’opinione un
po’ da bar, perché deriva da commenti che mi sono stati riferiti e dalla mia
esperienza di consulente per la Pubblica Amministrazione.
Mi
ripeto: penso che dipenda principalmente da un’assenza e/o da una mancata un’attuazione di un protocollo condiviso, che
faccia da standard per tutte le PA coinvolte.
Ardemagni: Ma il vero punto è questo:
questo metodo di raccolta e comunicazione di dati è adatto alla gestione di una
eventuale nuova ondata che potrebbe presentarsi, almeno inizialmente, con
piccoli focolai molto localizzati?
Borruso: Chi gestisce da “dentro”
questi focolai è quasi sicuramente messo a conoscenza delle informazioni utili
per gestire la cosa. Mentre da “fuori”, le evidenze pubbliche dei dati raccolti
ad oggi, specie quelle con taglio più “locale”, sono state e sono spesso poca
cosa. Per dati a cui dare evidenza pubblica in questo contesto, quindi non
riesco a immaginare un nuovo “passo” informativo.
Ardemagni: Cosa sta succedendo in
Lombardia? Siamo in presenza 1) del caricamento tardivo di tanti casi
"vecchi"; 2) di tamponi positivi recenti che però si riferiscono a
persone “ancora positive”, ma contagiate settimane fa, o 3) sono davvero in
corso focolai specifici? Io credo, anche leggendo varie analisi pubblicate sui
quotidiani (vedi introduzione a questa intervista), di un misto tra 1) e 2):
certo l’incertezza del dato lombardo, specie paragonata con il dettaglio dei
casi delle altre regioni fa impressione.
Borruso: La Regione Lombardia ha
una dashboard cartografica - in parole semplici una mappa online dedicata alla
COVID-19 - alimentata da un sito pubblico, ma non “palese” il cui indirizzo è
visibile soltanto guardando il codice HTML della pagina con la mappa (qui ad esempio l’accesso ai dati regionali sui tamponi).
È un
sito pubblicamente accessibile, di cui però - ripeto - non è stata evidenza
palese.
Contiene
i riferimenti a due “tabelle” sui tamponi, una con taglio regionale e un’altra
con taglio provinciale, in cui è possibile derivare le date di esecuzione dei
tamponi. Questa è un’informazione di gran valore, che non è presente tra i dati
del DPCM. Alcuni ricercatori, come Lorenzo Ruffino, ogni giorno analizzano i
dati che noi carichiamo da quel sito e, facendo la differenza, attribuiscono le
date corrette.
Due
elementi da sottolineare: 1) il primo è uno spostamento dei numeri di tamponi
nei vari giorni, 2) il secondo è che i dati con taglio provinciale non sono
purtroppo più utilizzabili da circa 15 giorni.
Ardemagni: Probabilmente a livello
regionale non si vuole troppo rumore attorno a questa cosa? Questo acuisce quel
senso di incertezza a cui mi riferivo
Borruso: Le due cose hanno creato
una certa attenzione mediatica. Non ci sono elementi però per fare un reverse engineering che consenta di comprendere
quali siano le cause che hanno prodotto questi “aggiustamenti” di date o la
rimozione del dettaglio provinciale.
Ma è
un’occasione che fa emergere come prerequisito uno dei punti sottolineato dai
“Lincei”: “la disponibilità dei dati
pubblici è necessaria per poter coinvolgere la comunità scientifica nel governo
dell’epidemia”.