martedì 16 giugno 2020

Covid-19: che dati ci date? - Intervista ad Andrea Borruso presidente di onData


Questa sostanziosa intervista sull’epidemia di Covid-19 ad Andrea Borruso, presidente di onData (associazione di promozione sociale per la trasparenza dei dati pubblici) ha due obiettivi fondamentali: 1) il primo è quello di passare in rassegna i dati rilasciati dalle istituzioni destinati al pubblico e quindi di esprimere un giudizio su quantità, qualità, dettaglio e tempestività di questi dati; 2) il secondo è cercare di capire, da questi dati, cosa sta succedendo oggi in Italia in particolare in Lombardia. 

Siamo infatti in un momento particolare in cui i numeri del contagio appaiono sotto controllo in tutto il resto d’Italia, ma non in Lombardia. I pochi casi significativi nel resto d’Italia hanno numeri assoluti piuttosto bassi e sono tutti riconducibili a focolai specifici di cui sappiamo quasi “nome e cognome” (vedi Roma San Raffaele/Pisana e da lì Saxa Rubra, uno stabile della Garbatella, prima un funerale in Molise ecc.) e sono stati affrontati con una reattività pari al dettaglio dei dati. 

Al contrario in Lombardia abbiamo numeri, anche di nuovi contagi, significativamente più alti, ma di cui sappiamo pochissimo eppure l’allarme delle istituzioni è di gran lunga inferiore. Il 9 giugno a pag. 8 del Corriere della Sera Chi sono i nuovi contagiati (di Silvia Turin) l’epidemiologo dell’Ats di Milano Vittorio Demicheli ci spiegava che a inizio giugno “il 5% dei casi sono venuti dalle Rsa, il 3% dagli operatori sanitari, il 10% dai test sierologici positivi e l’82% sono civili (...) in gran parte (...) dovrebbero essere contagi di origine familiare”, il 14 giugno a pag. 2 de La Repubblica-Milano Gori “Nuovi contagiati ma da infezioni vecchie” di Brunella Giovara Andrea Gori, ordinario di malattie infettive al Policlinico di Milano afferma: “Non si tratta di nuove infezioni” ma probabilmente “‘code’ di precedenti infezioni”. Il 16 giugno, sul Corriere, a pag. 13, In Lombardia l’85% dei casi di Sara Bettoni ancora Vittorio Demicheli, ci porta un dato completamente diverso da quello del giorno 9, ma vuole essere sempre rassicurante sui 259 casi lombardi (sul 303 totali in Italia): “Si tratta per metà di casi vecchi relativi a focolai residenze per anziani oppure a operatori sanitari e socio-sanitari [ma se erano il 3% e il 5% nell’intervista del 9 giugno, come fanno ora a essere il 50%! n.d.r], su cui si fa ricerca attiva. E poi ci sono i positivi emersi dai test sierologici, spesso con sintomi lievi, in cui l’infezione non è recente”. Giustamente la giornalista fa notare che non si capisce il motivo per cui debbano fare più “rumore” i 79 ricoverati di Pechino dei 259 in Lombardia.


Certo non aiuta l’opinione pubblica il fatto che queste percentuali citate sui nuovi casi, ad esempio dall’epidemiologo Demicheli dell’Ats di Milano, siano forse raccolte, ma certamente comunicate in modo poco sistematico e occasionale. Così come la dichiarazione dell’assessore al Welfare della Regione Lombardia del 15 giugno in cui molti dei nuovi positivi erano definiti “debolmente” positivi, riporta qualcosa che esiste davvero tra gli esiti dei tamponi (esistono davvero tamponi “debolmente positivi”), ma introduce un campo nuovo, una nuova colonna dei dati, che non era mai stata presa in considerazione: ovvero il livello di positività, rendendo il dato di quel giorno non paragonabile con quello dei giorni precedenti: quanti erano i “debolmente positivi” sul totale dei positivi, ad esempio, il 15 maggio? Nessuno lo sa. Non ha senso avere dati così raffazzonati e poco sistematici.

Ma andiamo per gradi e torniamo al primo punto: l’opinione pubblica è stata informata a sufficienza? Nel farci questa domanda non ignoriamo le facili ironie sugli italiani che a fine febbraio si sarebbero tutti trasformati da allenatori della nazionale di calcio in provetti epidemiologi. Lo trovo un appunto stucchevole per uno specifico motivo: per la nazionale non cambia nulla se il pubblico insorge di fronte alla scelta del CT Roberto Mancini di schierare Belotti, Insigne o Immobile: alla fine sarà sempre il presidente della Federcalcio Gabriele Gravina a scegliere l’allenatore. Mentre nel caso della pandemia saranno poi gli elettori a decidere se e come tenere conto anche della qualità della gestione della crisi ed eventualmente come valutare Conte e Speranza, se premiare o punire Zaia o Fontana nelle urne. Nel caso poi di Lombardia e Veneto saranno oggetto di valutazione anche le performance così diverse di due regioni così simili in quanto contigue, dello stesso ordine di grandezza e colpite dal virus negli stessi tempi (fortunatamente i due governatori sono dello stesso partito così non dobbiamo schierarci in nessuno modo). L’opinione pubblica ha il diritto di sapere se le due situazioni erano davvero simili, se i dati a disposizione del governo e delle regioni erano adeguati e se così non fosse se c’è stato un problema di raccolta o di trasmissione. In qualche caso, lo vedremo, i dati a disposizione delle istituzioni erano più completi di quelli ricevuti dall’opinione pubblica: ma perché abbiamo subito questa opacità? Per disorganizzazione, per dolo, per paternalismo o che altro? Se può essere giusto tenere segreto che Belotti non è stato schierato per un problema alla schiena, visto che non siamo noi a giudicare l’operato di Mancini, io penso che tutti i dati disponibili sulla pandemia dovrebbero essere resi leggibili in modo comodo e tempestivo a beneficio di tutti i cittadini italiani, salvo casi molto particolari e specifici. Di questo e di molto altro parliamo in questa corposa conversazione con Andrea Borruso.


Marco Ardemagni: Presidente cos’è Ondata.it, quando è stata fondata e con quale missione?
Andrea Borruso: onData è un'associazione che promuove l'apertura dei dati pubblici per renderli accessibili a tutti. Si impegna nella promozione di buone pratiche di trasparenza amministrativa e crede nei dati come collante per favorire partecipazione e nuovi percorsi civici e professionali.
È nata nel 2015 e con sede a Palermo. È composta da un gruppo di cittadini sparsi in tutta Italia: giornalisti, sviluppatori, dipendenti pubblici, professionisti, ma soprattutto attivisti.
Realizza progetti sfruttando la tecnologia per promuovere e abilitare la cittadinanza digitale e la partecipazione civica.

Ardemagni: Qual è il giudizio complessivo sulla qualità dei dati forniti dalle istituzioni al pubblico in occasione dell'epidemia di covid-19?
Borruso:
Il giudizio complessivo non è positivo.
È indubbio che quanto messo in piedi dal Dipartimento della Protezione Civile in termini di pubblicazione, aggiornamento e descrizione dei dati è un buon risultato e farà da esempio; questo è forse il risultato più importante, perché avere un riferimento - per il futuro - sarà quasi metà dell’opera.
Ma da inizio marzo ad ora però, troppo spesso cittadini, associazioni, centri di ricerca, giornalisti, ecc. hanno cercato dati di maggiore dettaglio e/o con “tagli” diversi (altre colonne) e/o con frequenza diversa, senza trovarli. Allora sono state fatte lettere aperte, richieste FOIA, campagne social, ecc.  alle quali spesso non si è avuta risposta “adeguata” (sbagliate nel merito, mancate risposte, negative tout court).
Sino ad arrivare a richieste/note come quelle presenti nel documento dell’Accademia dei Lincei di inizio maggio: “Dati pubblici, governo delle epidemie e democrazia”. È dedicato ai dati relativi ai 21 parametri necessari per ottenere per ciascuna regione una classificazione omogenea del rischio, in cui tra le altre cose si afferma “Tutti i dati sull’epidemia devono essere resi pubblici [...], in assenza di trasparenza, ogni conclusione diviene contestabile sul piano scientifico e, quindi, anche sul piano politico”. 
È un documento molto netto, che fa comprendere quanta strada ci sia ancora da fare.


Ardemagni: Partiamo da un aspetto apparentemente marginale, ma su cui voi avete fatto una battaglia: i dati venivano forniti tendenzialmente in pdf. Quali inconvenienti comporta?
Borruso:
I file PDF di inizio marzo erano (e sono) dei comunicati stampa, ovvero qualcosa di creato per essere leggibile dalle persone, con le colonne colorate, doppie e triple intestazioni, note a piè di pagina, ecc.
Un Personal Computer non sa leggere questi file in modo semplice e diretto: si dice infatti che non sono machine readable.
Inoltre veniva prodotto un file “del giorno”, quindi era impossibile leggere le variazioni dei dati nel tempo, che per fenomeni di questo tipo “è il dato”.
Allora abbiamo creato una procedura automatica, che ogni giorno trasformava quei PDF in “tabelle” leggibili da un PC, abbiamo lanciato insieme ad altri una campagna di passaparola che - data l’emergenza - ha funzionato molto bene e tre giorni dopo, oltre i PDF c’erano i file aperti e leggibili del Dipartimento della Protezione Civile. Erano delle “vere” tabelle, corredate da descrizione (i metadati). È evidente che il DPCM stesse lavorando sulla cosa, ma quanto fatto da noi è stato un acceleratore.
Ardemagni: Parliamo ora di quantità e qualità dei dati forniti: per voi affamati di numeri immagino che il primo piatto fosse anche quello più noto a livello popolare, il report quotidiano della Protezione Civile che a lungo è stato accompagnato dalla altrettanto popolare conferenza stampa delle ore 18. Ora il file viene rilasciato senza conferenza stampa.

Borruso: Consentimi su questo di fare una considerazione. È interessante constatare che l'opinione pubblica abbia mostrato più attenzione ai “numeri”, per comprendere un fenomeno. Spesso però ho visto purtroppo anche un atteggiamento simile a chi - durante le Olimpiadi - vuole aggiornarsi sul medagliere.

Ardemagni: Disdicevole. Ma se lo andiamo ad analizzare bene, mi sembra che il report quotidiano della protezione civile, nella sua prima versione sia piuttosto scarno. All’inizio comprendeva solo 5 campi (senza alcun dettaglio se non le regioni dei contagiati):

a) individui attualmente positivi ricoverate con sintomi

b) individui attualmente positivi in isolamento domiciliare

c) individui attualmente positivi in terapia intensiva

d) guariti a oggi

e) deceduti a oggi

Tutti gli altri dati forniti non aggiungevano nulla perché erano facilmente ricavabili dalle somme e differenze di questi cinque campi o dal confronto di questi cinque dati con gli stessi cinque del giorno prima: ad esempio per calcolare gli individui attualmente positivi basta sommare a+b+c o per sapere i contagiati a oggi basta sommare a+b+c+d+e.

Borruso: La cosa interessante della modalità scelta dalla protezione civile, è quella di poter visualizzare tutto lo storico dei dati pubblicati, tutte le variazioni in termini di contenuti, descrizione e schema quindi non solo il dato, ma anche la modifica nel corso del tempo della struttura in cui veniva inserito.
Questo perché la protezione civile pubblica i dati su GitHub, una piattaforma basata sul cosiddetto "versionamento", che memorizza tutte le versioni di un file nel tempo (qui lo storico delle variazioni del file per province del 24 febbraio).


Comunque al primo upload (7 marzo) i dati avevano la struttura che dici. Oggi è invece così, con variazioni soprattutto in termini di leggibilità del dato (che è un fatto sempre utile) senza però integrazioni importanti (specie per i dati provinciali).
Ardemagni: Sì, è vero: ora c’è qualcosa di più. Di fatto, come nuovi dati grezzi sono stati aggiunti soltanto due campi: il numero dei “tamponi” effettuati e i “casi testati” (numero delle persone sottoposte a tampone, che è necessariamente un numero inferiore rispetto a quello dei tamponi, perché molti tamponi sono stati fatti a individui che ne avevano già fatto almeno uno). Gli altri campi aggiunti effettivamente aumentano la leggibilità,  ma ancora erano facilmente ricavabili da operazioni sugli altri campi o sul file del giorno precedente.

Chi volesse approfondire ulteriormente quali altri strumenti e fonti dati istituzionali ha a disposizione?

Borruso: La seconda fonte, anche ben realizzata dal punto di vista grafico è quella pubblicata sulla sezione “Epicentro” dell'Istituto Superiore di Sanità (con dati raccolti dalle regioni). Qui ci vengono forniti alcuni dati che sul report quotidiano non sono presenti (del resto là ci sono solo sette numeri): qui proseguendo la conta dei campi abbiamo 8) il numero di operatori sanitari contagiati; 9) lo stato clinico dei contagiati attualmente positivi (percentuali su una scala di sei stati da severo ad asintomatico); 10) La ripartizione in quattro fasce d’età dei casi; 11) l’età mediana dei casi; 12) la ripartizione per genere dei casi 13) la suddivisione in dieci fasce d’età dei deceduti; 14) la percentuale di ogni fascia d’età sul totale dei deceduti; 15) la letalità per ognuna delle dieci fasce d’età e totale; 16) il numero totale dei casi diviso per provincia (e anche accorpato per regione). 


Ardemagni: Questa infografica è rilasciata quotidianamente? E da quando?

Borruso: È settimanale ed è disponibile da metà marzo, purtroppo, diversamente dal bollettino quotidiano della protezione civile, il pubblico generalista non può reperire direttamente l’archivio storico delle infografiche: può vedere solo l’ultima. Sarebbe meglio rendere disponibili le vecchie versioni. Purtroppo queste comunicazioni sono viste con la vecchia ottica del comunicato stampa e dell’aggiornamento e non sono viste come uno strumento di lavoro e di analisi. Per questo motivo abbiamo provveduto noi a salvare tutte le vecchie versioni dell’intera sezione Epicentro sul web archive. Così che almeno gli analisti dati possano analizzare le versioni storiche di questa infografica e delle due prossime preziose risorse che sto per introdurre.

Ardemagni: Di cosa si tratta? 

Borruso: Sono i due documenti più importanti e si trovano sempre nella sezione Epicentro del sito dell’Istituto superiore di Sanità:

- Epidemia Covid-19 - Aggiornamento nazionale (Report Esteso)

- appendice al bollettino con dettaglio regionale (qui l’ultimo)
Le ultime due versioni disponibili sono rispettivamente di 17 e di 136 pagine.


Questa grafica, ad esempio è tratta dall’aggiornamento nazionale, e qui troviamo ben rappresentato il dettaglio per genere e classe d’età:



Nel “bollettino con il dettaglio regionale” si trovano, ad esempio, i dati suddivisi per comune:




O altri dati a livello regionale:



Ardemagni: Vedo che sono entrambi molto dettagliati. Ci sono moltissimi dati, anche quelli di cui molti sindaci lamentavano la mancanza. Ne cito alcuni: l’incidenza cumulativa (quanti casi per 100.000 abitanti per ogni provincia), i casi con data prelievo/diagnosi nell’ultima settimana, l’incidenza di questi casi (quanti per 100.000) e poi, finalmente, troviamo il famoso indice di riproduzione, che dovrebbe dare il vero polso della situazione sul contagio. Vedo però che a livello regionale è calcolato su pochi casi e con intervalli di confidenza molto molto larghi, mentre in Germania questo indice è aggiornato quotidianamente.  Si potrebbe fare meglio?

Borruso: I problemi che vediamo sono: 1) la frequenza; 2) la tempestività della pubblicazione: in questo momento (sono le ore 14 del 16 giugno), abbiamo bollettini datati 9 giugno che sono stati pubblicati il 12 giugno; 3) la mancanza di reperibilità dei vecchi bollettini: abbiamo dovuto pensarci noi come “hacker civici” a salvare le vecchie versioni del sito Epicentro per avere a disposizione tutte le versioni dei due bollettini: (abbiamo attivato l’archiviazione automatica su Internet Archive), come quella del 26 marzo, trovi anche le fasce di età (certo per il pubblico generalista è piuttosto complesso reperirle); 4) il quarto problema è che purtroppo ancora una volta è tutto in PDF e quindi chi vuole lavorarci e farci delle analisi ha la vita un po’ più dura. A nostro avviso quindi non è un difetto di raccolta o di comunicazione, ma una scelta. 

Va segnalato poi che, comunque, per quanto ricchi non ci sono esattamente tutti i dati che potrebbero servire e poi ci sono alcune regioni che pubblicano soltanto alcuni di questi dati, quindi si sta un po’ alla fortuna; perché non c’è un protocollo condiviso e seguito dalle regioni, quantomeno nelle modalità scelte per la diffusione pubblica dei dati.


Ardemagni: Aggiungo un ulteriore problema, che però affligge anche il primo documento citato: il famoso bollettino della protezione civile, perché è inerente alla raccolta dei dati sul territorio. Per le prime settimane abbiamo dato per scontato che se il 15 marzo ci comunicavano, ad esempio, prendo La stampa del 30 marzo: “Ieri in Piemonte si sono contati 72 decessi, di cui 23 in provincia di Torino” allora questi 72 fossero tutti deceduti nelle ultime 24 ore. Poi, a partire dal 2 maggio, ma molti lo sospettavano già da prima, ci siamo resi conto che moltissimi di questi decessi o nuovi casi si riferivano a qualche giorno prima o addirittura a molti giorni o settimane prima, a volte mesi. Cosa sta alla base di questi caricamenti tardivi di dati relativi ai contagi o ai decessi (come recentemente per la regione Abruzzo e per la Lombardia a partire dal 2 maggio)?

Borruso: Qui mi sembra doveroso inserire il link alla segnalazione sull’Abruzzo fatta da un utente e alla risposta ufficiale del DPCM: “c'è stato un errore di comunicazione dei dati e domani saranno bonificati i dati del 31 in modo che i dati saranno coerenti.

Non si hanno informazioni sui protocolli/procedure informatiche di raccolta e poi di comunicazione di questi dati. Le cause di questi errori di “comunicazione” possono essere quindi le più disparate.

Ardemagni: La tempestività (o la mancata tempestività) e il livello di dettaglio (o lo scarso livello di dettaglio) a cosa va imputato?
Borruso: È stata un’emergenza con dei momenti molto complessi. È un fatto scontato, ma voglio sottolinearlo, perché per una parte, specie nelle prima fasi è stato dovuto anche a questo.
È una domanda che andrebbe girata ai responsabili della macchina informativa dei nodi periferici di trasmissione e raccolta dati; la mia risposta è un’opinione un po’ da bar, perché deriva da commenti che mi sono stati riferiti e dalla mia esperienza di consulente per la Pubblica Amministrazione.
Mi ripeto: penso che dipenda principalmente da un’assenza e/o da una mancata  un’attuazione di un protocollo condiviso, che faccia da standard per tutte le PA coinvolte.

Ardemagni: Ma il vero punto è questo: questo metodo di raccolta e comunicazione di dati è adatto alla gestione di una eventuale nuova ondata che potrebbe presentarsi, almeno inizialmente, con piccoli focolai molto localizzati?

Borruso: Chi gestisce da “dentro” questi focolai è quasi sicuramente messo a conoscenza delle informazioni utili per gestire la cosa. Mentre da “fuori”, le evidenze pubbliche dei dati raccolti ad oggi, specie quelle con taglio più “locale”, sono state e sono spesso poca cosa. Per dati a cui dare evidenza pubblica in questo contesto, quindi non riesco a immaginare un nuovo “passo” informativo.

Ardemagni: Cosa sta succedendo in Lombardia? Siamo in presenza 1) del caricamento tardivo di tanti casi "vecchi"; 2) di tamponi positivi recenti che però si riferiscono a persone “ancora positive”, ma contagiate settimane fa, o 3) sono davvero in corso focolai specifici? Io credo, anche leggendo varie analisi pubblicate sui quotidiani (vedi introduzione a questa intervista), di un misto tra 1) e 2): certo l’incertezza del dato lombardo, specie paragonata con il dettaglio dei casi delle altre regioni fa impressione.
Borruso: La Regione Lombardia ha una dashboard cartografica - in parole semplici una mappa online dedicata alla COVID-19 - alimentata da un sito pubblico, ma non “palese” il cui indirizzo è visibile soltanto guardando il codice HTML della pagina con la mappa (qui ad esempio l’accesso ai dati regionali sui tamponi).
È un sito pubblicamente accessibile, di cui però - ripeto - non è stata evidenza palese.
Contiene i riferimenti a due “tabelle” sui tamponi, una con taglio regionale e un’altra con taglio provinciale, in cui è possibile derivare le date di esecuzione dei tamponi. Questa è un’informazione di gran valore, che non è presente tra i dati del DPCM. Alcuni ricercatori, come Lorenzo Ruffino, ogni giorno analizzano i dati che noi carichiamo da quel sito e, facendo la differenza, attribuiscono le date corrette.
Due elementi da sottolineare: 1) il primo è uno spostamento dei numeri di tamponi nei vari giorni, 2) il secondo è che i dati con taglio provinciale non sono purtroppo più utilizzabili da circa 15 giorni. 



Ardemagni: Probabilmente a livello regionale non si vuole troppo rumore attorno a questa cosa? Questo acuisce quel senso di incertezza a cui mi riferivo

Borruso: Le due cose hanno creato una certa attenzione mediatica. Non ci sono elementi però per fare un reverse engineering che consenta di comprendere quali siano le cause che hanno prodotto questi “aggiustamenti” di date o la rimozione del dettaglio provinciale.
Ma è un’occasione che fa emergere come prerequisito uno dei punti sottolineato dai “Lincei”: “la disponibilità dei dati pubblici è necessaria per poter coinvolgere la comunità scientifica nel governo dell’epidemia”.