Archivio

Archive for Maggio 2020

(Più) Open data e (meno) dashboard al tempo del COVID

4 Maggio 2020 7 commenti

Da quando è diffusa a livello mondiale la pandemia COVID sono sorte innumerevoli dashboard (con mappa o meno …), utilizzate per comunicare le informazioni e i dati della diffusione del contagio.

A questi strumenti, sicuramente utili e più o meno graficamente gradevoli e/o semplici da usare, non ha fatto seguito, in parallelo, la pubblicazione dei “dati” su cui queste si basano utilizzando una modalità aperta ed interoperabile , basandosi su standard e formati di interoperabilità internazionali ed utilizzando licenze d’uso dei dati (e dei servizi) adeguate.

Ma l’importanza di avere questi dati disponibili, e quindi di “liberarli” per garantire innanzi tutto, da un lato, la massima trasparenza e dall’altro per permettere analisi, approfondimenti e ausilio “data-driven” alle decisioni, è quanto mai impostante: cito alcuni riferimenti:

Su questo fronte, almeno a livello del panorama nazionale, si è in forte carenza e ritardo (tranne alcuni esempi / best practise più felici …).

Anzi in alcuni casi, pur a fronte di richieste della società civile fatte alle diverse Pubbliche Amministrazioni, pur seguendo le regole correnti, c’è stata una forte chiusura arrivando a sospendere il FOIA (esempio https://www.infodata.ilsole24ore.com/2020/03/30/sta-andando-lepidemnia-del-coronavirus-piemonte/)

Tralasciando e non entrando  nelle ragioni “politiche” di questi approcci (che sono out-of-scope del post …), e tornando all’aspetto più “tecnico” …….. ci sono esempi virtuosi, tool e soluzioni, standard che possono essere utilizzati per raggiungere, e bene, l’obiettivo? Provo a portare qualche contributo sperando che sia (ancora), utile.

 

Dipartimento Protezione Civile

Sicuramente i punto di partenza può essere il repository GitHub del Dipartimento della Protezione Civile dedicato al COVID in Italia che è disponibile al seguente url:

https://github.com/pcm-dpc/COVID-19

in cui sono raccolti e forniti, con aggiornamento giornaliero, i dati relativi all’andamento nazionale espressi per Regioni e Province.

I dati sono disponibili con licenza CC-BY-4.0 – Visualizza licenza

La struttura in cui sono raccolti i dati è la seguente:

Tali dati sono resi, ad oggi, disponibili in formato CSV ai seguenti riferimenti:

Sembra esserci una iniziativa (non ancora disponibile …), per pubblicare questi stessi dati anche come API Rest (Json) e GraphQL  (rif. https://github.com/pcm-dpc/COVID-19/commit/c5cfabe8b8b666b93ed6b6ae3103f76e93bda3ca), il che sarebbe sicuramente un gran passo in avanti per l’interoperabilità ed il riuso.

Il dipartimento della Protezione Civile pubblica anche una dashboard che è consultabile qui:

 

Il repository del Dipartimento della Protezione Civile si presenta quindi in sintesi come un importante fonte di dati.

La grossa carenza, ed è un vero peccato, è la mancanza di dati ed informazioni a livello comunale.

 

Regioni

Sul fronte pubblicazione dati le Regioni si stanno muovendo in ordine sparso e disomogeneo.

Regione Lombardia pubblica una dashboard

https://experience.arcgis.com/experience/0a5dfcc103d0468bbb6b14e713ec1e30/

Al momento NON ci sono i dati su base comunale ma c’è stato un momento in cui questi dati erano disponibili come si vede dallo snapshot sotto

e grazie ad una sorta di “data leak” del servizio (accedendo a questi servizi, https://services1.arcgis.com/XannvQVnsM1hoZyv/ArcGIS/rest/services/TA_COVID19_RL/FeatureServer che ora sono stati resi non fruibili ….), i dati sono stati scaricati e sono ancora disponibili qui https://github.com/ondata/covid19italia/blob/master/webservices/regioneLombardia/processing/TA_COVID19_RL.csv e sono stati utilizzati per analisi e report giornalistici come questo https://www.giornaledibrescia.it/storie/coronavirus-il-punto/covid-19-il-profilo-dei-contagiati-bresciani-comune-per-comune-1.3474449

I dati della Lombardia non sono comunque ad oggi disponibili al dettaglio comunale ed in modalità open e interoperabile o machine-learning.

Anche Regione Piemonte pubblica la sua dashboard su mappa

https://www.regione.piemonte.it/web/covid-19-mappa-piemonte

tramite la quale è possibile interrogare i singoli comuni per avere l’informazione di quanti positivi al COVID sono presenti sul territorio comunale.

Anche qui c’è un caso curioso che è quello relativo la fatto che la mappa nella sua versione iniziale, al lancio del servizio, riportasse l’andamento dei contagi per comune, informazione che è poi sparita nelle versioni successive del servizio.

Anche i dati del Piemonte non sono comunque ad oggi disponibili al dettaglio comunale ed in modalità open e interoperabile o machine-learning.

Regione Lazio pubblica la sua dashboard su mappa

https://www.dep.lazio.it/covid/covid_map.php

dove anch’essa permette di interrogare i singoli comuni per avere l’informazione di quanti positivi al COVID sono presenti sul territorio comunale.

Anche i dati del Lazio non sono comunque ad oggi disponibili al dettaglio comunale ed in modalità open e interoperabile o machine-learning, sebbene sia possibile provare ad estrarre i dati in formato CSV, seppur in modo non documentato, con una modalità descritta qui https://github.com/ondata/covid19italia/blob/master/webservices/regioneLazio/README.md

Regione Friuli Venezia Giulia pubblica anch’essa la sua dashboard su mappa

https://covid19map.protezionecivile.fvg.it/

dove è possibile interrogare i singoli comuni per avere l’informazione di quanti positivi al COVID sono presenti sul territorio comunale.

A differenza delle precedenti regioni analizzate, il Friuli Venezia Giulia permette di scaricare i dati in formato CSV: non parliamo ancora di interoperabilità ma è già un passo avanti rispetto alla trasparenza e alla condivisione dei dati.

Come ultimo caso possiamo vedere la Regione Umbria che pubblica anch’essa la sua dashboard su mappa

https://coronavirus.regione.umbria.it/

 

 

Dalla dashboard è anche possibile filtrare per singolo comune e visualizzare, oltre ai dati numerici, anche l’andamento rispetto ad alcuni fattori, come pure fare filtri per data

A differenza delle altre regioni, ed è l’unico caso riscontrato sinora, pubblica anche in open data sul proprio portale degli open data le API di accesso ai dati stessi

https://apistore.regione.umbria.it/store/apis/info?name=COVID-19&version=1.0.0&provider=admin&tag=Agenda%20digitale-group

Quello dell’Umbria è quindi il primo caso, ed unico sinora, di esempio virtuoso di condivisione in modo aperto ed interoperabile dei dati legati alla pandemia di COVID che ho riscontrato sul piano nazionale

Per avere il quadro della situazione nell’insieme delle diverse Regioni italiane, si può fare riferimento ad un articolo (in continuo aggiornamento …), de Il Sole 24 Ore reperibile al seguente indirizzo https://www.infodata.ilsole24ore.com/2020/05/09/dati-coronavirus-regione-va-conto-suo-aiutateci-mappare-condivide-cosa-aggiornato/

 

Società civile ?

Cosa stanno facendo società civile e le comunità attive sul fronte degli open data su questo argomento?

Cito alcune iniziative, non così note ai più ma che necessitano di adeguato risalto.

All’inizio dell’epidemia quando ancora i dati non circolavano e ci si limitava a pubblicare, in modo non ancora strutturato i dati in forma aggregata tipicamente col slide o al più files in formato PDF (!!!!!),  l’associazione OnData (rif. https://ondata.it/), ha provveduto a raccogliere su un repository pubblico (rif. https://github.com/ondata/covid19italia), i dati pubblicati sul sito della Protezione Civile per renderli disponibili in formato machine-readable.

Questa iniziativa, insieme ad una pressione sui social per avere queste informazioni disponibili pubblicamente (rif. http://blog.ondata.it/coronavirus-abbiamo-trasformato-i-dati-ufficiali-in-formato-machine-readable-ma-chiediamo-alle-istituzioni-di-farlo-da-sole/), ha “spinto” il Dipartimento della Protezione Civile, all’apertura del repository GitHub del Dipartimento della Protezione Civile (rif. http://www.protezionecivile.gov.it/media-comunicazione/comunicati-stampa/dettaglio/-/asset_publisher/default/content/coronavirus-da-oggi-on-line-la-mappa-dei-contagi-in-italia), descritto all’inizio del post

 

Sul tale repository, alla data di questo post, i dati, sebbene pubblicati NON sono ancora fruibili in termini di API (sebbene questo sia  stato annunciato .. vedi quanto detto sopra …), e anche qui la società civile si è comunque già mossa in quest’ottica e ha provveduto, da fine marzo, a renderli fruibili in modalità JSON a questo indirizzo

https://openpuglia.org/content/i-dati-ufficiali-sullepidemia-covid-19-attraverso-api-openpuglia

  • Dati Regionali

E’ possibile ottenere gli ultimi dati relativi ad una singola regione attraverso il seguente endpoint:

https://openpuglia.org/api/?q=getdatapccovid-19&reg=puglia

dove reg=nomeregione

Per ottenere la serie storica dei dati giornalieri disponibili, va aggiunto mode=ts 

https://openpuglia.org/api/?q=getdatapccovid-19&reg=puglia&mode=ts

I dati di tutte le regioni possono essere ottenuti omettendo il parametro reg come in questo caso

https://openpuglia.org/api/?q=getdatapccovid-19

  • Dati Nazionali

Per ottenere l’ultimo dato nazionale disponibile:

https://openpuglia.org/api/?q=getsummarydatacovid-19&lang=it

Mentre per ottenere la serie storica, anche in questo caso va aggiunto mode=ts

https://openpuglia.org/api/?q=getsummarydatacovid-19&mode=ts&lang=it

La comunità OpenDataSicilia ha raccolto qui https://opendatasicilia.github.io/COVID-19_Sicilia/ alcune visualizzazioni di base sulla COVID-19 per la Sicilia, mettendo insieme  i dati dei comunicati stampa della Regione Siciliana (dopo averli trasformati in tabella CSV), ed i dati già machine readable pubblicati dal Dipartimento della Protezione Civile.

Il risultato di questo lavoro è consultabile nelle seguenti modalità:

Infine, la stessa associazione OnData insieme a insieme a Transparency International Italia, Scienzainrete.it, The Good Lobby Italia, Cittadini Reattivi  … hanno scritto una lettere aperta (rif.  http://blog.ondata.it/covid-19-lettera-aperta-ai-presidenti-di-regione/), ai Presidenti delle Regioni italiane in cui si richiede di rendere aperti i dati relativi al COVID in loro possesso.

 

Standard ?

Abbiamo visto che sia il Dipartimento della Protezione Civile sia le Regioni adottano modalità diverse per la pubblicazione dei dati, tipicamente, tranne il caso di Regione Umbria che ha delle API pubbliche di consultazione dei dati, tramite delle dashboard.

Nasce quindi i problema di come mettere insieme queste informazioni per una visione complessiva.

Esistono a tal proposito degli standard a cui provare ad attenersi per descrivere in modo completo e condiviso questi dati?

La risposta è SI …..  ad esempio:

  • standard JSON based
    •  CovidJSON (rif https://covidjson.org/)
      • un geoJson data model per lo scambio di informazioni che si basa sui concetti dello standard OGC/ISO Observations & measurements Standard (OGC O&MISO 19156
      • è stato creato per raccogliere e scambiare dati sull’infezione SARS-CoV-2 ma è sufficientemente generale per applicarsi anche ad altre tipologie di infezione
    • The COVID Tracking Project propone, sullo scenario statunitense, questo https://covidtracking.com/api
  • standard ontologie

 

Dashboard open source ?

Anche su fronte dashboard esiste una forte eterogeneità: ogni Regione si è mossa in autonomia e questo ha voluto dire sforzi (e costi …), paralleli per ottenere risultati “funzionalmente” ampiamente sovrapposti. Forse una maggiore sinergia avrebbe permesso di unire le forze e ridurre i costi sostenuti nell’insieme.

Esistono dashboard open source da cui attingere? Anche qui la risposta è SI !!

La più interessante, per una serie di ragioni che riporto tra breve è la seguente (rif. https://www.geosolutionsgroup.com/blog/health-sdi-covid-map/)

Le ragioni per cui la segnalo sono le seguenti:

  • si basa su un concetto di Health Spatial Data Infrastructure di cui esiste un recente white paper Health Spatial Data Infrastructure: Application Areas, Recommendations, and Architecture  dell’Open Geospatial Consortium (OGC)
    • l’avere un “catalogo” dati e una “infrastruttura” è condizione fondamentale
    • …..  What is critical from the workflow is the catalog, which is the heart of an SDI. If you don’t know what data is available you can’t put it together in a fast manner and it requires phone calls, emails, searching, scraping websites, etc., wasting precious time ….”
    • …. Organizations harvesting information from different sources to create dashboards mostly rely on personal communications and getting the data from official web reports available at government/intergovernmental websites. Then, they create “machine readable formats” such as JSON or CSV that are ingested in the web clients. The “manual process” of getting the data requires a lot of human power, and fortunately for this crisis there are a lot of people willing to help. This is not the ideal. Government and other official sources should be making data available via open standards following the recommendation in the report…..
  • NON costruisce questo catalogo ma si basa su:
  • il client NON ha un suo database ma si basa solo ed esclusivamente sull’utilizzo delle API
    • questo permette di installarlo anche su un qualunque cloud provider
  • è rilasciato in modalità open source con licenza BSD
  • è anche un pò italiano e ciò, a maggior ragione in questo momento, non guasta!

In conclusione …. più dati, più standard, più interoperabilità e meno dashboard!!!!

P.S

Segnalazioni di altre realtà / esempi virtuosi sono ben accette e provvederò ad integrarle nel post