Home > Open Data, Open Source, Progetti > OpenStreetMap, GeoPortale Nazionale e OpenRefine: tutorial per come farsi del geocoding in casa partendo da un elenco di indirizzi

OpenStreetMap, GeoPortale Nazionale e OpenRefine: tutorial per come farsi del geocoding in casa partendo da un elenco di indirizzi


Partendo dal mio ultimo post “Come convertire indirizzi in coordinate geografiche (geocoding) usando i servizi WFS del GeoPortale Nazionale e Open Refine“, che ha tratto ispirazione da quest’altro post “Using OpenRefine to geocode your data with Google and OpenStreetMap API”, ho provato a mettere insieme le cose per cercare di ottenere una sorta di “guida” su come, partendo da un foglio elettronico in  cui vi siano dei dati da georiferire per indirizzo, ottenerne la georeferenziazione, con la migliore precisione possibile e al più approssimata  al Comune.

Ecco quali sono i criteri che ho provato a seguire:

  1. se il dato è possibile georiferirlo usando i dati di OpenStreetMap e quindi le  MapQuest Nominatim API, questa viene considerata la prima e migliore delle opzioni: occorre tuttavia appurare che la georeferenziazione avvenga per “osm_type=node”, e quindi per punto. Sostanzialmente se quello specifico numero civico esiste tra i dati di OpenStreetMap, questo viene considerato il dato migliore
  2. se il dato non è georiferibile usando i dati di OpenStreetMap e quindi le  MapQuest Nominatim API per “nodo”, si verifica se lo sia usando i servizi WFS del GeoPortale Nazionale: se lo è viene questa viene considerata come seconda opzione
  3. se il dato non è georiferibile usando i dati di OpenStreetMap e quindi le  MapQuest Nominatim API per “nodo”, e nemmeno usando i servizi WFS del GeoPortale Nazionale, si verifica se lo sia usando i dati di OpenStreetMap e quindi le API di Nominatim per “osm_type=way”, e quindi per interpolazione sulla strada: se lo è viene questa viene considerata come terza opzione
  4. se il bene non è georiferibile nè usando i dati di OpenStreetMap e quindi le  MapQuest Nominatim API per “nodo”, nè usando i servizi WFS del GeoPortale Nazionale, e nemmeno usando i dati di OpenStreetMap e quindi le  MapQuest Nominatim API per “osm_type=way”, si verifica se lo sia usando e API di Nominatim georeferendo per Comune: se lo è (e lo dovrebbe essere sempre …..), viene questa viene considerata come quarta opzione ovviamente con un grado di approssimazione molto elevato e grossolano.

In questo modo, classificando la tipologia di metodo di georeferenziazione, possiamo differenziare per  la “qualità” della precisione con cui quel dato è stato georiferito per indirizzo.

Come detto in precedenza si ipotizza di partire da un foglio elettronico che contenga i dati da georiferire. La sua struttura dati può essere libera: nel seguito si indicheranno quali sono i nuovi campi da creare che, al termine delle operazioni potranno essere eliminati, lasciando i soli campi contenenti le coordinate degli indirizzi e la tipologia di modalità di geocodifica.

  1. aprire il foglio elettronico in Google Refine / Open Refine e generare un progetto
  2. creare una colonna con nome “Comune-work-1” contenente il nome del comune
  3. creare una colonna con nome “Comune-work-2” partendo dalla colonna “Comune-work-1” applicando la formula replace(value,' ','%20')
  4. modificare il contenuto della colonna “Comune-work-2” applicando la formula replace(value,'\'','%27'). NOTA: se nel nome del comune compaiono altro caratteri particolari, replicare sostituendo le rispettive sequenze di escape.
  5. creare una colonna con nome “Ubicazione-work-1” contenente la ubicazione (es. Via Roma), SENZA civico
  6. creare una colonna “Ubicazione-work-2” partendo dalla colonna “Ubicazione-work-1” eliminando gli spazi sostituendoli con il carattere di escape %20, eliminando gli apostrofi sotituendoli con il carattere di escape %27, ecc … Occorre lavorare un pò direttamente in Refine: se non ci sono info o se ci sono info non corrette mettere come valore “xxx”
  7. creare una colonna con nome “Civico-work-1” contenente il SOLO numero civico. Occorre lavorare un pò in Excel o Refine: se non ci sono info o se ci sono info non corrette mettere “xxx”
  8. creare una colonna “ResponsePCN” il cui contenuto è il risultato delle query WFS al PCN, fatte ogni 1500 millisecondi (o superiore …) ottenute da 'http://wms.pcn.minambiente.it/ogc?map=/ms_ogc/wfs/Numeri_Civici_2012.map&VERSION=1.1.0&service=wfs&request=GetFeature&TYPENAME=IN.NUMERICIVICI.2012&Filter=%3Cogc:Filter%20xmlns:ogc=%22http://www.opengis.net/ogc%22%3E%3CAND%3E%3Cogc:PropertyIsEqualTo%20matchCase=%22false%22%3E%3Cogc:PropertyName%3Ecomune%3C/ogc:PropertyName%3E%3Cogc:Literal%3E' + cells["Comune-work-2"].value + '%3C/ogc:Literal%3E%3C/ogc:PropertyIsEqualTo%3E%3Cogc:PropertyIsEqualTo%20matchCase=%22false%22%3E%3Cogc:PropertyName%3Enome%3C/ogc:PropertyName%3E%3Cogc:Literal%3E' + cells["Ubicazione-work-2"].value + '%3C/ogc:Literal%3E%3C/ogc:PropertyIsEqualTo%3E%3Cogc:PropertyIsLike%20matchCase=%22false%22%20wildCard=%22*%22%20singleChar=%22.%22%20escapeChar=%22!%22%3E%3Cogc:PropertyName%3Ecivico%3C/ogc:PropertyName%3E%3Cogc:Literal%3E*' + cells["Civico-work-1"].value + '*%3C/ogc:Literal%3E%3C/ogc:PropertyIsLike%3E%3C/AND%3E%3C/ogc:Filter%3E'
  9. creare una colonna “Lat-PCN” partendo dalla colonna “ResponsePCN” ed applicare la seguente regola: toNumber(split(trim(substring(value.parseHtml().select("gml|Point gml|pos")[0].toString(),10, -10)), " ")[0])
  10. creare una colonna “Lon-PCN” partendo dalla colonna “ResponsePCN” ed applicare la seguente regola: toNumber(split(trim(substring(value.parseHtml().select("gml|Point gml|pos")[0].toString(),10, -10)), " ")[1])
  11. usare le facets “Text” sulla colonna “Lat-PCN“: selezionare le righe “blank” e valorizzare a 0
  12. usare le facets “Text” sulla colonna “Lon-PCN“: selezionare le righe “blank” e valorizzare a 0
  13. creare una colonna “AddressForOsmNominatim” da valorizzare con la seguente regola: cells["Ubicazione-work-2"].value + "%20" + cells["Civico-work-1"].value + "," + cells["Comune-work-2"].value + ",Italia"
  14. creare una colonna “ResponseNominatimForAddress” il cui contenuto è il risultato della query a Nominatim con la seguente chiamata: 'http://open.mapquestapi.com/nominatim/v1/search.php?format=json&q=' + cells["AddressForOsmNominatim"].value
  15. creare una colonna “Lat-OSM-Address-Node” partendo dalla colonna “ResponseNominatimForAddress” ed applicare la seguente regola: if(value.parseJson()[0].osm_type=="node",value.parseJson()[0].lat,"")
  16. usare le facets “Text” sulla colonna “Lat-OSM-Address-Node“: selezionare le righe “blank” e valorizzare a 0
  17. creare una colonna “Lon-OSM-Address-Node” partendo dalla colonna “ResponseNominatimForAddress” ed applicare la seguente regola: if(value.parseJson()[0].osm_type=="node",value.parseJson()[0].lon,"")
  18. usare le facets “Text” sulla colonna “Lon-OSM-Address-Node“: selezionare le righe “blank” e valorizzare a 0
  19. creare una colonna “Lat-OSM-Address-Way” partendo dalla colonna “ResponseNominatimForAddress” ed applicare la seguente regola: if(value.parseJson()[0].osm_type=="way",value.parseJson()[0].lat,"")
  20. usare le facets “Text” sulla colonna “Lat-OSM-Address-Way“: selezionare le righe “blank” e valorizzare a 0
  21. creare una colonna “Lon-OSM-Address-Way” partendo dalla colonna “ResponseNominatimForAddress” ed applicare la seguente regola: if(value.parseJson()[0].osm_type=="way",value.parseJson()[0].lon,"")
  22. usare le facets “Text” sulla colonna “Lon-OSM-Address-Way“: selezionare le righe “blank” e valorizzare a 0
  23. creare una colonna “CityForOsmNominatim” e valorizzare con la seguente regola: cells["Comune-work-2"].value + ",Italia&limit=1"
  24. creare una colonna “ResponseNominatimForCity” il cui contenuto è il risultato della query a Nominatim con la seguente chiamata: 'http://open.mapquestapi.com/nominatim/v1/search.php?format=json&q=' + cells["CityForOsmNominatim"].value
  25. creare una colonna “Lat-OSM-City” partendo dalla colonna “ResponseNominatimForCity” ed applicare la seguente regola: value.parseJson()[0].lat
  26. usare le facets “Text” sulla colonna “Lat-OSM-City“: selezionare le righe “blank” e valorizzare a 0
  27. creare una colonna “Lon-OSM-City” partendo dalla colonna “ResponseNominatimForCity” ed applicare la seguente regola: value.parseJson()[0].lon
  28. usare le facets “Text” sulla colonna “Lon-OSM-City“: selezionare le righe “blank” e valorizzare a 0
  29. creare una colonna “GeoRefType” e valorizzare cona la seguente regola: if(cells["Lon-OSM-Address-Node"].value!="0","OSM_NODE",(if(cells["Lon-PCN"].value!="0","GN",(if(cells["Lon-OSM-Address-Way"].value!="0","OSM-WAY","OSM-CITY")))))
  30. creare una colonna “Lat” e valorizzare cona la seguente regola: if(cells["Lat-OSM-Address-Node"].value!="0",cells["Lat-OSM-Address-Node"].value,(if(cells["Lat-PCN"].value!="0",cells["Lat-PCN"].value,(if(cells["Lat-OSM-Address-Way"].value!="0",cells["Lat-OSM-Address-Way"].value,cells["Lat-OSM-City"].value)))))
  31. creare una colonna “Lon” e valorizzare cona la seguente regola: if(cells["Lon-OSM-Address-Node"].value!="0",cells["Lon-OSM-Address-Node"].value,(if(cells["Lon-PCN"].value!="0",cells["Lon-PCN"].value,(if(cells["Lon-OSM-Address-Way"].value!="0",cells["Lon-OSM-Address-Way"].value,cells["Lon-OSM-City"].value)))))
  32. applicare la trasformazione “To number” alle celle della colonna “Lat
  33. applicare la trasformazione “To number” alle celle della colonna “Lon
  34. cancellare, se desiderato, tutte le colonne di lavoro mantenendo solo le colonne “GeoRefType“, “Lat” e “Lon

Quanto descritto sopra ha valenza generale e può essere modificato a piacere, sia alterando i criteri utilizzati per dare le priorità di georeferenziazione tra le diverse alternative, sia, qualora si individuassero altri servizi WFS di esposizione dei numeri civici georiferiti in aggiunta a quelli del GeoPortale Nazionale, per estendere le fonti utilizzate.

A questo punto non vi resta che provare con dei vostri dati (se ci sono errori o cose non chiare segnalate e chiedete …. proviamo a risolvere insieme), e mettere così le vostre informazioni, delle quali al momento avete solo un indirizzo, su una qualunque mappa desideriate.

Enjoy!

 

  1. Non c'è ancora nessun commento.
  1. No trackbacks yet.

Lascia un commento

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...

%d blogger cliccano Mi Piace per questo: