Processing: 1. LibreOffice: convert to csv (actually, tsv) and also format date to the nob-format 2. sh csv2xml_awk.sh 3. java -Xmx16800m -Dfile.encoding=UTF8 net.sf.saxon.Transform -it:main correct_flat-xml.xsl 4. java -Xmx16800m -Dfile.encoding=UTF8 net.sf.saxon.Transform -it:main flat-xml2geo-xml.xsl Input/Output: 0_input ==> initial input 1_sxml ==> simple, flat xml 1_xxml ==> corrected xml 2_exml ==> embedded xml 3_uxml ==> unified xml 4_axml ==> analysed xml ======= TODO: 1. check the pl_name_id and unify all entries with the same ID ==> DONE ==> check entities with same sk_id, ergo same name, but different municipalities (also geo_coordinates?) such as 'Lyngen Tromsø', 'Narvik Skånland', 'Nordkapp Porsanger' - this is true for rivers Sukielva versus Sukielva but they share the geo_coordinates. ==> splitt string: Unjárga Nesseby ==> check geo_coordinates for a different river and for other entities than rivers, e.g. Spiertanjarga or Luspie ==> DONE inc>g 'g ' 1.7 Typestatus: (SNTYSTAT) Hoved-, side- eller undernavn. Begrepene side- eller undernavn kan brukes hvis to eller flere navn på samme språk er i bruk på samme navneobjekt, f.eks. en fjelltopp med forskjellige navn fra to dalfører. Et sidenavn er like mye brukt som et hovednavn, men av presentasjonshensyn på kartet, har man har valgt ett navn som hovednavn. Begrepet undernavn brukes hvor navnet er i mindre bruk enn hoved- /sidenavn. Hvis det er i bruk ett eller flere navn på et annet språk på samme navneobjekt, skal disse registreres som egne navneenheter med begrepene hovednavn, sidenavn og undernavn. Dette gjelder også når navneenheten er lånt fra et språk til et annet språk. Eks Kautokeino (norsk) og Guovdageaidnu (samisk). (se også avsnitt 3.1 “Informasjonstyper” ). Hvis det er to navn fra to forskjellige språk, skal begge registreres som hovednav https://objektkatalog.geonorge.no/Objekttype/Index/EAID_887F8BB7_FB60_48a2_865D_3A825DC58217 Hovednavn H Verdien settes alltid til H når det kun er ett stedsnavn til stedet. Hvis det til stedet er flere stedsnavn i to eller flere språkformer, skal ett stedsnavn fra hvert språk ha verdien H. Sidenavn S Brukes der det ikke kan fastslås at ett av to eller flere forskjellige navn har større bruksverdi enn andre. Undernavn U Brukes der ett av to forskjellige navn har mindre bruksverdi enn det andre stedsnavnet, som vurderes som hovednavnet. ==> unify ids; pl_nr is the key: pl_name_nr and spelling_nr in the individual name elements Sukielva ==> unify by lang; add pl_name_nr and spelling_nr ==> there can be more than one municipality (factor it out) ==> scope is the individual name element elv ==> as municipality ==> as municipality Goåbrie Gåebrie 2. run them against the appropriate fst (sme, sma, fkv) ==> DONE (to refile the geo_fst lookup) 3. check this db against previous proper name data - smi/geo/xml_src - smi/geo/src/*lexc ==> ONGOING ... and Trond's notes: 1 send to strict geo.fst 1a. correct written name gets answer 1b. errouneously written gets ? 2 send ? forms to sloppy geo, and present answer 3 send answer to geo again, and present correct input form TODO: Geo-NDS with online map http://www.geonames.org/search.html?q=Fiskenes&country=NO http://www.geonames.org/maps/google_61.9605555555556_33.3647222222222.html ======= Some notes about the latest version of the SK-database. 1. Is place number not a kind of ID for the SK? g '

12147

1

1

Goåbrie

sma

avslått

02.12.1993

iverksattVedtak

hovednavn

fjellområde

Holtålen

MULTIPOINT

11.586425 62.8729583333333,11.586425 62.8729555555556,11.6141583333333 62.8797166666667,11.5864222222222 62.8729555555556

12147

1

2

Gåebrie

sma

vedtatt

02.12.1993

iverksattVedtak

hovednavn

fjellområde

Holtålen

MULTIPOINT

11.586425 62.8729583333333,11.586425 62.8729555555556,11.6141583333333 62.8797166666667,11.5864222222222 62.8729555555556

12147

2

1

Kjølifjellet

nor

godkjent

01.07.1991

ubehandlet

hovednavn

fjellområde

Holtålen

MULTIPOINT

11.586425 62.8729583333333,11.586425 62.8729555555556,11.6141583333333 62.8797166666667,11.5864222222222 62.8729555555556

==> It seems that these have to be unified (after filtering the 'avslått' entires). 2. What is the real meaning of "MULTIPOINT"? Why MULTIPOINT with only ONE district name? ==> It seems that these are points to unify by line for getting the spott of the entity.