!!!Giellatekno-møte 22.4. 2015
Ciprian, Lene, Trond
!!Saksliste
* korpus
* undervisning på bachelorprogrammet språk-sinn-samfunn
* oppsummering Ulan-Ude-reisa
* smenob/nobsme attributter
* frekvenssorterte lister for sme-tekster
!! Korpus og Korp
!Korp
Ciprian arbeider med
* Korp-grensesnittet må bli oppdatert
* Lemgram / Ordbild må på plass.
* translations: _xxx, må rettes eller oversettes fortest mulig
** (corpora-LG.json locale-LG.json)
* translating news: korp/frontend/news/gt_news.json
** Denne fila skal også lokaliserast (Cip)
{{{
newsdata([
{
"h":{
"en":"
The Korp interface has been updated to version 4.0.
",
"sv":"The Korp interface has been updated to version 4.0.
",
"nb":"Korp grensesnittet ble oppdatert til versjon 4.0.
",
"fi":"The Korp interface has been updated to version 4.0.
",
"se":"The Korp interface has been updated to version 4.0.
",
},
"t":{
"en":"Korp interface updated ",
"sv":"Korp interface updated ",
"nb":"Korp grensesnittet oppdatert ",
"fi":"Korp interface updated ",
"se":"Korp interface updated ",
},
"d":"2015-04-20"
},
}}}
Problem med lokalisering:
Viss du ikkje har like mange original:omsetjing i json-fila
kjem ingenting på nett.
{{{
main/apps/korp/frontend/translations
locale-nb.json: "show_diagram" : "Visa trenddiagram_xxx",
locale-nb.json: "non_time_before" : "Saknar tidsuppmärkning: _xxx",
locale-nb.json: "non_time_after" : " av valt material_xxx",
}}}
Tiltak: Forbetre omsetjing fortest mulig
* Legge til xxx: Cip
* fi: Trond
* nb: Lene
* se: Lene
* sv: Trond
Refere til Korp (SIKOR) bør oppdateres fortest mulig.
Her er infoboksen:
----
* SIKOR. UiT Norgga árktalaš universitehta ja Norgga Sámedikki sámi teakstačoakkáldat. (veršuvdna 01.03.2015)
* SIKOR. UiT Norges arktiske universitets og det norske Sametingets samiske tekstsamling. (versjon 01.03.2015)
* SIKOR. UiT Norjan arktisen yliopiston ja Norjan Saamelaiskäräjien tekstikokoelma. (versio 01.03.2014)
* SIKOR. UiT Norges arktiska universitets och norske Sametingets samiske
tekstsamling. (version 01.03.2015)
* SIKOR. UiT The Arctic University of Norway and the Norwegian Saami Parliament’s Saami text collection. (version01.03.2015)
----
!Korpus
Dette må følges opp:
* Setningsparallisering
* Legge inn samiske tall forteller (nr 3)
* Ikke maskinlesbare Dieđut-tekster (Børre?)
* Oppfølging av Kimberli (Trond)
!! Undervisning på bachelorprogrammet språk-sinn-samfunn
Gillian R har tatt kontakt om å tilby et nytt bachelorprogram språk-sinn-samfunn med engelsk om undervisningsspråk
* 1000 nivå kurs:
* 2000 nivå kurs: derav ett til tre kurs med språkteknologi (à 10 poeng)
Vi gir allerede nå kurs i språkteknologi, men dette kan evt formaliseres i offisielle kurs. Vi ser det ikke som hensiktsmessig at engelsk er undervisningsspråk.
Aktuelle temaer for 10-sv-kurs i språkteknologi til bachelorgrad i språk-sinn-samfunn:
* Eksisterende kurs: 10-poeng-fst (HIF-30xx, vekt på automatteori
* Eksisterende kurs: språkteknologi for samisk (mindre hands-on, meir bruk av språkteknologi)
* Kurs i unix for lingvistar, regulære uttrykk, korpusgrensesnitt + søkespråk
I tillegg har vi eit framlegg til språkteknologi for samisk, eit kurs med ei litt anna innretting enn bachelor i lingvistikk:
SAM-30xx
* "Emnet gir innføring i språkteknologi for samisk ved UiT. Denne kunnskapen vil gi studenten innsikt i datalingvistisk modellering og forståelse for språkteknologien bak sluttbrukerprogrammer og et automatisk analysert korpus. Studenten vil også få innsikt i utforming og testing av formelle språkmodeller. Studenter som ønsker det, kan arbeide videre med f.eks. endelige tilstandsautomater eller føringsgrammatikk på kurset SAM-3090 Spesialemne i samisk språkvitenskap."
!! Oppsummering Ulan-Ude-reisa
Arrangør: Buryaad statlige universitet v/ Jargal Badagarov:
[http://giellatekno.uit.no/conf/ulanude15/UlanUde.html]
Trond og Francis holdt kurs i FST for 15 personar for følgende språk:
* tyv: tuvinsk (tyrkisk)
** Resultat: Analysator, leksikon på 6500 ord, morfofonologi, 85% dekning av eit korpus 1M ord, sjekka inn i Apertium
* bxr: burjatisk (mongolsk)
** Resultat: twolc, substantivbøying, leksikon på 400 ord
** Resultat 2: Start på program for konvertering frå burjatisk til IPA
* khk khalkamongolsk (med personer fra Ulan Bator)
** Resultat: PC-KIMMO-versjon av morfofonologien overført til twolc, leksikon på 500 ord
* evn: evenkisk (tungusisk)
** Resultat: Analysator, 550 ord, storparten av morfofonologien, og 25% dekning av eit korpus på 13500 ord
* xwo: todo oirat (mongolsk)
** Resultat: demo-analysator med eitt ord (!), men inkludert i analysator med mongolsk -> latinsk under og latinsk -> mongolsk over, etter oppsettet frå præriecree (takk til Sjur for hjelp)
* xal: Kalmyk (mongolsk),
** Resultat: rudimentær analysator, 50 ord
* kjh: Khakas (tyrkisk),
** Resultat: ikkje innsjekkingar
Dessutan laga vi demoversjonar av stavekontrollar for bxr, khk, evn, xal. Merk at det er ein bug i Libreoffice-voikko for val av språk via ISO-kode, den er rapportert til Harri.
!Oppfølging:
* Rådgivning, de gjør arbeidet med FST sjøl
* Forslag om nettverk for å finansiere samlinger og studentutvekslinger
** Jargal suggests building a so-called “Thematic Network” (http://www.uarctic.org/media/817524/uarctic-guidelines-for-establishing-new-tns-oct2014.pdf) within the University of Arctic. The theme will be what unites us (building grammatical models and making both research and practical applications based on those models).
* Møte i arktisk universitet med delegasjon fra UiT til Ulan-Ude i juni i år.
!! smenob/nobsme attributter
Merking godkjente oversettinger og samiske stedsnavn
* Vi bör merke namn etter autoritativ kjelde (Kartverk, Giellagáldu, ..)
* Vi bör ikkje stryke ord vi ikkje kjenner eller rettskriving vi er skeptisk til, som er vedtatt
!Merking av namn
* Geo: Lene + Cip har diskutert, og har kontroll
* Normativt attributt
** attributtnamn: norm
** attributtverdi: SGG = Sámi giellagáldu, SR = Sámi giellaráđđi, Lov = vedtatt i hht til lov om stadnamn , SGL = Sámi giellalávdegoddi
* Kjelde-attributt
** attributtnamn: src
** attributtverdi: SK = Statens kartverk, KAL = Kåven et al, Qv = Qvigstad, PS = Pekka Sammallahtis ordbok, SA = Sámi atlas, ...
* Giellagáldu lister er innsjekka i smenob/inc/placenames og smenob/inc/ready_togo. Der er det bl.a. 250 namn på ei liste, SGG_Eurohpa_riikkat.xlsx
Dette skal vere dokumentert på sida vår for ordbøker.
Attributtene for src og norm legges på t-nivå.
!Konklusjon:
# FAD som attributt blir flytta frå til
# Lista over opprinnelege ord frå FAD blir greppa ut og lagra som ei liste
under heimesida til FAD-prosjektet
# Skilnaden ( alle - FAD ) kjem dermed fram av å diffe total lemmaliste og FAD-liste
# I tillegg legg vil {{comment="..."}} som attributt for kommetarer i alle elementer der vi ser behov for det
!! Freqkvenssorterte lister for sme-tekster
Vi bør ha en deadline for denne?
Cip har gjort det men ikkje lagt det på serveren
# Cip lagar skript på servaren
# ... og gjev lenkje til Lene
# ... og dermed til side / vidare