Giellateknomøte 14.1.21 Tilstede: Trond, Lene, Chiara !!!Saker * Saker frå siste møte * Korpusoppdateringa: status og arbeid * MT og neurale nett (møtet i neste veke) * Prioritering av programmeringsarbeid + evt. ting å ta opp med Divvun-gruppa * UArctic * ICALL i Sverige? * NFR + forskarskole? * HIF-kurs i språkteknologi høsten 2021 ? !!! Saker frå siste møte !!Migrering av python2 til python3 Dette er framleis på oppdateringslista. !!MT !smesmj smj: Lene hjar snakka med Per B. i Ávvir, som ventar på LTK for å arbeide med smj. Lene har diskutert med Inga om ulike språklege ting. Ávvir bestemmer om de skal bruke MT etter vurdering av LTK. Lene har jobbet mye med å forbedre systemet. Lene vil vurdere intervju med lesarar, gje gratis digitalt abonnement for å delta i intervju. Arbeidsgang ved publisering (dette er rutinar som må publiserast): # Tekstene oversettes med vår MT og lagres på Ávvir-server, pga. av publisering med rammer osv. # Leserne må be om oversetting via knapp, dvs at det vil for dem fungere likt som annen MT # LTK tar ein manuell gjennomgang i løpet av eit par timar, og Lene forbedrer bidix og transfer # Ávvirs oversetting oppdateres på deres server Problem med inc-katalogar og automatisk konvertering av sme-ord til f.eks. smj: * Det er mange falske venner mellom f.eks. sme og smj * Å blande usjekka ordpar inn i produksjon gjør at man ikke får ordene i missinglist, det er vanskelig å se hva som er feil !smesmn Systemet er i marginal bruk. Vi bør sikre at det kjem leksikalske oppdateringar inn i takt med bruken, og også sjekke at transfer fungere som det skal, f.eks. vil taggendringer i FST kunne virke inn på analyser og generering (__Trond__ ser på det) !Vedlikehald av MT generelt Det var møte 190604 om scripting av semtaggar. Dette har ikkje vorte fulgt opp av programmerere etter møtet. __TODO__: Sjå på automatisk oppdatering av sem-taggar med Sjur og Børre (__Trond__). !Plan for minimums MT-oppdatering Lene og Trond ser på dette i lag. !CGMT Trond har ikkje snakka med Eckhard. sme-nob er mest aktuell !!Digitalisering og Samisk arkiv __Trond__ til å sjå på dette. !!oahpa.no Sida blir no oppdatert kvar dag. !!Nasjonale minoritetsspråk __Trond__ følgjer opp dette. !!ssh og nøklar Vi bør bestemme kva vi vil gjere, Chiara må svare. Hvis alle bruker ssh-nøkkel, kan man stenge for passordinnlogging. __Trond og Lene__ følger opp. !!! Korpusoppdateringa: status og arbeid !!Grepkorpus Chiara har laga grepkorpus, Lene har gått gjennom og gjort rettinger i de samiske FSTene og påpekt hva som skal rettes i sms. __Trond__ følgjer opp med sms, +Comp > +Der+Der/Comp+A og +Superl > +Der+Der/Superl+A er viktigst. !!Korp * Laste ned knappen er fiksa. !!Tekstar Bibeltekstar i usx. __Trond__ snakkar med Bibelselskapet. Vi vil få nobsme in toto. For dei andre er delar omsett. Diskusjon med Børre om sjekking og parallellisering. !!Buggar i frontend Det uralske korpuset er publisert, med god mottaking. JB har laga ein film om dette. * [https://github.com/giellatekno/korp-frontend/issues] !!Arbeid # Fikse u_korp bugger # oppdatere f_korp # oppdatere korp # endre grensesnittet (se forrige møtereferat) !!! MT og neurale nett (møtet i neste veke) Møte 20.1. klokka 10. Plugins i CAT. Vi bør spørje om Wordfast, og meir om Uleåborgprosjektet. NMT: Jf. diskusjon om dekolonialisering (__Trond__ sender artikkel til oss andre). !!! Prioritering av programmeringsarbeid + evt. ting å ta opp med Divvun-gruppa Chiara og Børre er enige om at begge skal kunne oppdatere alle nettsteder (giellatekno, dicts, divvun, oahpa, giellalt) https: //github.com/divvun/registry Oppfølging av Bugzilla !!! Evt andre saker !!Opne saker i Bugzilla !Generelt * Sjå på prioriteringa av dei sakene vi finn viktige (er merkinga rett) * Diskutere eksplisitt med relevante personar !Baakoeh-bug http://giellatekno.uit.no/bugzilla/show_bug.cgi?id=2678 [https://baakoeh.oahpa.no/detail/sma/nob/åarjelsaemiengïele.html?no_compounds=true&lemma_match=true&e_node=-7574647772174511428] Dette krever overgang til HFST. dict-FST på server er oppdatert med riktig configure. Vi må bruke denne for å få med vekting: ./configure --with-backend-format=openfst-tropical Er dette innebakt i --enable-tokenisers ? ./configure --with-hfst --enable-tokenisers --enable-reversed-intersect gir for Trond: {{{ HINTRSCT generator-raw-gt-desc.tmp1.hfst /usr/local/bin/hfst-compose-intersect: warning: Transducer type mismatch in and fst/phonology.rev.hfst; using former type as output HXFST generator-raw-gt-desc.tmp.hfst libc++abi.dylib: terminating with uncaught exception of type TransducerTypeMismatchException /bin/sh: line 1: 92187 Done /usr/bin/printf "read regex @\"filters/reorder-subpos-tags.hfst\" .o. @\"filters/reorder-semantic-tags.hfst\" .o. @\"generator-raw-gt-desc.tmp1.hfst\" ;\n save stack generator-raw-gt-desc.tmp.hfst\n quit\n" 92188 Abort trap: 6 | /usr/local/bin/hfst-xfst -p -q --format=openfst-tropical make[2]: *** [generator-raw-gt-desc.tmp.hfst] Error 134 make[1]: *** [all-recursive] Error 1 make: *** [all-recursive] Error 1 }}} !!! UArctic Digitalisering og sirkumpolare språk. Trond har kontakt med Svein på SA om dette !!! ICALL i Sverige? Diskusjon mellom Trond og Gbg. __Trond__ sender info til oss andre. !!! NFR + forskarskole? NFR-webinar på måndag. __Trond__ gjev info og sender epost til Lene. Det startar no fleire stipendiatar neste høst, både på UiT og SA. !!! HIF-kurs i språkteknologi høsten 2021? På samisk har vi ikkje bachelorstudentar akkurat no slik at kurset sannsynligvis er ikke er relevant for samiskstudenter. Samisk masterkurs i språkteknologi + korpuslingvistikk, V22. !!!Neste møte __26.1. klo. 0900.__ __Trond__ sender invitasjon.