!!!MT-beaivvit guovvamánu 8-11. b Sandra, Maja, Trond, Lene, Ciprian \\ Marja-Liisa fra onsdag !! Mandag !Bidix: * bidix-sanity (test som tester generering av alle sma/smj/smn ord i bidix):\\ {{sh bidix-sanity.sh > sanityoutput}} (når man står i dev). Les mer om [tolking av output|../infra/bidixsanity.html] ** dette gir grunnlag for å rette lemma i bidix og å legge til ord i FST ** vanligvis er mesteparten av linjene i sanityoutput propernouns. Start med de viktigste slik: \\ {{grep -v "" sanityoutput | less}} ** Francis skal lage bidix-sanity som tester generering sme i bidix * missinglister ** fra tekstene i texts/ - lag sjøl med denne [kommandoen|../infra//MissingList.html] ** fra relevante tekster i hele korpuset (Trond lager) *** prioriter substantiv-lister uten sammensetning, og verb- og adjektiv-lister uten derivasjon *** kommando for å fornye missinglista (ordene som får analyse kan fjernes), eksempel fra smj: \\ {{cat dev/sikor.sme.V.freq.noder.missing |hfst-proc sme-smj.automorf.hfst |less }} Missinglist-barggus lea vejolaš geavahit min sátnegirjjiid (ovdamearka sma-katalogas): * jorgalit buot missing-sániid darogillii: \\ {{cat dev/missing_v_noder | smenob | see }} * Jos vastádus lea \\ Lexicon file '...bin/smenob-all.fst' could not be found or opened \\ de don fertet dan kompileret \\ {{cd $GTHOME/words/dicts}} \\ {{see make-bildict}} \\ (... ja bija SLANG ja TLANG , linjjus 27, 28 dego háliidat, sme + nob lea default) \\ {{make -f make-bildict}} \\ ... ja de dus lea sátnegirji Vær OBS på tagger i bidix: * ordklasse * {{NomAg, G3, G7}} * {{Sg}} vs {{Pl}} (andre vegen er ikke nødvendig å merke) * fra ett ord til multiword expressions: ** mellomrom merkes med {{}} ** MWE må legges til i FST, gjerne merkes med {{Use/MT}} !Parallelltekster: * hva og hvordan bruke dem (når du er i apertium-sme-smX) ** {{python check_mt-otpt.py -d tmx_data/ }} ** {{cat otpt_dir/* > allefiler.html}} ** {{open allefiler.html}} (åpnes i Safari) !Lex-sel * [lexical selection|../infra/LexicalSelection.html] (eanet go okta vejolaš jorgalus) !! Tirsdag Praktisk arbeid med mandagens temaer \\ Derivasjoner fra kildespråk til målspråk, diskusjon om harmonisering, se nederst på denne siden !! Onsdag !Stille diagnose, med eksempler fra Majas og MLs lister !Testing (regression og pending) Viktig å legge inn eksempelsetninger for lexical selection og transfer !Transferregler * tilpassing av lexc-tagger til MT, og harmonisering av derivasjontagger * sammensetninger fra kildespråk til målspråk, harmonisering * omorganisering av transferregler (skal gjøres) !sme-disambigueren * forbedre konvertering fra divvun/gt til apertium (Sjur) * oppdatere regler (Lene) !hva andre enn Maja og Sandra kan gjøre i MT og lexc-koden * legge til sme-propernouns * transferregler !!Torsdag !!Forskningsspørsmål for MT-prosjektet * hvilke språklige forskjeller finnes? ** statistikk over forskjellige språkpar * hvilke språklige forskjeller er vanskelige å løse? * hvor god er lrx-modellen kontra lex-modellen? * hvor god er Apertium systemet for språkpar med stor syntaktisk forskjell (sme-sma)? * forskjell mellom idiomer og språkbilder mellom de samiske språkene? * sme-smn: tekster skrevet på norsk side vs finsk side * hvilke samfunnsmessige konsekvenser kan dette ha? ** er rele-modellen en brukbar modell? (for hvert språkpar, hvorfor?) ** hvor stor interesse/nytte for intersamiske ordbøker osv. * interferens: er nordsamisk interferens verre enn anna interferens? * forske på posteditprosessen ** oversettingsprosessen menneske + maskin vs. menneske ** sammenlikne arbeidsmåter (f.eks. hele tekster vs setning for setning) !!Faglige mål i 2016 (i forhold til NFR-prosjektet) ! Mulige domener * årsrapporter, sametingsprotokoller (departementer) (som rele) * samisk høgskole: sme til andre samiske språk * sme-sma: samfunnsfagskolebøker (ungdomsskole) (Mii dáppe dál) - kommer ut på sme og sma på våren. "Multi" (matematikk) til sma (finnes på smj). * sme-smj: skal sjekkes ut * sme-smn: kommer nye skoleplaner i Finland => nye oversettinger !Valgt domene til sept. 2016: årsrapporter, sametingsprotokoller ! Milepæler i forhold systemets brukbarhet * mål: systemet er så pass bra sametingsoversettere vil posteditere (redigere) * når: 1. september skal være klart for evaluering som rele-språk med WER osv. !! Praktisk plan framover ! Tekster * finne i korpus tekster som vi har (innafor domenet): 1. april ** 3-språklige: tmx-format (__Ciprian__) ** 2-språklige: (__Ciprian__) ** lage fin-smn ankerliste (__Trond__) 25.2 * samle inn tekster som vi mangler (innafor domenet), vi trenger folk! (__Trond__): 10. mars * ta kontakt med sametinget for å finne ut av oversettinger (__Sandra__): 15.2 ! FST * harmonisering av tagger (Der): Der/voete, Der/vuohta, Der/vuota Der/AN Der/AdjN (denne uka)\\ __Lene__: lager liste over flere ** Cmp (__Lene__ skriver bugzilla) ** teste med pronomensetninger i texts/ (__Maja, Sandra__) ** partikkel vs. adverb (kan være forskjellig PoS i bidix, men man bør vurdere harmonisering i FST) (__Maja, Sandra, ML__) ! Bidix * bidix - mål er å halvere missingprosenten fram til neste samling ** missinglist (fra domenet) (__Trond lager og Maja, Sandra, ML__ oversetter) ** rydde direkte i bidix (__Maja, Sandra, ML__) ** bidix sanity (__Maja, Sandra, ML__) ** MWE i smX må legges inn i FST (__Maja, Sandra, ML__) ** bidix i hht. til tospråklige tekster (__Erika__) ! LexSel * lage regler utfra behov man ser i bidix, legge eksempelsetninger i pending test, (__Maja, Sandra, ML__) ! Transfer Løse de mest frekvente problemene: * reorganisering: merke chunking med syntaktiske tagger, endre klitika, lage et mønster for navning av chunkene, skal dokumenteres på nett (__Lene, Trond__) * sjekke konstruksjonstyper: (__alle__ samler eksempler og dokumentasjon) ** objekt- og adverbialplassering ** NP-intern kongruens ** numeral-fraser ** kasusbruk ** hjelpeverb ! Forbedre sme-analyse inn i apertium * ordne konvertering av * (__Sjur__ snarest mulig) * forbedre CG analyse (__Lene__ snarest mulig) * forbedre sme FST i forhold til tekster skrevet i Finland (__Thomas__) ** __Trond__ lager missinglister !! Møter ! Hangout-tid: mandag 10-12, med temaer Trond eller Lene holder \\ Første gang: 22. februar ! Neste samling: 25-29. april !!Derivasjoner: Endring av tagger, harmonisering (__Maja, Sandra, Lene, Trond__) !Alle sme-taggene: Dagens tagger som forteller funksjon: * Der/A * Der/Adv * Der/Dimin * Der/NomAct * Der/NomAg * Der/PassL * Der/PassS Forslag om nye tagger som forteller funksjon: * kaus: Der/ahtti Der/ahtte Der/dehte => Der/Caus * inch: Der/goahti => Der/InchL * pass: Der/halla Der/PassD => Der/PassH Der/PassD Der/PassT * Der/at Der/at Der/avt => Der/AAdv Forslag om nye tagger som med suffikser: * Der/st Der/stidh => Der/st * Der/l Der/lidh => Der/l * Der/laš => Der/lasj * Der/alla - Der/alle (sma) => Der/alla * kaus: Der/h Der/d Der/htidh => Der/h Der/ht Der/d Der/tt * Der/d Der/didh => Der/d * Der/lágan Der/laakan Der/lagan => Der/laakan * Der/lágaš => Der/laagasj * Der/las +Der/lis (vearba => adj) => Der/las Der/lis * Der/saš Der/sasj Der/sas => Der/sasj * Der/vuohta Der/voete Der/vuota => Der/vuota * Der/t smj: Der/k => Der/k * Der/upmi -- Der/NomActPass , eller er det nok at vi har Der/PassL i strengen før Der/NomAct: \\ {{fuomášit+V+TV+Der/PassL+V+IV+Der/upmi+N+Sg+Nom}}: fuomášupmi \\ => {{fuomášit+V+TV+Der/PassL+V+IV+Der/NomAct+N+Sg+Nom}} \\ {{fuomášit+V+TV+Der/NomAct+N+Sg+Nom}} : fuomášeapmi Resten av sme-taggene - ikke diskutert, og mange av dem er ikke så viktige for MT * Der/meahttun * Der/heapmi +Der/ahtes * Der/jagaš Der/jagáš => Der/jagasj * Der/keahtta <=== marginal ikke-normativ derivasjon for substantiver, samme form som VAbess * Der/adda * Der/amoš * Der/asti * Der/at * Der/dáfot * Der/eamoš * Der/easti * Der/geahtes * Der/has * Der/heapmi * Der/huhtti * Der/huvva * Der/muš * Der/nuolus * Der/náittot * Der/seagat * Der/stuvva * Der/stávval * Der/supmi * Der/suttat * Der/veara * Der/viđi * Der/viđá * Der/ár