!!!Møte 3. januar 2017 Hangouts: Kevin, Lene !!Saker: # Behandling av semtagger (vs bidix-paradigme) # PoS-endring og transfer # Semtagger for proper nouns: cog vs top # Parallelltekst-skript # out whole vs clip-delar # Bruke advl-tagger med -ine og -ela # Variabler # Hyphen i sammensetninger # Guovdageainnu suohkana jođiheaddji # Hvordan finne svn-logg for Apertium # Hash-lister fra større oversettinger !! Semtag vs bidix-paradigme !!Fra epost-diskusjon: __Lene skrev:__ {{{ Vi har etterhvert fått mer og mer semtagger, både på substantiv og adjektiv. Taggene er i bruk også i disambiguering. I sme-smX blir taggene med over i apertium, sjøl om de ikke er med i dix, og de er dermed med i disambigueringa (bedre resultat) (ordet får to analyser, en med og en uten semtagg: "" "bargobáiki" n sem_plc sg loc "bargobáiki" n sg loc , og analysen med semtagg blir valgt i functions.cg3 for disambigueringa. Analysen uten semtagg blir parret med dix) og de kan også brukes i transferreglene Taggene blir fjerna i t1x. }}} __Kevin skrev:__ {{{ I sme-nob har me brukt bidix-paradigme til tre relevante ting her: 1. Til å endra/fjerna taggar som generelle reglar: Paradigmet "__adj" gjer cmp_attr.cmp → pst.mf.sg.ind og ess → pst.GD.ND (medan andre taggar blir overført likt). 2. Til å markera leksikalske unntak frå regelen: Paradigmet "pl__n" gjer t.d. alle sg-lesingar til pl:

bivvu~~klær~~

beaiveruhta~~dagpenger~~
… der dei fleste substantiv bruker "__n" som lar sg gå til sg. 3. Til å trimma analysar me ikkje vil ha med: Ved å ha eit bidix-paradigme som *ikkje* har med
, men berre t.d.
osb., får du ikkje med dei analysane som ikkje er spesifisert i paradigmet. Alle tre funksjonane er moglege å utføra på andre måtar, og eg ser fordelen med å sleppa å spesifisera sem-taggar i bidix; me må berre passa på at me ikkje mistar noko i omskrivinga. Punkt 1. er jo gjort med transferreglar i sme-smX, det kan me gjera her òg. Punkt 2. er vanskelegare – viss me ikkje skal spesifisera sem-taggar, kan me heller ikkje spesifisera taggar som kjem etter sem-taggen på sme-sida (for då får me berre ikkje-sem-analysen med). Altså,
~~bivvu~~klær~~~~
vil trimma sem-analysen. Me kan heller ikkje ha
bivvu~~klær~~
sidan me då får bidix-output ^bivvu/klær$, som berre blir eit rot. Eitt alternativ for leksikalske unntak er at me rett og slett seier «ok, for dei må me ha sem-taggar med i bidix», men me kan jo bruka eit paradigme av sem-taggar så det ikkje er så farleg om ting endrar seg, altså:

bivvu~~klær~~
Punkt 3. kan me nok løysa i rm-deriv-cmp.twol – det er kanskje bra å ha alt på éin plass der uansett? }}} !! Leksikalske unntak spesifisert med paradigme lemma n sg {{{
vuovdi~~vyevdi~~

vuovdi~~vyebdee~~

dikšu~~tipšo~~

dikšu~~tipšoo~~

gullevaš~~kuullâđ¹~~
}}} {{{
bivvu~~klær~~
$ echo '^bivvu$' | lt-proc -b sme-nob.autobil.bin ^bivvu/@bivvu$ }}} Mogleg alternativ: {{{

bivvu~~klær~~
}}} (for å sleppa å eksplisitt spesifisera sem-taggar på unntaka òg) * TODO: sjekk at semtag-paradigme ikkje tek for lang tid å kompilera – viss det er treigt må me berre spesifisera manuelt som før, men tilpasse sme_bidix_sanity.sh til å sjekka at semtagg stemmer overens med sme-FST ! rm-deriv-cmp i staden for paradigme-basert trimming * TODO: slepp gjennom det som no blir trimma ved bidix-paradigme, gå gjennom hash-listene neste dag og anten lag nye transfer-reglar, eller legg til fleire unntak i rm-deriv-cmp {{{ }}} !! PoS-endring og transfer sápmi→samisk feiler når ordet ikkje er head i chunken (out_nom handterer det, men me har ingen macro for pre-nom) * TODO: ny macro for å legga til ord på pre-nom-variabelen; den macro-en må handtera at ein substantiv kan bli til adjektiv. * TODO: lag oversikt over alle PoS-endringar me har i bidix, og som må handterast i transfer !! Semtagger for proper nouns: cog vs top Alle top kan også være cog, pluss at mange går til feil paradigme i nob.dix Alle cog/top i nob.jdix har like paradigmer TODO: legge til RL i nob.dix for generering uten cog eller top tagg !! Parallelltekst-skript [/mt/infra/Paralleltexts.html] (burde kanskje hatt P(osition-independent)WER òg? ofte nyttigare metrikk for gisting) !! out whole vs clip-delar I smenob brukes clip med enkeltdeler for output. Dette er mer robust i fohrold til endringer i tagging i source language. I smesmX endrer vi tagstringen med regler og macro, og så clip whole ut. Dette gjør det enklere å skifte mellom ordklasser osv, men er passer kanskje best for nære språkpar. Fordel med å bytta til smesmX-metoden at ting blir likare på tvers av sme-par. Ulempe med å bytta: veldig mykje koda med clip-delar, stor jobb, kanskje mindre robust resultat(?). !! Bruke advl-tagger med -ine og -ela * @ * @ADVL-ine> {{{ echo Mun boađán skuvllas | apertium -d. sme-nob-syntax ^Mun<@SUBJ→>Pers>$ ^boahtit<@+FMAINV>$ ^skuvla<@←ADVL-ela>$^.$ echo Mun ráhkadan láibbi čázis | apertium -d. sme-nob-syntax ^Mun<@SUBJ→>Pers>$ ^ráhkadit<@+FMAINV>$ ^láibi<@←OBJ>$ ^čáhci<@←ADVL-ela>$^.$ }}} * TODO: legg inn i def-macro set_caseprep; men merk: ADVL-ine/ela-choose bør skje etter leksikalske unntak, sjå "grep 'def-list.*"loc-' *t1x". ** etterpå, gå gjennom leksikalske unntak og fjern det som ine/ela-tek seg av {{{ echo Mun boađán doppe | apertium -d. sme-nob-syntax ^Mun<@SUBJ→>Pers>$ ^boahtit<@+FMAINV>$ ^doppe<@←ADVL-ela>/¬doppe<@←ADVL-ela>$^.$ }}} * TODO lexical selection regler for slike: **
doppe~~derborte~~
**
doppe~~derbortefra~~
{{{ $ echo "Mihttomearri lea beassat hálddašanguovllus."|apertium -d . sme-nob-syntax ^Mihttomearri<@SPRED→>SubjInf>$ ^leat<@+FMAINV>$ ^beassat<@←SUBJ>$ ^hálddašeapmi+guovlu<@-F←ADVL-ela>$^..$ }}} @-F←ADVL-ela – ekvivalent med @←ADVL-ela !! Variabler http://wiki.apertium.org/wiki/Northern_Sámi_and_Norwegian/Regression_tests Setninger som er avhengig av variabler * Son lea čeahpes bárdni. : lexical selection med tagger * ii livčče čállán. - legg til subjekt * dan maŋŋá gildui sámegiella. - lexical selection? SELECT ("den"i m) (0 (""i)) ; * Harald liiko návddašit luonddu, dan dahká son go sihkkelastá. - lexical selection? * dan geažil. - lexical selection? * nuorran son lea dan juo oahppan. - lexical selection? * nuorran son lea dan oahppan. - lexical selection? * mun dadjen dan sámegillii. - lexical selection? * Dat lea buot mii mus lea. - lexical selection? * Gonagas Harald liiko návddašit luonddu, dan dahká son go bivdá. - lexical selection? * sirdui. legg til subjekt * Dat lea sihke buorre ja heittot. - lexical selection? ^det/den/den/den$^./.$ !det adv er ikke i nob
dat~~det~~
!!hyphen i sammensetninger {{{ echo lotto-speallu | apertium -d. sme-nob et lottospill echo lotto-speallu | apertium -d. sme-nob-disam ^lotto-speallu/lotto+speallu$^./.$ }}} * TODO: cmp_hyph => guio i taggendringsfila (lene studerer bruken av denne taggen, om det er eigentleg Err/Orth eller kva) {{{ $ echo '^lotto$'|lt-proc -d nob/nob.autogen.bin lotto-
}}} !! Guovdageainnu suohkana sátnejođiheaddji mangler caseprep Ordføreren i/av Kautokeino kommune {{{ 2260 #som 713 #samme 643 #samme 497 #Davvi 366 #kjent 254 #Stortinget 253 #samme 230 #kjent 212 #Jesus 202 #Min 195 #samisk 186 #selv 176 #gymnas 168 #Ávvir <== fra Aasen__np til Wikipedia__np 167 #ILO 166 #gymnas 163 #nær^{156 #kjent
155 #Guttorm
154 #selv
150 #samisk
146 #Universitetet
130 #hverandre
102 #ILO
100 #noen
99 #Karen
97 #ForfatternesForlag
95 #kjent
}}}}