11.12.2015
Tilstede: Sjur, Francis, Trond, Kevin, Linda, Lene
!!! Møte
Møte om ulike problem knytta til overgangen mellom fst og verda omkring (preprocess, lookup2cg, apertium)
* COPY/SUBSTITUTE
* V*
* Derivasjon + samansetjing
* MWE/
!! COPY/SUBSTITUTE
Apertium vil at input frå fst skal bli filtrert og ikkje lagt til. Når
ting blir __endra__ i CG er det problematisk. Prinsipp: Vi vil ha morfologi
i fst og ikkje i cg.
!Praksis i dag:
* Vi endrar TV -> IV i CG (modulo kontekst), i staden for å ha det to gonger i FST.
* Namn er Sem/Plc i morfologien. Dei kan bli Sem/Sur avhengig av kontekst.
Eks.
SUBSTITUTE:TV-IV (V TV) (V IV) FAUXV (0 ("lávet") OR ("áigut")); #RemoveFromApertium
{{{
West-Virginia PLC ;
Ávvil PLCSUR ;
LEXICON PLCSUR
+Sem/Plc:
+Sem/Sur:
}}}
{{{
AvvevákkiráššaAvvevákkirášša
AvvilAvvil
AvvilIvalo
}}}
!Løysingar:
* TV/IV -> vi legg dei få verba det gjeld til to gonger, med kvar sin tagg
* Vi legg både Sem/Sur og Sem/Plc til i affixes/propernouns.lexc.
I CG tar vi REMOVE Sem/Plc i staden for SUBSTITUTE Sem/Plc til Sem/Sur for å få korrekt tagg alt etter kontekst.
Dette har tre fordelar:
* Betre for Arpertium
* Mogleg å finjustere meir i FST-en
* Mogleg å bruke både SELECT og REMOVE på både Sem/Plc og Sem/Sur
!Hvem og når:
Lene, i neste uke
!!Derivasjon: V*
Grammatikkontrollen kan ikkje bruke {{lookup2cg}}
Eksempel på regel som ikke fungerer i Apertium:
{{{REMOVE:derAdv (A* Adv) IF (0 LEX-ADV); }}}
... *1 BARRIER V ...
(fordi V* Der/ N blir lese som verb)
{{{
sme$ echo 'ráhkisvuohta' | usme
ráhkisvuohta ráhkis+A+Der/vuohta+N+Sg+Nom
ráhkisvuohta ráhkisvuohta+N+Sg+Nom
sme$ echo 'ráhkisvuohta' | usme | lookup2cg
""
"ráhkisvuohta" N Sg Nom
"ráhkis" A* Der/vuohta N Sg Nom
}}}
ráhkisvuohta ráhkis+A+Der/vuohta+N+Sg+Nom
!Løsning
Preprosesseringa legg til eit symbol til N, A, V før Der/..., som
i dag. Ikkje *, men eit anna symbol (som vi finn seinare).
CG: Fjern * tilslutt i CG med SUBSTITUTE
!Hvem og når:
Sjur, 2. uka i februar
!! Sammensetning
I dag:
lookup2cg:
{{{
""
"máná#biila" N Sg Nom
""
"mielkebiila" N Sg Nom
}}}
Apertium:
{{{
$ echo mánábiila|apertium -f none -d . sme-nob-disam
""
"biila" n sem_veh sg nom
"mánná" n sem_hum cmp_sggen cmp
$ echo dáŋkabiila|apertium -f none -d . sme-nob-disam
""
"dáŋkabiila" n sem_veh sg nom
}}}
{{{
SELECT hjul IF (1 ("biila")); # vil matcha mánábiila
SELECT mat IF (1/1 ("is")); # vil t.d. matcha vis neste ord er (dynamisk samansett) iskake
SELECT mat IF (1/* ("is")); # vil t.d. matcha vis neste ord er (dynamisk samansett) iskaffekake eller kaffeiskake
REMOVE SUB:1 Cmp; # fjern alle samansette lesingar
}}}
vanskeleg: kan ikkje ha taggar frå underlesingar i SET som skal matcha på overlesingar:
{{{
""
"biila" n sem_veh sg nom
"mánná" n sem_hum cmp_sggen cmp
vil ikkje matcha SET foo = (sem_veh) + (cmp);
}}}
vanskeleg: kan ikkje ha krav på under- og overlesing *av same lesing* i same REMOVE-regel
{{{
"<ønskeliste>"
"liste" N
"ønske" V
"liste" V
"ønske" N
"liste" N
"ønske" N
Umogleg å laga reglar som fjernar V+N-samansetjingar (og prioriterer N+N):
REMOVE sub1=N + sub0=V IF (sub1=N + sub0=N); # ingen syntaks for dette enno
}}}
(frå [http://wiki.apertium.org/wiki/Subreadings#Wishlist] )
Dette diskuterte vi 19. mars:
[/lang/common/leksikalisering.html]
Vi gjennomfører dette i __februar__.
!!! MWE og preprocess
Dette handlar om preprocess. Vi vil analysere og preprosessere i same steg.
Grammatikkontrollen vil kontrollere feilaktig særskriving (''sær skriving'').
Vi eksperimenterer med hfsts {{pmatch}}
{{{
sme$ usme
nr.
nr. nr+N+ABBR+Nom
nr. nr+N+ABBR+Gen
nr. nr+N+ABBR+Attr
nr. nr+N+ABBR+Acc
nr
nr nr+N+ABBR+Nom
nr nr+N+ABBR+Gen
nr nr+N+ABBR+Attr
nr nr+N+ABBR+Acc
}}}
{{{
sme$ echo 'Dat lei 2. girji.' | preprocess --abbr=tools/preprocess/abbr.txt
Dat
lei
2.
girji
.
sme$ echo 'Dat lei 2. Ja de bođiimet.' | preprocess --abbr=tools/preprocess/abbr.txt
Dat
lei
2
.
Ja
de
bođiimet
.
}}}
Dette kan bli betre med å ta med informasjon frå analysen.