Møte om [bug 2377|http://giellatekno.uit.no/bugzilla/show_bug.cgi?id=2377] Til stede: Sjur, Ciprian, Trond, Thomas, Linda, Lene Saksliste: * Taggambiguitet * Dobbelttagga POS-taggar * Semtaggar og kompileringstid * Generelt om kompileringstid !!!Taggambiguitet Det er problemtatisk for Korp at det er ambiguitet mellom en del tagger. F.eks. er søkefunksjonen som er mest brukervennlig, er å søke etter "inneholder Nom" som .*Nom.* eller .*Ess.* Taggene: * Actio Ess, Actio Nom, Actio Loc, Action Com osv (ambigiøst med Ess, Nom) => Actioess, Actionom, Actioloc, Actiocom * NomAg (ambigiøst med Nom) => Nmag * VGen => Vgen Vedtak: endra taggane __i Korp__ (og berre der). Endra taggar: sjå over. Eksempel på hva som er bra i CG: * CG regler som slår (og skal slå) både ved Actio Loc og Loc * verb valens med Actio Loc og Loc Eksempel på hva som er dårlig i CG: * CG regler som slår til på Ess og treffer både verb (Actio Ess) og substantiv Ess Problematisk: * Nom og NomAg er begge substantiver ** Mulig streng +N+NomAg+Sg+Nom Vi endrar ingen ting i lexc eller CG (i alle fall ikkje no). !!!Dobbelttagga POS-taggar Dobbeltagga POS (NN, VV, etc) - heller prefiks? Vedtak: * Ex/N, Ex/A, Ex/V, ... ** Ex = "tidlegare" "/" som i derivasjonskonvensjonen vår, og deretter original ("tidlegare") ordklasse ** Resultatet blir at vi får apertiumtaggen direkte: etc. !!!Semtaggar og kompileringstid Taggane blir endra: * I functions.cg3 * I disambigation.cg3 * CG frå giella til apertium: map semtag med liten forbokstav ** Her bør vi heller gjere for CG som vi gjer for fst ** ha automatisk overgang frå t.d. +Sem/Hum til , for alle taggar ** deretter, i ei separat fil, endre til osb. Eit undersett av dei genererte taggane, nemleg dei semantiske taggane, bir drege ut, og lista skal heretter bli lagra i svn + ein opsjon som gjer at ein kan slå av bygginga av semtagg-lista. Det vil gjera det slik at ein ikkje treng å byggja semtagg-lista og regexar baserte på den om ein ikkje vil, og berre når det kjem ny versjon i svn vil ein byggja desse på nytt. !!!Generelt om kompileringstid Grammatikkontroll-config: {{{ ./configure --with-hfst --without-xfst --enable-grammarchecker --enable-tokenisers --enable-alignment --enable-reversed-intersect --enable-morpher }}} Tek under 13 min for Sjur (utan twolc-kompilering) Apertium-config: {{{ ./configure --with-hfst --without-xfst --enable-alignment --enable-reversed-intersect --enable-apertium --with-backend-format=foma }}} Tek ca 11 min for Sjur. Optimalisering: {{{--with-backend-format=foma}}} Tvingar Hfst til å bruka eit uvekta fst-format, som igjen gjer at Foma blir brukt til kompileringa der det er mogleg. Både Foma og mangel på vektar gjer at det går raskare. __NB!!!__ Om ein endrar backend-format, __MÅ__ ein køyra {{make clean}} fyrste gongen, for å unngå feilmeldingar pga fst-ar av ulikt format.