T&S-møte 10.3. Saker: * Abbr * Diskusjonen førre veka med Ciprian og Lene * prosjekt framover - status og oversikt !!!Abbr Støtte for alle språk no - men funkar ikkje (funkar berre for sme). Det burde vera nok med (for xerox-basert abbr-generering): {{{ ./configure make }}} Funkar berre for {{sme}}, hfst funkar for {{sma}}, ingenting for {{smj}}. Ei mogleg feilkjelde er at abbr.txt ligg i svn for {{sma}} og {{smj}}. {{abbr.txt}} blir lagt i {{tools/preprocess/abbr.txt}}. Trond har same problem som Sjur (testa med Hfst, ikkje Xerox). !!Alternativ til abbr og preprocess Vi vil over til fst-basert tokenisering og analyse. Det er no mogleg, men må testast og rettast. Kommando for ny preprosessering+analyse: {{{ echo "text | hfst-proc2 --xerox \ tools/preprocess/tokeniser-disamb-gt-desc.pmhfst | cg-conv | l }}} Resultat med ulike opsjonar: Direkte til CG-format (inneheld + og er dermed feil): {{{ echo "don" | hfst-proc2 --cg tools/preprocess/tokeniser-disamb-gt-desc.pmhfst "" "dohte" Pron Dem Sg Ill Attr "dohte" Pron Dem Sg Gen }}} Xerox-analyseformat: {{{ echo "datne leah dr. Bergsland." \ | hfst-proc2 --xerox tools/preprocess/tokeniser-disamb-gt-desc.pmhfst \ | cg-conv \ | vislcg3 -g src/syntax/disambiguation.cg3 "" "datne" Pron Pers Sg2 Nom "" "lea" V Ind Prs Sg2 @+FMAINV "" "dr" N ABBR Attr "" "Bergsland" N Prop Sem/Plc Sg Nom "<.>" "." CLB }}} Diskusjonspunkt (neste veke?): * handteringa av samansette ord (lemmaform) * handteringa av avleiinga (stjerne vs underlesingar) !!Arbeidet med fst-basert tokenisering Arbeidet må ordnast stegvis, og testast for kvart steg: !Steg 1) {{{ cat tekst | preprocess --abbr=tools/preprocess/abbr.txt cat tekst | hfst-proc2 tools/preprocess/tokeniser-disamb-gt-desc.pmhfst | grep -v '^$' }}} !Steg 2) {{{ hfst-proc2 tools/preprocess/tokeniser-disamb-gt-desc.pmhfst analyser-disamb-gt-desc.*fst }}} !Steg 3) Dette blir eit arbeidspunkt: Viss vi skal unngå lookup2cg må det språkspesifikke innhaldet i den fila flyttast inn i fst-en. {{{ cg-conv lookup2cg }}} !Steg 4) Det kan henda at nokre endringar i andre komponentar krev endringar i disambigueringsfila. Dette må i så fall testast òg. Gullkorpus for {{sme}} ligg i {{test/}} (spør Lene) Møte neste veke om arbeidspunkta: tysdag kl 9.30 (forslag, sjekk med andre). Deltakarar: Lene, Linda, Sjur, Trond. !!!Diskusjonen førre veka med Ciprian og Lene * ciprian har ikkje (nok) tid til ny infra * trond gjorde ting utan å sjekka alle konsekvensar -> jobben vart halvgjort Vi analyserte dei noverande skripta, Trond deltek i diskusjonen pr e-post. !!!prosjekt framover - status og oversikt Vi kjem attende til denne saka.