Grammatikkontrollmøte 26.4.2017 Til stades: Duommá, Kevin, Linda, Sjur Saker: * sidan sist * arbeid framover !!!Sidan sist !!Duommá * som vanligt i framtiden har han jobbat med testkorpuset * legge til tagger i leksikonet * samle falske positiver av kommaregler til Linda * testar hur reglerna funkar (hovedprøvekanin for grammatikkontroll) * tweakar lexikons och compound-tags i henhold till for exempel real word errors * legger till ord i listor før grammarcheckern * ser hur reglerna kan utvecklas * etc etc etc !!Linda [http://giellatekno.uit.no/bugzilla/show_bug.cgi?id=2363]: {{{ #ADD:punct-sahcu (&punct-sáhcu) TARGET ("-" PUNCT) IF (NEGATE -1 CC); ## Muitalusat -girji # particle readings # ----------------- REMOVE:unspacecmp (Pcle) (0/0 ("mat" Pcle) LINK 0/2 N)(0 (N Pl Nom)); ## bihtáidbargamat # assuming that mat only goes to verbs ## Dálkkádatrievdamat dagahit stuorra hástalusaid álgoálbmotkultuvrraide , ealáhusheivehemiide ja servodatovdáneapmái . REMOVE:unspacecmp (Pcle) (0/0 ("mat" Pcle) LINK 0/1 (N Sg Nom) OR (V Ind Prs Sg3 Err/Orth-a-á))(0 (N Pl Nom)); ## Juohke vahkku lea sierra lekšuvdna ( plána ) mas ovdanbohtet doaimmat ja barggut , lohkamušat ja logaldallamat. ## Fágaloggat , bagadallamat ja profešuvdnamáhppa geavahuvvojit reaidun šaddat dihtomielalažžan iežas oahppamis. ## Sámi vieruiduvvamat ## Ságastallamat rivdet maiddái go oahppi álgá nuoraidskuvlii . ## Dát čiekčamat eai lágiduvvo eambbo okte juohke njeallji jagis . REMOVE:unspacecmp (V Foc/gis) (0 (N Sg Loc)); ## báikkálaš álbmogis ## Mii vuovdit gollosiid sidjiide geat eanemusat fállet bidjegis. ## 51_% galgá leahkit dan seamma meinnegis Stuorradikkis ovdal nu manná , muhto dasa mii goit leat bargame. }}} Problemord med analyse: {{{ álbmogis álbmogis álbmot+N+Sg+Loc álbmogis álbmot+N+Sg+Acc+PxSg3 álbmogis álbmot+N+Sg+Gen+PxSg3 álbmogis álbmut+V+TV+Ind+Prs+Du1+Foc/gis álbmogis álbmut+V+TV+Ind+Prt+Pl3+Foc/gis }}} Saka er ferdig, vi legg til nye reglar i mwe-dis om det trengst (eller fjerner stiar i lexc). !!Kevin * døme i webdemo redigerbare av andre enn meg * ckeditor-plugin, med webdemo (ikkje basert på SCAYT) ** http://gtweb.uit.no/gc/ck/ * tilbakemeldingsmodul (divvun-suggest): ** xml-format har no defaults m/regex på tagg ** R:$2:17 betyr no «bytt ut '$2' i tittel med/form til ordet med ID:17 *** ADDRELATION ($2) (&real-something) (0 (blah)) TO (*1 N); *** "ord1" &real-something R:$2:17 *** "andreordimellom" *** "ord2" N ID:17 *** errors.xml: $1 should be something-else when preceded by $2 * pipelessness (bruk som bibliotek): ** heile pipelinen utanom hfst-tokenise kan no køyra utan bruk av pipes/IPC (Windows sitt stave-API tillet ingen interprogramkommunikasjon) ** https://github.com/unhammer/vislcg3/tree/StreamApplicator !!!Arbeid framover !!Duommá * som vanligt i framtiden ska han jobbat med testkorpuset * legge til tagger i leksikonet * samle falske positiver av kommaregler til Linda * testa hur reglerna funkar (hovedprøvekanin for grammatikkontroll) * tweaka lexikons och compound-tags i henhold till for exempel real word errors * legge till ord i listor før grammarcheckern * se hur reglerna kan utvecklas * etc etc etc !!Linda * fortsatt problemer med taggrekkefølge: jierpmálaš+A+Sg+Nom+Superl burde være jierpmálaš+A+Superl+Sg+Nom {{{ "" "jierpmálaš" A Sem/Dummytag Sg Nom @7 ADD:11628:syn-super-part2 syn-super-part2 "jierpmálaš" A Sem/Dummytag Sg Nom @7 COPY:11630:syn-super-part2 jierpmálaš+A+Sg+Nom+Superl ? }}} TODO: * (X) Linda legg inn på Bugzilla * Kevin pratar med Tino !!Kevin * tilbakemeldingsmodul (divvun-suggest) ** alternative forslag på same ord ** forslag på ord-med-subreadings? * pipeless bibliotek ** hfst-tokenise inn i pipeless-prototyp ** lesing av arkivformat ** kodereinsk Vi må ha eit møte med hfst-gjengen (Krister og Sam) for å diskutera gjenståande saker med pmatch/tokenise. Kevin kjem med forslag til tider som passar han, og Sjur tek det opp med Krister og Sam. Saker vi vil ta opp: * kvifor blir pmhfst ca 3 gonger større enn input-fst? * kvifor er runtime-minnebruk 6-7 gonger større enn fst-fil? * er maskineriet kring tvetydig tokenisering ok? Kan det bli ein standard del av hfst-pmatch/-tokenise?