!!!Giellateknomøte 3. oktober 2018 Tilstede: Trond, Chiara, Ciprian, Lene !!Saksliste * ELAN * Korp (Uleåborg) * Korp (Stockholm) * Samarbeid med HU Berlin (epost - cip) * NDS * sent-proc.sh * hfst-tokenize !!ELAN Cip har arbeidd mykje: Køyrd siste POS-analyse, tatt omsyn til det som kom fram i Kautokeino To buggar: # hfst-kolon-saka: Når det blir delt eit token utan mellomrom # +Foc/Pos-ge blir analysert som compound etter de , og etter substantiv, men som suffiks etter propernoun. Resultaten av bug (2) er at det er uleseleg output frå elan. Lene ser på bug (2), Ciprian på bug (1). Strengar til debugging: __Sjå nederst i dette dokumentet__ Når dette er i orden har vi rett og slett ein fungerande analyse. Ciprian sender deretter eit analysert elan-korpus til Oslo (med forklaringar), seinast på fredag. Forklaringa går inn på derivasjon, samansetjing, og interaksjonen mellom dei to. !!Korp (Uleåborg) Lene har laga ei liste over ting å sjå på (Bz), det er saker til Sjur, Børre, Trond, oss alle. Deretter skal vi køyre på nytt. !Tagger 1) Det er en del tagger som ikke bør være med (Dial, Area), bl.a. lager de i noen tilfeller mange lesninger som ikke blir disambiguert. Lene kan legge inn de filtrene som fjerner dem for disamb-analysatoren, og så kan man reversere dette seinere, hvis man vil. __Tiltak:__ Lene legger inn filtrene for å fjerne disse taggene, inntil videre. !fkv må testes (Trond) !sms sms er ikke boks, må lages regler i src/Makefile.am, men den kompilerer ikke, se BZ 2517. Trond får den til å kompilere, men det tar mange timar. Problem: smi-propernouns __Tiltak:__ * Trond, Sjur ser på dette (Jaska også) * Legge til filter for sms (Lene, etterpå) ! Ex/-saka 3) Se BZ 2513 om manglende Ex/V for smj og sma. Denne bør løses før kjøring til Korp, fordi smj og sma har et annet mønster enn sme, det blir to PoS tagger i samme streng (selv om begge er V i dette tilfellet) !smn, sma, sme, smj Desse ser grei ut. ! Oppdatering av functions.cg3 via korp.cg3 4) Jeg viser til BZ 2516. Hvis det er slik som jeg antyder i den siste buggmeldinga, så berører dette den syntaktiske analysen for alle språkene våre, dvs at oppdateringer og rettinger fra 2018 ikke er med. Så dette må vi se på før kjøring av ny analyse. Jeg ber spesielt Sjur kommentere denne BZ, fordi jeg har begrenset med kunnskap om oppsettet på Stallo, og jeg er ikke i stand til å gjøre rettinger i skriptet så lenge det ikke er snakk om å bytte en analysator, men det er det ikke snakk om her. ! Dyn 5) Jeg viser til BZ 2512 om +Dyn taggen. Slik som den er nå, så ødelegger den analysen. Skal dette løses i arbeidet med språkfelles numeral og abbr filer? ! lemmaforvrenging i lookup2cg 8) BZ 2508 gjelder XSFT, men den gale analysen er ikke med i grep-korpus etter disambiguering,, og gjelder dermed ikke analysen for Korp denne gangen. {{{ echo Aarborten-almetjh | hfst-lookup -q src/analyser-gt-desc.hfstol | cut -f1,2 | lookup2cg|vislcg3 -g src/syntax/disambiguator.cg3 "" "Aarborten-#almetje" N Pl Nom }}} ! Oversyn over Bz-meldingane (Denne lista + kommentarane er kopiert frå Sjur&Trond-møtet 1.10.) {{{ Sev Pri Assign Reportr Comp Summary Comment&Action 2517 cri P2 Jack Lene Morpholo xfst sms does not compile: doesn't find ProperNoun-smi- - easy, should be done imm -> P1 2516 enh P5 Børre Lene Corpus a smn analysen inneholder tagger - Trond + Sjur ser på dette 2513 enh P5 Sjur Lene Continua V+Ex/IV+Der/PassS+V+ - major, requires time -> P3 2512 maj P2 Thomas Lene Continua Analyse for dynamiske sammensetninger bokstav + tall - ikkje berre Thomas, alle må sjå på dette --> møte 2511 enh P5 Sjur Lene Analysis tegn som ikke blir gjenkjent som missing - private use, irrelevant 2510 enh P5 Lene Lene Tags Ha acronymer som er propernouns i smi-propernouns - krev diskusjon -> møte 2509 maj P2 Børre Lene Corpus a HFST-korpusanalysen klarer ikke URLer - berre på Linux ser det ut til (Stallo, hjå Børre), melding sendt til hfst 2508 nor P5 Ciprian Sjur lookup2c lookup2cg forvrenger sma-lemma - er det noko å prioritera? Sjå på det, evt WONTFIX? 2507 nor P5 Sjur Sjur Analysis Handteringa av tvetydig setningsinndeling og abbr - jobbar med saka 2506 nor P4 Thomas Lene Continua Skrivefeil som blir godtatt som Px-substantiver - ventar på at Thomas blir frisk }}} ! Vår korp-workshop i Uleåborg * Få deltakarliste frå Jussi (__Trond__) * Sende brev til deltakarane og spørje om interesse * Vurdere ulike dokumentasjonseksempel (Stockholm) !skilnad mellom korp og korp_2018 * Gammal korp-backend køyrde utan å restarte (nds må restarte) * For ny korp-backend må vi restarte !Tiltak, tidsplan __Tiltak__ * Korpusprosessering: __Cipran__ skriv til Sjur og Børre om tilstanden på desse punkta, vi vil ha ein ny analyse. Vi andre ser også på lista ovafor. Det viktige her er å ha mest mogleg på plass så fort som mogleg, for å halde fram arbeidet med debugging. * korp_2018: Chiara og Ciprian restartar + dokumenterer i Don't Panic. __Tidsplan for ny køyring av innhald til Korp__ * Andre enn sms: i slutten av denne veka * sms: Når vi har fiksa buggane (Børre kan for så vidt køyre sms også) !!Korp (Stockholm) Denne saka gjeld Korp-seminaret i Stockholm !Ciprians presentasjon * Presentasjon: ** Kor mange korpora, kor store, kor mykje analyse ** log-data ** integrering ordbøker - korp - log frå Korp eller frå NDS * popup-presentasjon av morfosyntaktisk analyse !Våre ønsker: * parallellkorpus som default-modus for visse Korp-instansar * lyd i Korp (legge LIA Sápmi), deretter multimodalitet * sortering av treff, f.eks. sortering i forhold til korpusdel, ficti før admin osv * Betre (meir relevant) CQP-dokumentasjon (vi skriv dokumentasjon sjølv, kanskje utkast til Uleåborg) ** Se på muligheter for brukereksempler osv i grensesnittet ** Lene har laga en video (sjå på den før Uleåborg) ** Olli har laget dokumentasjon på finsk, se på den ** Göteborg har ei side med øvingar i Korp-bruk ** Spørsmål til Göteborg: Har dei erfaringar med dokumentasjon? * Bug: søk med N1-N2 antall ord mellom to ord (Viktig) * Word alignment: Er det meir å seie om dette? * Ordbild, implementering av lemgram ** korleis skal ordbild implementerast i mysql (frekvens frå korpus) ** enten: liste over formene i kvart paradigme (test/data/testparadigm), sette inn i mysql, som dei gjer i Helsingfors ** eller: implementere karp og hente ordbild frå karp (spurv med kanonar?) !Tiltak * Ciprian lagar presentasjon, vi kommenterer !!Samarbeid med HU Berlin (epost - cip) Vi svarer henne positivt til søknad og ser kva som skjer. !!NDS Ingen ting akkurat no. !spansk * Trond har sett på fst med Sjur. Vi har no integrert tyrkisk, skal integrere spansk. * Paradigmegenering for verb: Dette er stort, og vi må sjå på det. Som ein første versjon kan vi kopiere person-numerus frå sme. !Tiltak: * fst: __Trond__ snakkar med Sjur * Overføre frå excel til xml: __Ciprian__ (evt. Chiara/Trond) ser på det etter Stockholm * Så kjem resten etter kvart. !!sent-proc.sh Skriptet har no HFST i XFST-pipeline, og det gir dårlig output. Bør endres til riktig HFST-pipeline og XFST-pipeline. Sjå oppdatert sent-proc.sh. Ciprian ser på dette. !!hfst-tokenize Vi må sikre at hfst-tokenize er godt dokumentert på ein stad. hfst-tokenize --help er ikkje nok: * lista over options er ikkje fullstendig * output frå ulike options er ikkje dokumentert __Tiltak:__ * Få klarheit, og skrive dokumentasjon på våre sider * få full liste inn i --help, og evt. dokumentasjon inn på kitwiki. !!!Output til debugging {{{ "" "ge" Pcle "" "de" Adv "" echo dege |hfst-tokenize --giella-cg --weight-classes=1 ~/main/langs/sme/tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst| vislcg3 -g ~/main/langs/sme/src/syntax/disambiguator.cg3 |vislcg3 -g ~/main/giella-shared/smi/src/syntax/korp.cg3 "" "ge" Pcle "" @PCLE "de" Adv "" :\n "" "ge" Pcle "" "de" Adv "" :\n tf-hsl-m0016:sme ttr000$ echo dege |hfst-tokenize --giella-cg --weight-classes=1 ~/main/langs/sme/tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst| vislcg3 -g ~/main/langs/sme/src/syntax/disambiguator.cg3 |vislcg3 -g ~/main/giella-shared/smi/src/syntax/korp.cg3 "" "ge" Pcle "" @PCLE "de" Adv "" :\n tf-hsl-m0016:sme ttr000$ echo biilage |hfst-tokenize --giella-cg --weight-classes=1 ~/main/langs/sme/tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst| vislcg3 -g ~/main/langs/sme/src/syntax/disambiguator.cg3 |vislcg3 -g ~/main/giella-shared/smi/src/syntax/korp.cg3 "" "ge" Pcle "" @PCLE "biila" N Sem/Veh Sg Nom "" tf-hsl-m0016:sme ttr000$ echo Trondge |hfst-tokenize --giella-cg --weight-classes=1 ~/main/langs/sme/tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst| vislcg3 -g ~/main/langs/sme/src/syntax/disambiguator.cg3 |vislcg3 -g ~/main/giella-shared/smi/src/syntax/korp.cg3 "" "Trond" N Prop Sem/Mal Sg Nom Foc/Pos-ge @HNOUN :\n echo dege| hfst-tokenize --giella-cg tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst |vislcg3 -g tools/tokenisers/mwe-dis.cg3 | cg-mwesplit | vislcg3 -g src/syntax/disambiguator.cg3 "" "de" Adv "" "ge" Pcle :\n echo biilage| hfst-tokenize --giella-cg tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst |vislcg3 -g tools/tokenisers/mwe-dis.cg3 | cg-mwesplit | vislcg3 -g src/syntax/disambiguator.cg3 "" "biila" N Sem/Veh Sg Nom Foc/Pos-ge :\n echo Trondge| hfst-tokenize --giella-cg tools/tokenisers/tokeniser-disamb-gt-desc.pmhfst |vislcg3 -g tools/tokenisers/mwe-dis.cg3 | cg-mwesplit | vislcg3 -g src/syntax/disambiguator.cg3 "" "Trond" N Prop Sem/Mal Sg Nom Foc/Pos-ge "Trond" N Prop Sem/Mal Sg Gen Foc/Pos-ge :\n }}}