FAD-Møte 15.10.2012 Til stades: Børre, Ciprian, Marja, Trond, Berit Merete !!! Saker: * Ordparallellisering * Arbeid framover * Neste møte !!! Ordparallellisering Cip har analysert med obt (Oslo-Bergen-taggaren, main/st/nob/obt) sme-data var allereie analysert med gt. Det var støy i obt, som Trond og spesielt Cip såg på i helga. Det er no i orden. No er pipeline ok, men det er problem med Giza. Jf. second_run/00_readme.txt. Trass intensivt arbeid i helga kan Cip dermed ikkje levere ordparallelliserte data no. Problemet er output frå analyse som skal til giza som input. !! Apertium utan bidix Prosedyre for å få __full apertium__, med alle ord: # Leggja til alle orda i dev/infreq*.dix ## I trunk/apertium-nn-nb/dev/infreq*.dix, kopier heile
) # kompiler ny nb-nn.automorf.bin Vi bruker sme-nob I prinsippet to ulike alternativer/pipelines: # Alternativ 1: Apertium: ## Maksimum nb frå nn-nb.nb.dix (med Kevin sitt tillegg frå infrequent) ## Maksimum sme (importert frå gt utan å trimme ned via sme-nob.dix, som dokumentert i apertium-sme-nob/update-morph, for å få {{apertium-sme-nob.sme.lexc}} maksimal) # Alternativ 2: Originalane frå gt og obt: ## {{mtag-osx64}} frå main/st/nob/obt ## {{sme.fst}} frå main/gt/bin Til i morgon får Ciprian output obt + gt (alternativ 2). Vi jobber for å få til alternativ 1 for å sjekke om det er en forskjell i output. Alternativ 1 skal være ferdig etter at alternativ 2 er ferdig. !! Output frå Giza++ Så på fad_nobsme_candidates_ap-pl.20121009. Den hadde være (på norsk) og masse parallelformer av samiske verb på andre siden. Om det er output fra Giza, så ser det ut som om Giza ikke forstår at "er truet = lea áitojuvvon", men trur at ''være = áitojuvvon''. Alt dette er støy. Toppen i {{fad_nobsme_candidates_ap-pl.20121009}}: {{{ 49839 0 0.8494 0.0 1.0 være áitit 49839 0 0.8494 0.0 1.0 være vuodjut 49839 0 0.8494 0.0 0.6666667 være ambulánsa+vuodjit 49839 0 0.8494 0.0 0.5 være ávvudit 49839 0 0.8494 0.0 0.5 være váldu+áŋgiruššat ... 28628 0 0.295 0.0 0.1666667 ha ii 28628 0 0.295 0.0 0.1666667 ha giella+nannet 28628 0 0.295 0.0 0.1666667 ha dássi+molsut 28628 0 0.295 0.0 0.1666667 ha dárkkistit+neavvut 28628 0 0.295 0.0 0.1666667 ha buktit 97 0 -5.392 0.0 0.4210526 true áitit 47 0 -6.116 0.0 0.25 synke vuodjut 41 0 -6.253 0.0 0.0416667 forlengelse joatkit 34 0 -6.44 0.0 0.0015432 forenkle joatkit }}} * echo videreføres | lt-proc ~/apertium/trunk/apertium-nn-nb/nb-nn.automorf.bin * ^videreføres/videreføre/videreføre$ * echo videreført | lt-proc ~/apertium/trunk/apertium-nn-nb/nb-nn.automorf.bin * ^videreført/videreføre/videreføre/videreføre$ {{{ 1.0 videreføre joatkit 0.6 videreføre joatkit 0.5 være joatkit 0.5 videreføre joatkit 0.4305556 videreføre joatkit }}} ha = 21176 ha = 19403 Unike norske ord i Samanlikne lemma __og__ tag frå juli og oktober: {{{ cat second_run/fad_nobsme_candidates_ap-pl.20120721 |cut -d" " -f6| sort|uniq |wc -l 19822 cat second_run/fad_nobsme_candidates_ap-pl.20121009 |cut -d" " -f6|sort|uniq |wc -l 21176 }}} * Det er 19822 unike norske ord med tag i materialet fra juli. * Det er 21176 unike norske ord med tag i materialet fra oktober: * Økningen er 1354 Samanline lemma __utan__ tag frå juli og oktober: {{{ cat second_run/fad_nobsme_candidates_ap-pl.20120721 |cut -d" " -f6|cut -d"<" -f1| sort|uniq |wc -l 18196 cat second_run/fad_nobsme_candidates_ap-pl.20121009 |cut -d" " -f6|cut -d"<" -f1| sort|uniq |wc -l 19403 }}} * Det er 18196 unike norske ord uten tag i materialet fra juli. * Det er 19403 unike norske ord uten tag i materialet fra oktober: * Økningen er 1207 Eksempel for å sammenlikne juli og oktober: ''Samisk'' som adjektiv. Fra juli, 4 av de 7 første kandidatene er interessante: {{{ 18674 0 0.2023 0.0 0.5 samisk -_08 18674 0 0.2023 0.0 0.3253493 samisk sámegiel 18674 0 0.2023 0.0 0.2641509 samisk sápmelaš 18674 0 0.2023 0.0 0.25 samisk -_1 18674 0 0.2023 0.0 0.1777778 samisk sápmelaš 18674 0 0.2023 0.0 0.1428571 samisk čuovvut 18674 0 0.2023 0.0 0.137931 samisk sámegielalaš }}} Fra oktober, 4 av de 4 første kandidatene er interessante: {{{ 28821 0 0.3017 0.0 0.3150685 samisk sámegiel 28821 0 0.3017 0.0 0.2767857 samisk sápmelaš 28821 0 0.3017 0.0 0.2745098 samisk sápmelaš 28821 0 0.3017 0.0 0.1818182 samisk sámegielalaš }}} ! Konklusjon Taggar som skal med for nob: * POS-taggen (den første), feks: samisk (denne er allerede implementert i Apertium) * genustaggen for substantiv, feks: forlengelse (denne er allerede implementert i Apertium) * passiv for verb, viss dei står i passiv, feks: videreføre (denne må implementeres i Apertium) !!! Arbeid framover # Ny versjon av ordparallellisering med gt/obt til i morgon (__Cip__) # Deretter evaluering av 1009 vs. 1016 (__Márjá, BM__) !!! Neste møte Eitt av fleire tema: Setningsparallellisering (filtrering, delvis parallelliserte dokumenter, grenseverdi, dokumentasjon, arbeidsfordeling, oppdatering av big/gt/sme/parallel_nob2sme/admin_out.txt) Neste møte blir __torsdag 18.10 klokka 13.00__