!!!FAD- og korpusmøte 4.1.2013 Til stades: Berit Merete, Marja, Ciprian, Trond !!! Saker: * Status * Euralex * nobsme * Arbeid framover med FAD * Neste møte !!! Status for FAD Vi hadde: ap-pipeline med manuell sjekk. Har vi no: gt-pipeline? Ja. {{fad_nobsme_candidates_gt-pl.20121213}} Viktig poeng: Same input for gt og ap. Resultatet kan danne grunnlaget for ein vitskapleg artikkel (kva metode er best). !!! Euralex Vi laga dette formatet til Euralex, parallel, i katalog {{big/gt/sme/parallel_nob2sme}}. Det er på formatet: * nobsentsmesent Ciprian har laga ein ny versjon av parallellkorpuset for Euralex. Alle er fornøgd, og har no ein betre parallellversjon. !!! nobsme Marja har arbeidd med eksempelsetningar. Problem: nob-setninga inneheld ikkje nob-ordet. Marja og BM jobber med unifisering av nobsme, eksempelsetninger utelates i første omgang !!! Arbeid framover med FAD (jf. også siste møtereferat): # gt-parallellisering (enkle punkt til måndag, vanskelege punkt til neste mandag) ## Filtrere bort modalverb frå gt-output (__Cip__) ## Filtrere bort plusslause parallellar som allereie er på plass via ap-output fra gt-output. = 14058 - 1983 = 12075. (__Cip__) ## Prosessere pluss-parallellar for å minimere lingvistisk reparasjon (__Cip__) ## Manuell gjennomgang av output for reinsa gt-pipeline. (__BM, M__) # integrering av simplex ap-parallellisering i nobsme (med FAD-flagg) (12075) (__BM, M__) I data Cip ordna før jul er nob-lemma simplex, men sme-lemma kan innehalde +. Vi må ha ei rein liste som er simple-simple. Den lista utgjer dei orda som skal fjernast frå gt-output. main/words/dicts/nobsme/terms/admin/src fad_nobsme.20121130_merged_comp.xml fad_nobsme.20121130_merged_simp.xml {{{ src>grep 'grep '