FAD-møte 14.8.2013 Til stades: BM, Cip, Marja, Trond. Saksliste * presentasjonen i Enare * arbeidet * neste møte !!!presentasjonen i Enare Punkt frå abstractet: * We report on the onging work * evaluate by native speakers * copmparing to dict * We have a dictionary * We get a domain-specific list * What does it give us? poeng for oss: * kva har vi gjort * eksisterer det ein samisk fagterminologi * er vi i stand til å finne den * er dette nyttig !!!arbeidet !!disambiguere {{{ src_gt-fad_merged>grep 'src="fad"' _out_/* | cut -d ':' -f1 | sort | uniq -c | sort -nr 1974 _out_/N_nobsme.xml 682 _out_/V_nobsme.xml 319 _out_/A_nobsme.xml ==> omkring 3000 rene fad-t-elementer }}} status {{{ src_fad-only>grep ' 120 N_nobsme.xml: 103 N_nobsme.xml: 37 N_nobsme.xml: 17 N_nobsme.xml: 9 N_nobsme.xml: 4 N_nobsme.xml: 1 N_nobsme.xml: 1 N_nobsme.xml: src_fad-only>grep ' topptekst badjeteaksta bunntekst vuolleteaksta }}} for og : * gf = global relativ frekvens (nowac) * ff = fagfrekvens (fad) Vi må vurdere kva slike tal betyr (t = belegg, 0 = ingen belegg): * gfL, ffL, gfT, ffT * tttt ... relative skilnader her * tt00 * t0t0 * ttt0 * 0000 er L vanlegare i fad enn i generell * ffL - gfL = positiv ==> fagord (meir vanleg i domene) * ffL - gfL = 0 ==> generelt ord (like vanleg) der 0 er det same som ± 0.05 * ffL - gfL = negativ ==> ikkje fagord (mindre vanleg i domene) output av differanse: * list ordpar ordna etter d(ffL,gfL) (øverst det ordparet som er "mest fagord" * Sjå på lista og trekk ei grense Eitt svar: med grense X får vi Y% fagord i det som ligg over grensa kan vi finne: {{{ viss vi for lemma L finn at: d(ffL,gfL) ≠ d(ffT1,gfT1) er positiv d(ffL,gfL) ≠ d(ffT2,gfT2) er er null eller negativ så har vi L => T1 = fagordomsetjing, L => T2 = generell omsetjing. }}} Arbeid framover: # grunndata for fad ferdig (unifisering) (bm, trond, marja) # frekvensar for ordpar frå fad-merge (cip) # differansar som ovafor (cip) # nytt møte, evaluering, presentasjon (alle) <-- !!!Neste møte __Tysdag 20.8. kl. 10.00__