Møte om lulesamisk term/ord-bok 09.01. 2015. Børre, Kevin, Sandra, Sjur, Trond. Saksliste * Status * Lulesamifisering * Korpus * Manuelt arbeid [Referat frå 17.12.|/dicts/fad2/referat/141217.html] !!!Status Kevin har lagt til korpus og endra på CorpusTools, m.a. språkattkjenning. Nytt på korpusfronten er framfor alt frå Sverige. Alt i alt i freecorpus: * 350 000 ord smj (48 % av dok para) * 195 000 ord sma (78 % av dok para) mål: fadordbok vs fadterminologisamling !!!Lulesamifisering !!Pipeline nobsme = src="fad" * nob-freq i fad-korpuset og i allmennkorpus * f-f > a-f ==> kandidat for terminologi (eller berre gje opp t-aspektet) ** manuell sjekking av kandidatlista: term eller ikkje? (evt. tull eller ikkje) ** maskinell sjekking mot nob-sme ** Kintel-sjekk * kandidat blir lulesamifisert * lulesamifiserte l-kandidaten blir delt i tre: ** kintelbelagt -> del i dagleg vs term vs tull ** korpusbelagt -> manuell sjekk ** totalt ubelagt -> omsetjing/nylaging -> Giellagáldu !!Kvaliteten på lulesamifisering Programmet: Kjeldefila er sme2smj-lexeme.xfst {{{ cd $GTHOME/gt/smj/src/ xfst -e "source sme2smj-lexeme.xfst" -e "save stack sme2smj.fst" -stop Bruk: lookup -q sme2smj.fst čállit echo čállit | lookup -q sme2smj.fst ccat -r -l sme ~/freecorpus/converted/sme/facta/skuvlahistorja1/|preprocess|lookup gt/smj/src/sme2smj.fst |cut -f2|tr '\n' ' '|l Den svært delvis kontrollerte: kvaliteten på smesmj/src/*.xml echo čállit | lookup -q $GTHOME/words/dicts/smesmj/bin/smesmj.fst cat words/dicts/nobsme/src/V_nobsme.xml|grep ''|cut -d">" -f3|lookup gt/smj/src/sme2smj.fst |see }}} sme2smj.fst treng ein gjennomgang: Sandra, Thomas, Trond. Status på kvalitet: * 13112 fad-ord på sme, alle PoS * av 361 ordbokslulesamifiserte, hadde 71 korpustreff * av 13112 fst-lulesamifiserte, hadde 124 korpustreff !!!Korpus Absolutt halde fram. !!!Manuelt arbeid Sandra snakkar med folk. !!!Neste møte Onsdag 14.1. eller torsdag 22.1.