FAD-Møte 25.9.2012 Til stades: Børre, Ciprian, Marja, Sjur, Trond, Berit Merete !!! Saker: * Status quo * Bugzilla * Arbeid framover * Neste møte !!! Status quo Status quo for data før tillegg etter førre møte: 109021 setningspar. {{{ 1_ape_n>wc -l data.* 109021 data.tagged.clean.nob 109021 data.tagged.clean.sme 1_ape_n>wc -l 20120 1_ape_n>wc -l 20120720_run/data.* 113287 20120720_run/data.tagged.clean.nob 113287 20120720_run/data.tagged.clean.sme }}} $GTFREE=/Users/cipriangerstenberger/20120924_schlange_reloaded find prestable/converted/nob -name \*.xml -exec corpus-parallel.py -p sme {} \; !! Nye korpusfiler BM og Marja har henta nye filer, primært sametingsprotokollar (både plenum og ulike komitémøte), men også ein del filer frå samiske kommuner. * Tal på filer: * Tal på ord: * Tilstand: Filene har vore i pdf-format. Etter konverteringa er ordene sjekka mot missing-list. Det er ikkje konverteringsfeil i data. Dei orda som står i missing-list no er ord som genuint manglar i fst (flest skrivefeil). !! Metadata BM og Marja har brukt skripta til å sjekke parallellfilene (pick-parallel-docs.pl) !! Dokumentering Legge ut dokumentasjon av korpusinnsamlingsprosessene på nettet. Hvor? !! Setningsparallellisering Dokumentasjon av Script. !! Ordparallellisering Hvilken analysator bør man bruke? Giellatekno (sme og nob), Ordbank (nob) eller Apertium (sme og nob)? Sme-analyse - Apertium: {{{ ccat -l sme -r freecorpus/stable/converted/sme/admin/depts/other_files/| \ head -1000|preprocess --abbr=main/gt/sme/bin/abbr.txt|tr -d '[<>/]'| \ hfst-proc /home/fran/mt/apertium-sme-nob/sme-nob.automorf.hfst.ol|grep '/\*'|wc -l Antall missing: 1312 }}} Top missing av 1312: {{{ 22 ^rievttálaš/*rievttálaš$ 20 ^buohtalas/*buohtalas$ 18 ^NBR/*NBR$ 18 ^ee/*ee$^./.$ 17 ^mill/*mill$^./.$ 16 ^álggahansiidaoasi/*álggahansiidaoasi$ 15 ^ovttaoaivilis/*ovttaoaivilis$ 12 ^Evtt/*Evtt$^./.$ 11 ^iešalddis/*iešalddis$ 11 ^guovludepartementa/*guovludepartementa$ 11 ^čearu/*čearu$ 8 ^seammaládje/*seammaládje$ 8 ^biebmodepar/*biebmodepar$ 8 ^almmolašrievttálaš/*almmolašrievttálaš$ 7 ^Rt/*Rt$^./.$ 7 ^NOU/*NOU$ 7 ^makkárge/*makkárge$ 7 ^iešheanalis/*iešheanalis$ 7 ^Departementa/*Departementa$ 6 ^organiserema/*organiserema$ 6 ^og/*og$ 6 ^njuovžilis/*njuovžilis$ }}} Sme-analyse - Giellatekno: {{{ ccat -l sme -r freecorpus/stable/converted/sme/admin/depts/other_files/| \ head -1000|preprocess --abbr=main/gt/sme/bin/abbr.txt | \ lookup -flags mbTT -utf8 main/gt/sme/bin/sme.fst|grep '+?'|wc -l Antall missing: 299 }}} Top missing av 299: {{{ 9 og og +? 8 biebmodepar biebmodepar +? 5 headjuda headjuda +? 5 govttohemet govttohemet +? 4 tids tids +? 4 St.dieđ.nr St.dieđ.nr +? }}} Fra fad_nobsme_candidates.20120721 {{{ 14 0 -6.993 0.0 0.3636364 natur+gode luonddubuorri }}} Fra usme: {{{ gt $ usme luonddubuorri luonddubuorri luonddubuorri+N+Sg+Nom luonddubuorri luondu+N+SgGenCmp+Cmp#buorri+N+Sg+Nom }}} Fra Apertium: {{{ echo luonddubuorri |hfst-proc /home/fran/mt/apertium-sme-nob/sme-nob.automorf.hfst.ol^luonddubuorri/luonddubuorri/luondu+buorri$

luonddubuorrinaturgode

}}} Fra fad_nobsme_candidates.20120721 {{{ 14 0 -6.993 0.0 0.3636364 reindrift+linje boazu+doallu+suorgi }}} Fra usme: {{{ gt $ usme boazodoallosuorgi boazodoallosuorgi boazu+Ani+N+SgNomCmp+Cmp#doallu+N+SgNomCmp+Cmp#suorgi+N+Sg+Nom boazodoallosuorgi boazodoallu+N+SgNomCmp+Cmp#suorgi+N+Sg+Nom boazodoallosuorgi +N+Sg+Nom }}} Fra Apertium: {{{ dhcp372-ans:apertium-nn-nb ttr000$ echo "reindriftlinje" | lt-proc nn-nb.automorf-no-cp.bin ^reindriftlinje/*reindriftlinje$ dhcp372-ans:apertium-nn-nb ttr000$ echo "reindriftslinje" | lt-proc nn-nb.automorf-no-cp.bin ^reindriftslinje/*reindriftslinje$ ^boazodoallosuorgi/boazodoallu+suorgi/boazu+doallu+suorgi/boazu+doalut+suorgi$ }}} !!! Bugzilla !!! Arbeid framover !! Morfologisk analyse av nordsamisk Apertium sin nordsamiske fst inneheld berre dei som er i bidix. Vår analysator inneheld alle dei samiske orda vi har, mens apertium har fjerna dei som ikkje er i bidix. Jf. ovafor (skilnad 299 vs. 1312 missing). Bruk analysatoren sme.fst (dvs. den deskriptive). !! Morfologisk analyse av norsk ! Apertium: Her er den beste apertium-analysatoren den som ligg i apertium/trunk/apertium-nn-bn. ! Giellatekno, Trond main/st/nob/src/ make unob ! Norsk ordbank main/st/nob/obt/ Sitat frå 00_readme.txt: {{{ Basic usage =========== Usage on a mac: cat text | preprocess --abbr=$GTHOME/st/nob/bin/abbr.txt | \ $GTHOME/st/nob/obt/bin/mtag-osx64 | \ vislcg3 -g $GTHOME/st/nob/obt/src/nob_morf.cg3 Usage on victorio is same as above, but with mtag-linux32 instead, thus: cat text | preprocess --abbr=$GTHOME/st/nob/bin/abbr.txt | \ $GTHOME/st/nob/obt/bin/mtag-linux32 | \ vislcg3 -g $GTHOME/st/nob/obt/src/nob_morf.cg3 Advanced usage ============== In order to combine cg and statistics, you may use nob_morf-prestat.cg3 instead of nob_morf.cg3, thus the last line is: vislcg3 -g $GTHOME/st/nob/obt/src/nob_morf-prestat.cg3 }}} !! Konklusjon, analyse: Dei beste analysatorane (med størst dekning) er: * sme: sme.fst * nob: main/st/obt/, den dokumentert under "Advanced usage". !! Setningsparallellisering {{{ 000_run>find prestable/converted -name "*.xml" | wc -l 2934 20120924_schlange_reloaded>find prestable/converted -name "*.xml" | wc -l 2944 }}} !! Ordparallellisering !! Arbeidsplan __Tiltaksliste__ # Hente tekst frå kommunar og fylkeskommunar (__Marja, BM__) ## Legge inn missing-ord i lexc-kjeldefilene (__Marja, BM__) ## Legge ut dokumentasjon på nett: [ParallelCorpusConversion.jspwiki |/ling/ParallelCorpusConversion.html] (__Berit__) # Konvertere til xml ## Stopp ved manglande abbr og analysator (__Børre__) ## Inkluder nob i innhaldssjekk (__Børre, evt. Trond__) # Setningsparallellisere ## Dokumentasjon av prosessen # Ordparallellisere ## integrere relevante fst-ar i pipeline (__Ciprian__) ## Debugge pipeline, sende til Trond (__Ciprian__) ## Evaluere (__Trond, Ciprian__) ## parallellisere (__Ciprian__) # Sjå på output frå i sommar (to kjøringer) + arbeidsrutine (__Marja, BM__) ## sammenligne outputten iht. ### kvantitet: øking av sannsynlighetstall for par som var allerede før ### kvalitet: øking av parallelle ord som er relevante til FAD-ordboka Framdrift: Vi satsar på å ha ordparallellisert output til neste møte. !!! Neste møte __Fredag 10.10. når det passar for den finske presidenten.__