Parallelliseringsmøte 8.12.2011
Berit Merete, Børre, Ciprian, Sjur, Trond
!!!Saksliste
* status quo for testbed for gullkorpus
* status quo for gullkorpus
* arbeid framover
!!!Status quo for gullkorpus
* Ti tekstar i freecorpus/prestable/tmx/goldstandard/nob2sme/
* 4 1/2 av dei er korrigert (jf. 00_readme.txt)
Utfordringar med å avgjera om noko er parallelt:
* med eller utan punktum - dvs er skilnader i teiknsetjing grunn til å seia at to setjingar ikkje er parallelle? Skal vi retta i teksten eller i prosesseringa? ** SVAR: i prosesseringa.
* tekstar med mykje tal. SVAR: postprosessering etter parallellføring
Aksiom: den lineære strukturen er ukrenkeleg. Viss vi har inndata, er denne parallelliseringa god:
{{{
~
35 ~
Áviissa ásahedje ovttastumi bokte , gaskal ovdalaš Min Áigi ja Áššu áviissaid , ja almmuhuvvui vuosttaš gearddi guovvamánu 6. beaivvi 2008 .
Avisen ble til gjennom fusjonen mellom de tidligere avisene Min Áigi og Áššu , og ble første gang ~ 35 ~ utgitt 6 . Februar 2008 .
}}}
Gáldu: Mediabearráigeahčču 2009
2.4 Áviisafáladat
{{{
2.4.1 Ságat áviissas lassánan deaddilanlohku– sámegielat áviissain njiedjan
2.4.1 Økt opplag for Ságat – nedgang for samiskspråklige aviser
Landslaget for Lokalaviser ja Mediebedriftenes Landsforening almmuhit jahkásaččat deaddilanloguid mat maiddái muitalit Ságat ja Ávvira birra.
Landslaget for lokalaviser og Mediebedriftenes Landsforening publiserer årlig opplagstall som omfatter både Ságat og Ávvir.
}}}
{{{
~/main$echo "2.4.1 Landslaget" | preprocess --abbr=gt/sme/bin/abbr.txt
2.4.1
Landslaget
~/main$echo "2.4.1 Landslaget" | preprocess --abbr=st/nob/bin/abbr.txt
2.4.1
Landslaget
~$echo "2.4.1. Landslaget" | preprocess --abbr=~/main/st/nob/bin/abbr.txt
2.4.1
.
Landslaget
}}}
Vi vil ha det slik, jf:
* Det var i 1962 Trond vart fødd # ei setning
* Det var i 1962. Trond vart fødd # to setningar
Jf. pdf:
{{{
2.4.1
Ságat áviissas lassánan deaddilanlohku– sámegielat
áviissain njiedjan
Landslaget for Lokalaviser ja Mediebedriftenes Landsforening almmuhit
2.4.1 Økt opplag for Ságat – nedgang for samiskspråklige
aviser
Landslaget for lokalaviser og Mediebedriftenes Landsforening publiserer
sme1 sme2 sme3 = nob1
}}}
!!!Status quo for testbed for gullkorpus
Parallellføringa tar omtrent 12 timar. Det er mogleg med ein arbeidssyklus med
arbeid kvar dag og ny parallellføring kvar natt.
Børre: Det beste er å gjere tmx om til rein tekst, og så diffe tekstane
Eit dokument med 1000 -element vil resultere i ei tekstfil på 1000 linjer, der kvar line er:
{{{
origspråksetningomsetjingsspråksetning
}}}
Testbenken bør gje som resultat / rapport:
{{{
Resultat finnmarkulahka_web_letters.pdf.tmx: 1 - 84/632 = 86.7 %
Resultat Fil2: 1 - 84/632 = 86.7 %
Resultat Fil3: 1 - 84/632 = 86.7 %
Resultat Fil4: 1 - 84/632 = 86.7 %
...
}}}
pakka inn i eit passande xml-format. Forslag til xml-format:
{{{
}}}
Filnamn: testruns.paragsxml
__TILTAK__
* Filformat for testing (__Sjur__)
* Script for testing … (__Børre__)
* og for å putte dei i xml-fil (__Børre__)
* Side for presentasjon av data (__Sjur__)
* Lenkje til presentasjon frå techdoc&tools/tca2.jspwiki
!!! Arbeid framover
# Runde 1 - fredag
## Gjere ferdig dei 9 filene i gullkorpus (__Berit Merete, Trond__)
## Setje opp testbed for gullkorpus (__Børre, Sjur__)
# Runde 2 - fredag em
## Skaffe første runde av testresultat (__Børre__)
# Runde 3
## Forbetre preprosesseringa
### abbr.txt (__Berit Merete, Trond__)
### anchor.txt, (__Berit Merete, Trond__)
### parametrisering av tca2 (__Børre__)
# Runde 3x - måndag em
## Skaffe andre runde av testresultat (__Børre__)
# Runde 4
## Ord-parallellisering
Mål før møtet tysdag 13.12:
* Testresultat
* Ein forbetra versjon av preprossesseringsverktya (abbr.txt, anchor.txt, parametrisering av tca2)
* Resuktat frå to runder med testing
!!! Neste møte
Tirsdag formiddag 13.12. kl 10