Parallelliseringsmøte 8.12.2011


Berit Merete, Børre, Ciprian, Sjur, Trond


!!!Saksliste

* status quo for testbed for gullkorpus
* status quo for gullkorpus
* arbeid framover

!!!Status quo for gullkorpus

* Ti tekstar i freecorpus/prestable/tmx/goldstandard/nob2sme/
* 4 1/2 av dei er korrigert (jf. 00_readme.txt)

Utfordringar med å avgjera om noko er parallelt:
* med eller utan punktum - dvs er skilnader i teiknsetjing grunn til å seia at to setjingar ikkje er parallelle? Skal vi retta i teksten eller i prosesseringa? ** SVAR: i prosesseringa.
* tekstar med mykje tal. SVAR: postprosessering etter parallellføring

Aksiom: den lineære strukturen er ukrenkeleg. Viss vi har inndata, er denne parallelliseringa god:

{{{
  <tu>
    <tuv xml:lang="sme">
      <seg>~ 
</seg>
    </tuv>
    <tuv xml:lang="nob">
      <seg>
</seg>
    </tuv>
  </tu>
  <tu>
    <tuv xml:lang="sme">
      <seg>35 ~
</seg>
    </tuv>
    <tuv xml:lang="nob">
      <seg>
</seg>
    </tuv>
  </tu>
  <tu>
    <tuv xml:lang="sme">
      <seg>Áviissa ásahedje ovttastumi bokte , gaskal ovdalaš Min Áigi ja Áššu áviissaid , ja almmuhuvvui vuosttaš gearddi guovvamánu 6. beaivvi 2008 . 
</seg>
    </tuv>
    <tuv xml:lang="nob">
      <seg>Avisen ble til gjennom fusjonen mellom de tidligere avisene Min Áigi og Áššu , og ble første gang ~ 35 ~  utgitt 6 . Februar 2008 . 
</seg>
    </tuv>
  </tu>
}}}


Gáldu: Mediabearráigeahčču 2009 
2.4 Áviisafáladat 

{{{
  <tu>
    <tuv xml:lang="sme">
      <seg>2.4.1 Ságat áviissas lassánan deaddilanlohku– sámegielat áviissain njiedjan</seg>
    </tuv>
    <tuv xml:lang="nob">
      <seg>2.4.1 Økt opplag for Ságat – nedgang for samiskspråklige aviser</seg>
    </tuv>
  </tu>
  <tu>
    <tuv xml:lang="sme">
      <seg>Landslaget for Lokalaviser ja Mediebedriftenes Landsforening almmuhit jahkásaččat deaddilanloguid mat maiddái muitalit Ságat ja Ávvira birra.</seg>
    </tuv>
    <tuv xml:lang="nob">
      <seg>Landslaget for lokalaviser og Mediebedriftenes Landsforening publiserer årlig opplagstall som omfatter både Ságat og Ávvir.</seg>
    </tuv>
  </tu>
}}}

{{{
~/main$echo "2.4.1 Landslaget" | preprocess --abbr=gt/sme/bin/abbr.txt 
2.4.1
Landslaget
~/main$echo "2.4.1 Landslaget" | preprocess --abbr=st/nob/bin/abbr.txt 
2.4.1
Landslaget
~$echo "2.4.1. Landslaget" | preprocess --abbr=~/main/st/nob/bin/abbr.txt 
2.4.1
.
Landslaget
}}}

Vi vil ha det slik, jf:

* Det var i 1962 Trond vart fødd  # ei setning
* Det var i 1962. Trond vart fødd # to setningar

Jf. pdf:

{{{
</p>
    <p>2.4.1
</p>
    <p>Ságat áviissas lassánan deaddilanlohku– sámegielat
áviissain njiedjan
</p>
    <p>Landslaget for Lokalaviser ja Mediebedriftenes Landsforening almmuhit

    <p>2.4.1 Økt opplag for Ságat – nedgang for samiskspråklige
aviser
Landslaget for lokalaviser og Mediebedriftenes Landsforening publiserer

sme1 sme2 sme3 = nob1
}}}



!!!Status quo for testbed for gullkorpus

Parallellføringa tar omtrent 12 timar. Det er mogleg med ein arbeidssyklus med
arbeid kvar dag og ny parallellføring kvar natt.

Børre: Det beste er å gjere tmx om til rein tekst, og så diffe tekstane

Eit dokument med 1000 <tu>-element vil resultere i ei tekstfil på 1000 linjer, der kvar line er:

{{{
origspråksetning<TAB>omsetjingsspråksetning
}}}

Testbenken bør gje som resultat / rapport:

{{{
Resultat finnmarkulahka_web_letters.pdf.tmx: 1 - 84/632 = 86.7 %
Resultat Fil2:                               1 - 84/632 = 86.7 %
Resultat Fil3:                               1 - 84/632 = 86.7 %
Resultat Fil4:                               1 - 84/632 = 86.7 %
...
}}}

pakka inn i eit passande xml-format. Forslag til xml-format:

{{{
<paragstesting>
  <testrun><!-- Add one for each test run at the top --></testrun>
  <testrun datetime="20111208-1234">
    <file name="abc" gspairs="634" diffpairs="84"/>
    <file name="xyz" gspairs="634" diffpairs="84"/>
  </testrun>
</paragstesting>
}}}

Filnamn: testruns.paragsxml

__TILTAK__
* Filformat for testing (__Sjur__)
* Script for testing … (__Børre__)
* og for å putte dei i xml-fil (__Børre__)
* Side for presentasjon av data (__Sjur__)
* Lenkje til presentasjon frå techdoc&tools/tca2.jspwiki


!!! Arbeid framover

# Runde 1 - fredag
## Gjere ferdig dei 9 filene i gullkorpus (__Berit Merete, Trond__)
## Setje opp testbed for gullkorpus (__Børre, Sjur__)
# Runde 2 - fredag em
## Skaffe første runde av testresultat (__Børre__)
# Runde 3
## Forbetre preprosesseringa
### abbr.txt (__Berit Merete, Trond__)
### anchor.txt, (__Berit Merete, Trond__)
### parametrisering av tca2  (__Børre__)
# Runde 3x - måndag em
## Skaffe andre runde av testresultat (__Børre__)
# Runde 4
## Ord-parallellisering

Mål før møtet tysdag 13.12:
* Testresultat
* Ein forbetra versjon av preprossesseringsverktya (abbr.txt, anchor.txt, parametrisering av tca2)
* Resuktat frå to runder med testing

!!! Neste møte

Tirsdag formiddag 13.12. kl 10