FAD-Møte 18.10.2012
Til stades: Børre, Ciprian, Marja, Trond, Berit Merete
!!! Saker:
* Ordparallellisering
* Setningsparallellisering
* Rutiner
** Arbeidsfordeling
* Arbeid framover
* Neste møte
Issues for the next meeting:
1. documenting the whole working cycle
and the responisibilities for each step
2. synching the tmx-toktmx files
work_in_progress>wc -l input_data_t*/*
109345 input_data_tmx/data.nob
109345 input_data_tmx/data.sme
150781 input_data_toktmx/data.nob
150781 input_data_toktmx/data.sme
3. analysis and improvement of the output file of the word alignment step
!!! Ordparallellisering
Vi har eit ordparallellisert output, men det er ikkje brukbart,
pga. problem med tredobbel preprosessering. Sjå punkt om rutiner
lenger ned.
!!! Setningsparallellisering
!!! Rutiner
Oversikt over heile pipeline
Pipeline var feil: det var tredobbel preprosessering.
Cip tok data frå tmx, men nye filer er ikkje "i synch med tmx".
Börre genererer tmx og toktmx (Sjur ville ha tmx for CAT-arbeid,
og toktmx (ekstra mellomrom).
toktmx er setningsalignment. Det bør gå til ???, tmx bør gå
til preprosessering.
* tmx:
** Báiki: Samelandssenter, Kárášjohka
** Áigi: guovvamánu 23. - 26. b. 1999
* toktmx:
** Báiki : Samelandssenter , Kárášjohka
** Áigi : guovvamánu 23. - 26. b. 1999
tca2 må ha tokenisert input. Ergo har vi toktmx.
For vidare analyse treng vi utokenisert. Vi får utokenisert
ved å endre frå toktmx til tmx med {{toktmx2tmx.py}}.
Problemet er at obt har ein preprosesserar inne i taggaren sin.
Dei må ha __setning__ som input, og ikkje __ord-per-linje__.
tmx og toktmx er ikkje i sync fordi vi har konvertert til
toktmx men ikkje til tmx. Det er to ulike trinn, til toktmx
er trinn n, og til tmx er trinn n+1. Dette er ikkje
automatisert.
tmx er originalstreng.
Rutine:
Konvertere til xml: convert2xml.pl
Finne parallelle filer: pick-parallel-doc.pl
Sentence alignment: corpus-parallel.py -> gir toktmx
Pynte toktmx: toktmx2tmx.py -> gir tmx
# ta toktmx som input
# køyr corpusparallel.py
01_readme_FAD-pipeline.txt
!! Forbetring
{{{
plan- og bygningsloven:
""
"plan-" ukjent
""
"og" konj
""
"bygningslov" subst appell mask be ent <*lov>
}}}
/big/gt/sme/corp/forvaltningsordbok/second_run/work_in_progress/20121014_data
!! Arbeidsfordeling
# Konvertering, sentencealignment, wordalignment (__Ciprian__)
# Missinglister (__BM, Márjá__)
!!! Arbeid framover
# Konvertere orig på nytt og overføre data til prestable. (__Ciprian__)
# Sentencealigne på nytt (__Ciprian__)
# Lage nye sme-missinglister (__Ciprian__)
# Gå gjennom sme-missingliste, inkl oaţţut, oñña, ieţas (__BM, Márjá, Børre__)
# Til mandag kl 12: Lage liste over filpar som ikke blir overført til prestable (__Ciprian__)
# Gå igjennom liste over filpar som ikke blir overført til prestable (__BM, Márjá__)
# Legge ut dokumentasjon om hvordan rette opp feil i fil-parallelisering (__BM, Børre__)
# Legge ut dokumentasjon om hvordan rette opp feil i setningsparallelisering (__BM, Børre__)
!!! Neste møte
__Fredag 26. oktober kl 10__