!!!Parallelliseringsmøte 20.12.2011


Berit Merete, Børre, Sjur, Trond


!!!Saksliste

hmm:

* status quo for testbed for gullkorpus
* status quo for gullkorpus
* arbeid framover


!! Status quo for testbed for gullkorpus

Vi har no 4 testar.

Vi får diff-filer generert, jf. [nettside|/ling/testruns.paragstesting.html].
Sjølve filene ligg no i {{techdoc/ling}}, dei skal flyttast til eigen katalog {{techdoc/ling/tca2testing/}}

Lenkje frå tabell er ikkje laga.

Prinispp for unit-testing: 
# Ikkjetrivielle tilfelle skal inn i unit-testing for å teste, feks __b.__
# Trivielle ting skal vi berre rette med det same. (jf. "ein fork. Test")


!b.

Diskusjonen held fram i [Bugzilla|http://giellatekno.uit.no/bugzilla/show_bug.cgi?id=1226]. Problemet 
ligg i preprocess linje 480ff.


__TILTAK__

* ny katalog for testresultat (__Børre__)
* Lenkje frå testtabell (__Sjur__) - gjort
* b. som i Bugzilla.
* Korpus av forkortingar
** Dra ut par {{asdf.}} vs. {{asdf.}} frå gull/konvertert-fil-para (__Børre__)
** Evaluere, og lagre som unit-test-dokument (__Berit Merete, Trond__)
** Ikkjetrivielle: abbr-test.py
** Trivielle: echo "ein fork. Test" | preprocess --abbr=sme/bin/abbr.txt eller legg til


!! status quo for gullkorpus

Fleire filer? Vi ventar til vi har evaluert det vi har.

__TILTAK__
* Penare tabell (__Sjur__) - halvgjort


!! arbeid framover

!tca2 sine parameter

Status quo: [Nettside|https://giellalt.uit.no/tools/tca2_tests/tca2_testruns.paragstesting.html]


__TILTAK__

# Rekne ut tabellen på nytt utan samiske tall forteller
# For kvart parameter: kåre ein vinnar (max/min)
# Lage eit parameteroppsett med berre vinnarverdiar, og køyr det 


!Ankerfil

tca2 forstår initial stor bokstav sjølv om ankerfila berre har liten bokstav
Det gjer derimot ikkje vår notinanchor.fst
Den må også gjere det: ''inituppercase.fst .o. notinanchor.fst'' 

I dag ligg ankerfila ''anchor.txt'' i $GTHOME/gt/common/src/

Anchor-missing:
{{$GTHOME/tools/alignment-tools/tca2/missing/}}

Testresultat (diffene) i {{$GTHOME/techdoc/ling/tca2testing/}}

__TILTAK__

* Top-down: Køyr korpuset gjennom anker-fst-en, og legg til nye anker frå toppen, 
  sjå på mest frekvente missing, (__Sjur__)
** prestable/tmx/.../sme/... og gjennom ein anchor.fst for sme
** prestable/tmx/.../nob/... og gjennom ein anchor.fst for nob
* Legge til i anchor (__Børre, Trond, Berit Merete__)
* Korpusdrive: Gå gjennom gullkorpuset, og legg til ord frå dei setningane som er feilparallellisert


!abbr-jobbing

Det føreset å berre lese gjennom resultat.

__TILTAK__
Berit Merete og Trond held fram.

!Forbetre konverteringa

__TILTAK__
pdf: Fjerne topp- og bunntekst. (__Børre__)

!!Terskelnivå

Når har vi eit bra nok resultat til å bedrive ordparallellisering?

~/freecorpus/prestable$ccat -r converted/sme/ | wc -w
 1731030
~/freecorpus/prestable$ccat -r converted/nob/ | wc -w
 2097929

{{{
spectie: here is my intuition:
spectie: the difference in quality of alignments between 2million words and 4
		 million words will probably be noticeable
spectie: for the lexicographers it will make no difference
spectie: because probably they want 50% of good alignments
spectie: whereas we are talking in the range of 10-20%
spectie: but the best thing to do is find out what they are expecting
spectie: and what they are willing to work with
}}}


!!!Neste møte

Vi tar ein prat tre av oss før jul (torsdag).

* Børre borte 23.12-4.1.
* BM borte?
* Trond på jobb i mellomjula.
* Sjur i Trondheim