!!!Parallelliseringsmøte 20.12.2011 Berit Merete, Børre, Sjur, Trond !!!Saksliste hmm: * status quo for testbed for gullkorpus * status quo for gullkorpus * arbeid framover !! Status quo for testbed for gullkorpus Vi har no 4 testar. Vi får diff-filer generert, jf. [nettside|/ling/testruns.paragstesting.html]. Sjølve filene ligg no i {{techdoc/ling}}, dei skal flyttast til eigen katalog {{techdoc/ling/tca2testing/}} Lenkje frå tabell er ikkje laga. Prinispp for unit-testing: # Ikkjetrivielle tilfelle skal inn i unit-testing for å teste, feks __b.__ # Trivielle ting skal vi berre rette med det same. (jf. "ein fork. Test") !b. Diskusjonen held fram i [Bugzilla|http://giellatekno.uit.no/bugzilla/show_bug.cgi?id=1226]. Problemet ligg i preprocess linje 480ff. __TILTAK__ * ny katalog for testresultat (__Børre__) * Lenkje frå testtabell (__Sjur__) - gjort * b. som i Bugzilla. * Korpus av forkortingar ** Dra ut par {{asdf.}} vs. {{asdf.}} frå gull/konvertert-fil-para (__Børre__) ** Evaluere, og lagre som unit-test-dokument (__Berit Merete, Trond__) ** Ikkjetrivielle: abbr-test.py ** Trivielle: echo "ein fork. Test" | preprocess --abbr=sme/bin/abbr.txt eller legg til !! status quo for gullkorpus Fleire filer? Vi ventar til vi har evaluert det vi har. __TILTAK__ * Penare tabell (__Sjur__) - halvgjort !! arbeid framover !tca2 sine parameter Status quo: [Nettside|https://giellalt.uit.no/tools/tca2_tests/tca2_testruns.paragstesting.html] __TILTAK__ # Rekne ut tabellen på nytt utan samiske tall forteller # For kvart parameter: kåre ein vinnar (max/min) # Lage eit parameteroppsett med berre vinnarverdiar, og køyr det !Ankerfil tca2 forstår initial stor bokstav sjølv om ankerfila berre har liten bokstav Det gjer derimot ikkje vår notinanchor.fst Den må også gjere det: ''inituppercase.fst .o. notinanchor.fst'' I dag ligg ankerfila ''anchor.txt'' i $GTHOME/gt/common/src/ Anchor-missing: {{$GTHOME/tools/alignment-tools/tca2/missing/}} Testresultat (diffene) i {{$GTHOME/techdoc/ling/tca2testing/}} __TILTAK__ * Top-down: Køyr korpuset gjennom anker-fst-en, og legg til nye anker frå toppen, sjå på mest frekvente missing, (__Sjur__) ** prestable/tmx/.../sme/... og gjennom ein anchor.fst for sme ** prestable/tmx/.../nob/... og gjennom ein anchor.fst for nob * Legge til i anchor (__Børre, Trond, Berit Merete__) * Korpusdrive: Gå gjennom gullkorpuset, og legg til ord frå dei setningane som er feilparallellisert !abbr-jobbing Det føreset å berre lese gjennom resultat. __TILTAK__ Berit Merete og Trond held fram. !Forbetre konverteringa __TILTAK__ pdf: Fjerne topp- og bunntekst. (__Børre__) !!Terskelnivå Når har vi eit bra nok resultat til å bedrive ordparallellisering? ~/freecorpus/prestable$ccat -r converted/sme/ | wc -w 1731030 ~/freecorpus/prestable$ccat -r converted/nob/ | wc -w 2097929 {{{ spectie: here is my intuition: spectie: the difference in quality of alignments between 2million words and 4 million words will probably be noticeable spectie: for the lexicographers it will make no difference spectie: because probably they want 50% of good alignments spectie: whereas we are talking in the range of 10-20% spectie: but the best thing to do is find out what they are expecting spectie: and what they are willing to work with }}} !!!Neste møte Vi tar ein prat tre av oss før jul (torsdag). * Børre borte 23.12-4.1. * BM borte? * Trond på jobb i mellomjula. * Sjur i Trondheim