Parallelliseringsmøte 8.12.2011 Berit Merete, Børre, Ciprian, Sjur, Trond !!!Saksliste * status quo for testbed for gullkorpus * status quo for gullkorpus * arbeid framover !!!Status quo for gullkorpus * Ti tekstar i freecorpus/prestable/tmx/goldstandard/nob2sme/ * 4 1/2 av dei er korrigert (jf. 00_readme.txt) Utfordringar med Ã¥ avgjera om noko er parallelt: * med eller utan punktum - dvs er skilnader i teiknsetjing grunn til Ã¥ seia at to setjingar ikkje er parallelle? Skal vi retta i teksten eller i prosesseringa? ** SVAR: i prosesseringa. * tekstar med mykje tal. SVAR: postprosessering etter parallellføring Aksiom: den lineære strukturen er ukrenkeleg. Viss vi har inndata, er denne parallelliseringa god: {{{ <tu> <tuv xml:lang="sme"> <seg>~ </seg> </tuv> <tuv xml:lang="nob"> <seg> </seg> </tuv> </tu> <tu> <tuv xml:lang="sme"> <seg>35 ~ </seg> </tuv> <tuv xml:lang="nob"> <seg> </seg> </tuv> </tu> <tu> <tuv xml:lang="sme"> <seg>Ãviissa ásahedje ovttastumi bokte , gaskal ovdalaÅ¡ Min Ãigi ja ÃÅ¡Å¡u áviissaid , ja almmuhuvvui vuosttaÅ¡ gearddi guovvamánu 6. beaivvi 2008 . </seg> </tuv> <tuv xml:lang="nob"> <seg>Avisen ble til gjennom fusjonen mellom de tidligere avisene Min Ãigi og ÃÅ¡Å¡u , og ble første gang ~ 35 ~ utgitt 6 . Februar 2008 . </seg> </tuv> </tu> }}} Gáldu: MediabearráigeahÄÄu 2009 2.4 Ãviisafáladat {{{ <tu> <tuv xml:lang="sme"> <seg>2.4.1 Ságat áviissas lassánan deaddilanlohku– sámegielat áviissain njiedjan</seg> </tuv> <tuv xml:lang="nob"> <seg>2.4.1 Økt opplag for Ságat – nedgang for samisksprÃ¥klige aviser</seg> </tuv> </tu> <tu> <tuv xml:lang="sme"> <seg>Landslaget for Lokalaviser ja Mediebedriftenes Landsforening almmuhit jahkásaÄÄat deaddilanloguid mat maiddái muitalit Ságat ja Ãvvira birra.</seg> </tuv> <tuv xml:lang="nob"> <seg>Landslaget for lokalaviser og Mediebedriftenes Landsforening publiserer Ã¥rlig opplagstall som omfatter bÃ¥de Ságat og Ãvvir.</seg> </tuv> </tu> }}} {{{ ~/main$echo "2.4.1 Landslaget" | preprocess --abbr=gt/sme/bin/abbr.txt 2.4.1 Landslaget ~/main$echo "2.4.1 Landslaget" | preprocess --abbr=st/nob/bin/abbr.txt 2.4.1 Landslaget ~$echo "2.4.1. Landslaget" | preprocess --abbr=~/main/st/nob/bin/abbr.txt 2.4.1 . Landslaget }}} Vi vil ha det slik, jf: * Det var i 1962 Trond vart fødd # ei setning * Det var i 1962. Trond vart fødd # to setningar Jf. pdf: {{{ </p> <p>2.4.1 </p> <p>Ságat áviissas lassánan deaddilanlohku– sámegielat áviissain njiedjan </p> <p>Landslaget for Lokalaviser ja Mediebedriftenes Landsforening almmuhit <p>2.4.1 Økt opplag for Ságat – nedgang for samisksprÃ¥klige aviser Landslaget for lokalaviser og Mediebedriftenes Landsforening publiserer sme1 sme2 sme3 = nob1 }}} !!!Status quo for testbed for gullkorpus Parallellføringa tar omtrent 12 timar. Det er mogleg med ein arbeidssyklus med arbeid kvar dag og ny parallellføring kvar natt. Børre: Det beste er Ã¥ gjere tmx om til rein tekst, og sÃ¥ diffe tekstane Eit dokument med 1000 <tu>-element vil resultere i ei tekstfil pÃ¥ 1000 linjer, der kvar line er: {{{ origsprÃ¥ksetning<TAB>omsetjingssprÃ¥ksetning }}} Testbenken bør gje som resultat / rapport: {{{ Resultat finnmarkulahka_web_letters.pdf.tmx: 1 - 84/632 = 86.7 % Resultat Fil2: 1 - 84/632 = 86.7 % Resultat Fil3: 1 - 84/632 = 86.7 % Resultat Fil4: 1 - 84/632 = 86.7 % ... }}} pakka inn i eit passande xml-format. Forslag til xml-format: {{{ <paragstesting> <testrun><!-- Add one for each test run at the top --></testrun> <testrun datetime="20111208-1234"> <file name="abc" gspairs="634" diffpairs="84"/> <file name="xyz" gspairs="634" diffpairs="84"/> </testrun> </paragstesting> }}} Filnamn: testruns.paragsxml __TILTAK__ * Filformat for testing (__Sjur__) * Script for testing … (__Børre__) * og for Ã¥ putte dei i xml-fil (__Børre__) * Side for presentasjon av data (__Sjur__) * Lenkje til presentasjon frÃ¥ techdoc&tools/tca2.jspwiki !!! Arbeid framover # Runde 1 - fredag ## Gjere ferdig dei 9 filene i gullkorpus (__Berit Merete, Trond__) ## Setje opp testbed for gullkorpus (__Børre, Sjur__) # Runde 2 - fredag em ## Skaffe første runde av testresultat (__Børre__) # Runde 3 ## Forbetre preprosesseringa ### abbr.txt (__Berit Merete, Trond__) ### anchor.txt, (__Berit Merete, Trond__) ### parametrisering av tca2 (__Børre__) # Runde 3x - mÃ¥ndag em ## Skaffe andre runde av testresultat (__Børre__) # Runde 4 ## Ord-parallellisering MÃ¥l før møtet tysdag 13.12: * Testresultat * Ein forbetra versjon av preprossesseringsverktya (abbr.txt, anchor.txt, parametrisering av tca2) * Resuktat frÃ¥ to runder med testing !!! Neste møte Tirsdag formiddag 13.12. kl 10