Parallelliseringsmøte 28.11.2011 Børre, Sjur, Trond !!!Gullstandard (tmx-format vs. tca2-format -> egentlig det samme. tca2 spytter ut to tekstfiler, der hver linje tilsvarer den parallelle teksten i den andre filen. I .tmx er disse linje pakket inn i en xml-snutt) Status quo: Vi har no tre gullstandardfiler. Det å jobbe i grafisk gjekk ikkje så bra (problem med å mate inn nye setningar og med å endre 1-1 til m-m). (Der a, b er setningar i sme og 1, 2 er setningar i nob, og 0 = tom setning:) {{{ a-0 0-1 ==> a-1 0-0 ==> a-1 }}} Situasjon: __a. b.__ vs. __1 2.__ (dvs. det mangla punktum etter setning 1) I dag seier gullstandarden: {{{ ab-12 }}} Det burde vi altså ikkje ha gjort. Vi burde dermed ha gjort slik: {{{ a-1 b-2 }}} Resultatet er at vi har færre (eller fleire!) setningspar i gull enn i forlegget. Arbeidsmetode: * Lese i {{tmx/smenob/fil.tmx.html}} * Rette i {{tmx/gullstandard/nobsme/fil.tmx}} Døme: # jmf. er ikkje ei forkorting på norsk, men på samisk. Det må rettast. # Store bokstavar pluss punktum pluss arabiske tal har ulik handsaming på nob og sme. __TODO__: * Teste gullstandardfilene, lage testbenk (__Børre?__) ** Køyr test 1 -- få resultat ** Rette i abbr.txt og whatnot ** Køyr test 2 -- få betre resultat * Lage eigen gullstandard berre med problematiske ting? !!!Ordparallellisering Dette er neste steg. !!!Autshumato [Intern dokumentasjon for autsh|/tools/autshumato.html] __TODO__ * Oppdater [den interne dokumentasjonen|/tools/autshumato.html] (__Sjur?__)