Møte om korpuskonvertering og -parallellisering, 4.7. 2017 Til stades: Ciprian, Reetta, Risten, Trond !!!Oversyn over prosessen {{{ orig: html/doc/pdf/txt ==> endring av .. a. html: xpath doc: pdf: cm på arket txt: linjenr b. alle: str1/str2/str3/ -> rpl1/rpl2/rpl3 ikkje ha denne fila (feil språk) xsl: lenke til feil parallellfil språkidentifikasjon ulikt innhald preprosessering. Forbetre preprocess (Ciprian, sjå nedanfor) parallellisering Sjekke om filparet er korrekt parallellisert: a. viss ja: Flytt over til stable (sjå nedanfor) b. viss nei Sjekk om parallelliseringa kan rettast opp i. Ja, det kan det med betre input (sjå ovafor): ==> forbetre input og parallelliser på nytt eller med betre parallelliseringsprogram (tca2) (betre anchor-liste, betre tca2-parameter, ...) ==> forbetre tca2 eller anchor-nob-sma og parallelliser på nytt ii. Nei, det kan det ikkje: (dette er få filer) ==> manuelt arbeid og deretter flytt til stable }}} !!!Korleis flytte til stable: Flytt heile katalogen: svn mv prestable/tmx/nob2sma/folder/folder stable/tmx/nob2sma/folder/folder svn ci prestable/tmx/nob2sma/folder/folder stable/tmx/nob2sma/folder/folder Flytt ei og ei fil: svn mv prestable/tmx/nob2sma/folder/folder stable/tmx/nob2sma/folder/folder/fil.tmx svn ci prestable/tmx/nob2sma/folder/folder stable/tmx/nob2sma/folder/folder/fil.tmx !!!TODO-liste # Bygg parallell struktur i stable (Ciprian) # språkattkjenning fungerer ikkje (Ciprian) (viss "'1'" og mlang = "sme" så alle språk) Same feil har vi i rusbound Spörsmål: Parallelliserer vi paragrafar med feil språk? # preprocess (eksempel nedanfor) # xpath-pair-avsnitt: Her treng vi dokumentasjon (sjå: "epub or html" nedanfor) ---- !!Eksempel !preprocess: Riktig form, riktig preprossessering {{{ $ echo "Måantan, ruffien 10. b. 2017"|preprocess --abbr=tools/preprocess/abbr.txt Måantan , ruffien 10. b. 2017 }}} Feil form, riktig preprossessering {{{ $ echo "Måantan, ruffien 10.b. 2017"|preprocess --abbr=tools/preprocess/abbr.txt Måantan , ruffien 10. b. 2017 }}} Riktig form, riktig preprossessering {{{ $ echo "Måantan, ruffien 10. b."|preprocess --abbr=tools/preprocess/abbr.txt Måantan , ruffien 10. b. }}} Feil form, feil preprossessering {{{ $ echo "Måantan, ruffien 10.b."|preprocess --abbr=tools/preprocess/abbr.txt Måantan , ruffien 10 . b. }}} Sjå også denne: {{{ echo " sajos(at)samediggi.fi"|preprocess --abbr=tools/preprocess/abbr.txt sajos ( at ) samediggi . fi }}} !epub or html Relevant tekst i .xsl {{{ This variable is used for epub or html files. select contains comma separated xpath path pairs. A path pair is separated by a semicolon. Each path should start with .//body Examples of valid pairs: * .//body/div[1]/h2[1];.//body/div[3]/div[1]/h3[1] * .//body/div[5];.//body/div[8]/div[3]/h1[1], .//body/div[11]/div[2];.//body/div[11]/div[5] }}}