Møte, FAD, 30.8.2012 Til stades: Børre, Ciprian, Marja, Sjur, Trond, Berit Merete Saksliste * Status quo ** setningar ** ord * Arbeid framover !!! Status quo !! Setningar Ciprian kan køyre pipeline. Showstopper er __Trond__, som ikkje har retta {{nob/src/abbr.txt}}. Børre har flytta tekstar frå språkkatalogane til mixed-katalogane. Vi har dermed ikkje same prestable som før. Børre har laga ei bra pipeline for python. Input frå Børre: Informasjon om metafiler til kvar fil: Det kan mangle peikarar i dei tilfella der fila er flytta frå katalog til katalog, og der det er dobbeltfiler. Originalspråk: Metafiler manglar informasjon om retning, og om språk. Ciprian køyrer setningsparallellisering på nytt, og genererer ein ny {{prestable}}. Den nye blir referanse for arbeidet med abbr. __TODO__ * Børre ser på samsvar mellom fil og metafil. * Ciprian sendar setningspar til Trond * Trond endrar nob/src/abbr.txt slik at vi får same output som sme. * Parallelt (sic:) Ciprian køyrer ny prestable, input frå Børre. * Nye namn til preprestable / gogoX + dokumetasjon (__Ciprian__) !! Ord Når tiltaka under setningsparallellisering er gjennomført (sjå ovafor) køyrer Ciprian ordparallellisering på nytt. __TODO__ * Køyre ny versjon (etter setningsparallellisering) __Ciprian__ * Sjekke ordparallelliseringa __Marja, Berit Merete__ * Diskutere grensenivå for konfidens. !! Forbetringar i prosessen * lagra kvar versjon av konvertert materiale, spar dei siste to-tre versjonane. På det viset er det lett å jamføra resultatet av ulike konverteringar, slik at ein lett kan sjå kva som har endra seg. !!! Arbeid framover !!! Bugar * 1074 nor P5 Possible infinite template recursion because of input data * 1170 nor P3 Soft hyphens should be converted to * 1172 nor P5 Recent svn (r47755) breaks encoding conversion when speci... * 1369 enh P5 OCR files have been included in our prestable corpus * 1387 nor P5 Doubled content in the toktmx files in the nob2sme sente... * 1389 cri P3 files in orig directory lacking an xsl meta file * 1390 enh P5 Recorded typos still in the final format (tmx/toktmx) * 1391 enh P5 Parallel files declared in xsl meta file but missing in t... * 1392 enh P5 Unspecified translation direction in the meta file in for... !!! Moment til ein neste fase Manuelt arbeid med utgangspunkt i norskspråklege forvaltningsordbøker eller -ordlister. Dependensanalyse og MWE i parallellisering. !!! Neste møte Onsdag 5.9., kl. 1300.