Korpusmöte 25.11.2016 Áilu, Børre, Ciprian, Trond, Sjur !!!Saksliste * Gjennomgang, status * Parallelltekst i .txt-format * Neste møte !!!Gjennomgang, status !!Tiltalslista frå sist (kommentarar nedanfor) ! Skrive framlegg til kontrakt frå SD (Sjur) Ikkje noko skjedd ! 1631 (Børre) Børre finn ein god måte. ! Dei kontraktane som kan bli sendt til forlaget blir sendt (Børre) ! Utvide lista writers-and-books.fods over forfattar, basert på forlagslister (Áilu, Børre) Andre forlag: Lag forfattarliste (Áilu) (etter at vi startar produksjon av korp_2016) $GTHOME/xtdoc/divvun/src/documentation/content/xdocs/adm/legal/writers-and-books.fods Etter Korp_2016. ! Litteratur finansiert av Sametinget Politisk vedtak: Dette skal bli gjort tilgjengeleg for språkteknologisk forsking og utvikling. Sjur snakkar med Anne-Britt Hætta om dette. ! Det norske nasjonalbiblioteket Vi ventar på metadata og tekst ! Det finske nasjonalbiblioteket Vi ventar på tekst, grc-prosjektet ser på dette ! Trond snakkar med LB Nytt forsøk !!Tiltakslista * Skrive framlegg til kontrakt frå SD, UiT/SD, veke 49 (__Sjur, Børre__) * 1631 (__Børre__). til neste møte * Dei kontraktane som kan bli sendt til forlaget blir sendt (__Børre__), veke 48 * Utvide lista writers-and-books.fods over forfattar, basert på forlagslister (__Áilu, Børre__) (etter publisering av korp_2016) * Andre forlag: Lag forfattarliste (__Áilu__) (etter at vi startar produksjon av korp_2016) * Litteratur finansiert av Sametinget ** skal bli gjort tilgjengeleg for språkteknologisk forsking og utvikling. Sjur snakkar med Anne-Britt Hætta om dette (Veke 49) * GRC-prosjektet ser på OCR-tekstar når dei kjem inn * Trond snakkar med LB om svensk tekst (v. 48) * Parallelltekst i .txt-format ** Rutine: skip line numbers i .xsl (__Børre__) !!!Dublering av tekst i same fil Jf. [Bz 2274|http://giellatekno.uit.no/bugzilla/show_bug.cgi?id=2274] {{{

Dásseárvointegreren

Sámediggi ja 17 iežá ....duvvot.

Sámediggi ja 17 iežá ....

Dásseárvointegreren

}}} Prosedyre: # Viss det i same dokument er to eller fleire identiske story-id-ar: ## kopier dokumentet til katalogen {{korrektur}} ## Før inn i xsl: Bruk {første/siste} av dei to nodene med identisk story-id i korpus Prosessering i korrektur-katalogen er ei anna sak, men det ser ut til å vere mogleg å bygge korrektur-korpus automatisk. __Tiltak__ * (Kartlegge kor mange dokument som har fleire identiske story id-ar) * Sjekke om det er første eller siste id som gjeld * Legge inn prosedyre i convert2xml (evt. i xsl-formatet) for å plukke rett versjon til korpus-bruk * legg inn metadata om at fila kan brukast til korrekt-data * Legge inn prosedyre for å merke filene til ei mappe {{korrektur}}, evt. ha dei i same converted, men med ei ccat-rutine, som tar berre korrekt tekst til korpus, og korrektur-diff til spellertesting !!!Parallelltekst i .txt-format Eitt txt-dokument med tekst på to eller fleire språk. (jf. tiltakslista ovarfor) !!!Neste møte Om to veker, __9.12. kl. 09.30__