Korpusmöte 16.11.2016 Áilu, Børre, Ciprian, Trond !!!Saksliste frå sist * Gjennomgang, status * Parallelltekst i .txt-format * Arbeid !!!Gjennomgang, status Lista frå førre møte (sjå kommentarar nedanfor) * Følgje opp DG via andre (?) kanalar (Børre) * Skrive framlegg til brev frå SD (Sjur) * Følgje opp Bz 1551, 1630, 1631 (relevante) * Dei kontraktane som kan bli sendt til forlaget blir sendt (Børre) * Utvide lista writers-and-books.fods over forfattar, basert på forlagslister (Áilu, Børre) * Neste møte: Diskusjon om lista * Skániid girji: OCR (Børre) * Politisk vedtak: litteratur finansiert av Sametinget skal bli gjort tilgjengeleg for språkteknologisk forsking og utvikling. Sjur snakkar med Anne-Britt Hætta om dette. * Mail/diskusjon til/med Nasjonalbiblioteket om innsamling (Trond) * Følgje opp finsk nasjonalbibliotek * Trond snakkar med LB * Sjur diskuter med dei i Helsingfors !! DG Børre har prata med DG, ordna med praktiske ting. Dei hadde e-format-bøker som skulle til .epub, måtte OCR-e bøker, og ville deretter sende til oss. !!Buggane: * Árbbol. bind 1-3 i korpus: Band 1, via DG (Børre) * Andre JÁV: (Børre) * 1630: Skániid. Bøker kjem frå biblioteket !!Det norske nasjonalbiblioteket Vi får alle dei opne tekstane dei har. Vi legg til side eldre ortografi, og ser på tekstar med gjeldande ortografi. Når vi får dei må vi sjå på kvaliteten av dei, og dra konklusjonar. !!Det finske nasjonalbiblioteket Vi har ca. 130000 ord med 1800-talssamisk, med metadata, og med varierande OCR-kvalitet. I år vil vi også få OCR-versjonar av Sagai Muitalægje, Nuortanaste, Sami Usteb. Det er mogleg dei har betre kvalitet Det som må gjerast for å få dette inn i korpuset: # OCR-forbetring ?? # mekanisme for automatisk forbetring (perl = ordna regelsett) # manuell gjennomgang * Vi må få til det vi gjer i dag betre før vi går inn på historiske tekstar * Vi må ha ein plan for ekstern finansiering !!Tiltak * Skrive framlegg til brev frå SD (Sjur) * 1631 (Børre) * Dei kontraktane som kan bli sendt til forlaget blir sendt (Børre) * Utvide lista writers-and-books.fods over forfattar, basert på forlagslister (Áilu, Børre) ** Andre forlag: Lag forfattarliste (Áilu) (etter at vi startar produksjon av korp_2016) * Politisk vedtak: litteratur finansiert av Sametinget skal bli gjort tilgjengeleg for språkteknologisk forsking og utvikling. Sjur snakkar med Anne-Britt Hætta om dette. * Det norske nasjonalbiblioteket * Det finske nasjonalbiblioteket * Trond snakkar med LB * Sjur diskuter med dei i Helsingfors !!!Parallelltekst i samme fil i .txt-format Vi har mekanismer for andre filformat. # Áilu legg inn ein versjon av fila i kvar språkmappe, kvar av filene har eiga metadatafil # Børre lagar opplegg for .txt, og Áilu ventar med å prosessere til då. # Áilu Prioritering av metadata: # årstal # forfattar # tittel # originalspråk !!!Neste møte Vi diskuterer dette neste veke når Børre og Sjur er i Tromsø.