!!!Giellateknomøte 18. september Tilstede: Chiara, Trond, Risten, Lene, Børre (under første sak) * Korpusarbeid * Preprosessering, forkortingar * Nasjonalbiblioteket * NoDaLiDa * Andre saker? !! Korpusarbeid ! Engasjement Ny medarbeidar hit for å få opplæring. 6 mnd i 100%? lågare prosent? Lene har en mulig kandidat på handa, primært for å følgje opp forlaga. * bør ha sertifikat/tilgang bil * Børre som veileder * __Lene__ skriver epost til kandidaten !Fornying av enspråklig Korpus-innhold Innholdet var sist oppdatert oktober 2018. Oppdateringa bør forenkles, hvilke hindringer har vi? # Identifisere tekst # Analyse ## Analysere de forkjellige filene (dette er kronjobb en gang i uka), ## Samle de analyserte filene til grepkorpus (automatisk?) ## Kontrollere at analysen fungerer (taggar, ...) ## Analysere på nytt # Konvertere til Korp-format # Oppdatere site TILTAK * __Chiara__ oppdatere/lage dokumentasjon for korpusanalyse * __Chiara__ finner fram skript for å lage grep-korpus (jf {{/home/corpus/freecorpus/00_readme.txt på gtweb}}) * __Lene__ sjekker missing, tagger osv. * __Chiara__ legger de nye filene i Korp, når vi er enige om det, med semtagger !Tekstar frå rusbound (mari) Dei treng ein eigen katalog under gtweb, parallelt med boundcorpus. !Fornying av parallelltekster i Korpus Ikkje i svn = * {{{ orig/ converted/* tmx/* prestable/tmx/nob2sme }}} Arbeidsrutine: * Forbetre metadata i orig * parallellisere til tmx (tilsvarande convertere til converted) * deretter manuelt flytte frå tmx til prestable og sjekke inn. Så skal dei tospråklege tekstane inn i Korp (dvs. inn i SIKOR). Vi parallelliserer i tre delar: Filene ligg i orig # tmx = output (som converted), ikkje i svn # prestable = sjekk inn, konvertere på nytt etter nye CorpusTools, arbeide manuelt. Når vi er nøgd: # Flytt til stable med svn mv __Lene__ møblerer stable etter mal frå prestable. Vi må deretter få ei rutine for å unngå å parallellisere dei same filene på nytt. CorpusTools må sjekke om fila allereie eksisterer i stable før det parallelliserer nye filer til tmx. Deretter vil Chiara finne det ho treng i stable. Framlegg: Kan vi legge negative data inn i parallellfila? __Lene__ legger til i bargovuohki om praktisk parallellseringsarbeid, grunnlagt på diskusjoner på møtet ! epub __Børre__ skriv til Sametinget og ber dei bruke epub i tillegg til dei formata dei har. Mange sametingsrepresentantar vil like det, og for oss vil det vere svært viktig. ! Preprosessering Nordsamisk, parallellisering. Viss den eine setninga inneheld meir tekst enn den andre ignorerer vi det. __Trond__ gjør ferdig smi-løsninga for abbriviation, og tester ! Tekstprioritering * Vent med sametingsprotokollar til vi evt. får epub. * Eit mogleg framlegg: Sametingsprotokollar for samediggi.fi (jf. mail) * Alt av andre pdf/epub-filer fra 2019 (sjekk at de ikke er tatt) !! Nasjonalbiblioteket Chiara og Trond orienterte. !! NoDaLiDa Tar vi etter kvart (koordinering buss og togbilletter) !! Janne Kjem hit i morgon. Vi har møte med han på fredag, kanskje halv ni og framover? Klimastreik kl. 9-10.