!!!Giellatekno-møte 3.4. 2018 Tilstede: Chiara, Ciprian, Trond, Lene !!Saksliste * Oppsummering og status * LIA * Små driftsmidler-søknad * NFR-søknader * ICALL * Stedsnavn Statens Kartverk * NRK Sápmi har teksting lenkja til lydfiler !! Oppsummering og status ! Lingvistikkmøte 1 MWE * LIA-materialet ** legg vi inn som Err/Lex i sme inntil vidare. Dette vil vere aktuelt for andre samiske språk * MWE 1: ''Sámegiela% ja% sámi% girjjálašvuođa% mastergrádaoahppu'' ** Det er ikkje bra å ha store fleirordsuttrykk i standard-FST-en ** grammatikkontrollgruppa vil ha det i grammatikkontroll-FST-en (med ein - * MWE 2: ''New York'' * MWE-korrigering ** {{< {gurut} "@P.Pmatch.Backtrack@" { bealde} > adv ;}} ! Lingvistikkmøte 2: bindestrek Vi må avklare Giellagáldu sin posisjon i denne saka. ! Servarar osb Sjur og Børre var her, Chiara hadde problem med Konteksta (plassproblem), sysadminproblem. Etter møte før påske skreiv Børre til IT-avd, og vi kan få nye servarar denne veka. Forrest: * Vi har sletta xtdoc/gtuit2 * Vi skal ha felles techdoc [https://giellalt.uit.no/infra/system/Serveroppgradering.html] !! LIA * Over til hfst i analyse av materiale * Endre formatet frå LIA-output til input for analysatorane våre ** Lia-annotatorane bruker ein del spesielle teikn (#, +1, ##, ...) som vi må prosessere. Det finst ei lenkje til liste over desse symbola: http://tekstlab.uio.no/LIA/transkripsjon.html ** Lene og Ciprian snakker sammen om dette * Lingvistisk analyse i eigen tier * MT i eigen tier * Legge nob-ord til i egen fil som kan være med i kompileringa for alle språk? ** Integrere nob-fil i automake (etterhvert, ikke hast no) * Syntaktisk analyse (CG) - egen speech-disambiguator.cg3, som inneholder INCLUDE disambiguator.cg3 ** Integrere speech-disambiguator i automake? !! Små driftsmidler-søknad, søknadsfrist 11. mai * Små driftsmidler skal tildeles aktive forskere (i fast vitenskapelig stilling) ** Det kan tildeles fra kroner 10.000 til kroner 60.000 til formålet ** Bevilgningene er normalt ettårige ** Midlene tildeles til konkrete forskningsprosjekter ** Det er ikke krav til egenandel ** Det kreves ikke rapport ved prosjektavslutning * Prioritering ** Prosjektets relevans sett i forhold til fakultetets forskningsstrategi ** Søkerens publikasjoner de to siste årene * Pengane kan __ikkje__ gå til: ** Bokinnkjøp ** Innkjøp av utstyr, inklusive datautstyr og smarttelefoner ** Støtte til å arrangere større konferanser ** Frikjøp ** Generell drift til forskningsgrupper ** Undervisningsrettede tiltak ! Ideer * ''Sørsamiske barnebøker'' (vi har tospråklige filer) ** arbeid: vitass, legge inn i korpus, tilpasse xsl-filer, aligning, sjekking ** forskning: * ''Historisk samisk materiale'' (fra Finland) ** arbeid: sortere materialet etter ortografi, formulere konvertering til ny ortografi, legge inn i korpus, tilpasse xsl-filer ** forskningsartikkel: * Annotering av skrivefeil ** arbeid: annotere ** forskning: * Lage gullkorpus for arbeid med syntaks ** arbeid: rette automatisk analyse ** forskning: !! NFR-søknaden Trond og Lene arbeider med dette 3. april kl 14. !! ICALL Arbeid så langt: Morfologiske oppgåver. Vidare seinare: Syntaktiske. * Konteaksta: Chiara har fiksa alle oppgåvene: Godkjenne begge formene er i boks. * Layout er oppdatert. * Lene skal finne flere tekster som passer til oppgavene. Kopi av korpustekster legges i static-files eller i biggies. ** legges i gtuit@divvun.no:Sites/static_files * Arbeid med menyar slik at oppgvene blir produsert berre med tekst og ikkje i menyane. * Skal testes med folk utafor GT, og deretter med lærere ved Nord-Troms VGS * Vurdere søknad til TFK om tilpasning (programmering) !! Stedsnavn Statens Kartverk Lene tar kontakt med AKP, snakker først med Ciprian !! NRK Sápmi har teksting lenkja til lydfiler ''NRK Sápmi:'' lage multimediakorpus med oversettinger som ligger på deres nettside * arbeid: ** innsamling ** programmering ** manuell gjennomgang av parallellisering osv * [Nettside|https://tv.nrk.no/serie/studio-sapmi/SAPP67005118/14-01-2018#t=7m39s] * forskningsartikkel om: ** Prosessen med å lage det synkroniserte korpuset ** Kodeveksling samisk/norsk ** Talespråkssyntaks * Innhald