!!Giellateknomøte 12.11.14 * Nettsider/forrest * smenob/nobsme-ordbøker * nyinfraflytting, oppsummering * Planar framover * 16.1.-workshop * Trond/Sjur-møtet !! Nettsider/forrest Saka blei ikke disktutert. !! smenob/nobsme-ordbøker Cip har rydda. !Samanslåing No: Bli samd om format for evaluering av formene som skal bli slått saman, og om lappane vi skal bruke. __Lene__ har synspunkt på kva lapper vi skal bruke, og skriv eit framlegg. Vi tar det opp, og __Cip__ genererer. Prioritering: Etter korpusoppdatering. !Metainformasjon til brukarar * Informasjon på Webdict * Informasjon på NDS: [http://sanit.oahpa.no/about/] Der bør det vere informasjon om at delar av dei kjem frå FAD, og det bør stå kor mange ord det er. * Om oss => Om ordboka __Trond__ oppdaterer. !! nyinfraflytting, oppsummering Eventuelle problem ser vi når vi skal bygge nye ting. !! Planar framover Trond: Komponentane i planprosessen. Lene: * Kva vi vil tilby brukarar, kor god dei skal vere * Ariklar: Kva slags, når og kor og kor mykje Poeng: Prioritere Viktig: Ting som fungerer, artiklar vi får publisert. Internasjonalisering eller ikkje. I kor stor grad? Ciprian: Ikkje enten/eller men heller __selektivt__ både/og. Vi held fram planprosessen. !! 16.1.-workshop Trond refererte. !! Trond/Sjur-møtet Trond refererte !!Genereringsproblem Problemet er derivasjon. Cip vil ha grunnform __og__ POS. Viss vi har POS* har vi derivasjon. Denne POS* peiker til final POS (gjeldande ordklasse). Problemet er løyst i Laura sitt prosjekt. Overføring av denne løysinga til vårt korpus er problematisk. Med ein mange-til-ein-relasjon mellom base og generert form vil det ikkje vere eintydig sti attende til base, vi vil få flere basar. Ciprian vil ikkje tilby pseudo-lemma, men avleidd lemma med korrekt POS. Korrekt POS er ikkje noko problem, men å få korrekt lemma er eit problem. Han får lemma som ???. Ein grunn til det er at lemma inneheld #. Lene: Vi skal tilby berre leksikalisert lemma, ikkje dynamiske samansetjingar et lite forskingsarbeid -- ganske stort, eigentleg eg bruker alltid å seie at ny ortografi er for ungdommen -- fødd etter 1975 ikkeordsfeil = feil som resulterer i nonsensord ekteordsfeil = feil som reesulterer i eksisterende ord [[hoppe over feiltypar] her har vi et nordsamisk ord == her har vi en oversikt over TROND: i samisk fonologi er stavelse og takt sentral Bergsland 48 gir dermed namn til alle deler av de tre første stavelsene 1. og 2. stavelse = første takt Most frequent positions ==> the most frequnt positions where we have errors i etter vokal er konsonant* Divvun spellchecker evaluation sa du kva som var N = (det kan du skrive på 78%-sliden Phonological rules ==> Phonological rules in the spellchecker Kanskje du ksal ha feite typar (eller fjerne kursivering) attom ordet til venstre for > for å skilje betre mellom ord og framlegg foms > forms possive > possessive Disse formene dekker feilskriving i det absolutte paradigmet Why use FST ==> Ny overskrift? Why should we still use FST and not a list-based speller? AND NOT JUST COLLECT THE WORDS FROM TEXTS Are all our generated forms in use in the language THE ONELINER, spissformuleringa: fst-en genererer ikke-eksisterende former, og dekker dermed over skrivefeil. Vi må dermed kontrollere fst-en, og hindre den frå å generere former som aldri blir brukt (Lene: endre rekkjefølgje her) ---- Possible limitations Trond: ulik farge på regel (første linje i strekpunkt) og eksempel (resten) Trond: Ver meir eksplisitt: Innføring av disse 5 reglene (begrensingene på generering) vil gi en bedre stavekontroll Limitations 6 adjektiv i korpus har Px .. spm: og kva slags former er det dei har? Verbgenitiv Spesielt problematisk i stavekontrollsammenheng fordi den er kort dahko -> dahkko atnon - > adnon For alle desse: kva er vanleg, kva er ekteordsfeil (kanskje du bør ha fargekode eller grå eller noko her Looked at a corpus of 19 mill ==> Denne sliden er bra. Prabably misspellings... Number of undetected misspellings Nordsmisk spellchecker I DAG idnetifisererer ... Fonotaks er viktig ==> men her er programmet for dårlig? her er det potensiale?