!!! Møte 25.01.13 Til stades: Ryan, Lene, Trond !! Saksliste * Artikkel * Fstdict og plugin * Neste møte !! Artikkel Kan vi bruke korpuset med typos? Dekningen er likevel bra, over 90 %. Eller skal vi lage et nytt korpus? Lene legger til tekster fra Ávvir osv. Tabell 2: Også lage prosenter om ordformer (unifisere materialet) facebook = 20% utan samisk tastatur. Disposisjon for artikkelen: # Intro ## There is... ## Kanskje dette: fst needed for comprehension dict: few lemma form in running text, non-obvious lemma + compound sprachbund ## muligheter med fst, legge til hva som helst (facebook, nno + nob osv) ## Disposisjon av artikkel # Motivasjon for dictionaries ## Samisk - morfologi + sprachbund ## hjelp til lese samiske tekster -> samer kan skrive samisk ## Installeringsvanskar ## også nevne fin-sme (for samer i norge) og nob-sme (for samer i finland) - morfologien gjør fin-sme bedre og fordi språkene ligger nært hverandre så blir resultatet bra selv med lite arbeid ## Previous approach: listing morphological forms, referring to lemma article. We did this because this is how it is done Referere til Lingsofts Parrot # Building.. ## bookmarklet til staden for chrome plugin # Evaluation ## fst dict __Denne 4.1 opp til motivation__ + legg til note om suprasegmental morfologi korjaamo+ssa / bođii - boahtit ## testing on corpus ## facebook fst ## sma: Trond ordnar materiale, Lene køyrar sme-testane for sma også. # Doing more Generalising the fst dic ## finsme: x lemma i finsme-ordbok + fst = y% dekning på z løpande ord (90% av ord i finsk tekst er ikkje grunnform) ## nno - nob ## Poenget frå multi-artikkelen: Try this at home: Viss språket ditt er på denne lista så køyr (fst + tospråklig ordliste) den tospråklege ordlista di vil med dette til og med bli brukbar... # Conclusion # Acknowledgments ## Sjur, Ciprian, Berit-Merete, Márjá !!! Fstdict og plugin !!Filtrere svaret (evt bare for plugin-varianten, eksempelordet er: __boazodoallobearráigehččiid__ gir: {{{ boazodoallobearráigeahčči (s.) – reindriftsinspektør bearráigeahččat (v.) – inspisere bearráigeahčči (s.) – oppsynsmann boazodoallu (s.) – reindrift doallu (s.) – driftsenhet, drift doalut (s.) – arrangement boazu (s.) – rein, reinsdyr slik er analysen: boazodoallobearráigehččiid boazodoallobearráigehččiid boazu+Ani+N+SgNomCmp+Cmp#doalut+Event+N+SgNomCmp+Cmp#bearráigeahčči+Hum+N+NomAg+Pl+Gen boazodoallobearráigehččiid boazu+Ani+N+SgNomCmp+Cmp#doalut+Event+N+SgNomCmp+Cmp#bearráigeahčči+Hum+N+NomAg+Pl+Acc boazodoallobearráigehččiid boazu+Ani+N+SgNomCmp+Cmp#doalut+Event+N+SgNomCmp+Cmp#bearráigeahččat+V+TV+Der/NomAg+N+Pl+Gen boazodoallobearráigehččiid boazu+Ani+N+SgNomCmp+Cmp#doalut+Event+N+SgNomCmp+Cmp#bearráigeahččat+V+TV+Der/NomAg+N+Pl+Acc boazodoallobearráigehččiid boazu+Ani+N+SgNomCmp+Cmp#doallu+N+SgNomCmp+Cmp#bearráigeahčči+Hum+N+NomAg+Pl+Gen boazodoallobearráigehččiid boazu+Ani+N+SgNomCmp+Cmp#doallu+N+SgNomCmp+Cmp#bearráigeahčči+Hum+N+NomAg+Pl+Acc boazodoallobearráigehččiid boazu+Ani+N+SgNomCmp+Cmp#doallu+N+SgNomCmp+Cmp#bearráigeahččat+V+TV+Der/NomAg+N+Pl+Gen boazodoallobearráigehččiid boazu+Ani+N+SgNomCmp+Cmp#doallu+N+SgNomCmp+Cmp#bearráigeahččat+V+TV+Der/NomAg+N+Pl+Acc boazodoallobearráigehččiid boazodoallu+N+SgNomCmp+Cmp#bearráigeahčči+Hum+N+NomAg+Pl+Gen boazodoallobearráigehččiid boazodoallu+N+SgNomCmp+Cmp#bearráigeahčči+Hum+N+NomAg+Pl+Acc boazodoallobearráigehččiid boazodoallu+N+SgNomCmp+Cmp#bearráigeahččat+V+TV+Der/NomAg+N+Pl+Gen boazodoallobearráigehččiid boazodoallu+N+SgNomCmp+Cmp#bearráigeahččat+V+TV+Der/NomAg+N+Pl+Acc boazodoallobearráigehččiid boazodoallobearráigeahčči+Hum+N+NomAg+Pl+Gen boazodoallobearráigehččiid boazodoallobearráigeahčči+Hum+N+NomAg+Pl+Acc }}} Tilsvarende for derivasjoner, eksempelord er: boradeimmet boradit (v.) – spise, ete, ha et måltid borrat (v.) – spise, ete, etse Slik er analysen: boradeimmet boradeimmet borrat+V+TV+Der/d+V+Ind+Prt+Pl1 boradeimmet boradit+V+TV+Ind+Prt+Pl1 * Regel 1: __Hvis det finnes en analyse uten #, så fjern analysene med #__ * Regel 2: __Hvis det finnes en analyse uten Der/, så fjern analysene med Der/__ # Vanleg ordbok: Berre leksikaliserte, berre korrekt samisk # Studentordbok: Også dynamisk samansetjing, men berre korrekt samisk # Facebookordbok: Berre leksikaliserte, men også iPhone-samisk Denne lista kan vi ha inn i artikkelen også. !! Legge til informasjon om morfologi Ved å filtrere analysene slik som i forrige sak, så har man god plass i vinduet til å legge til morfologi (plugin-varianten): boazodoallobearráigehččiid N Pl Acc eller N Pl Gen av boazodoallobearráigeahčči (s.) – reindriftsinspektør !! Context i miniparadigmet I adjektiv-fila er det info om context: {{{ fiskat Denne infoen kan brukes slik i miniparadigmet: adj. Attr alit (bivttas) <======== adj. Pl Nom alihat adj. Comp Attr alihit adj. Comp Sg Nom alihit adj. Superl Sg Nom aliheamos }}} Også i numeralfila er det context: {{{ guokte }}} Den skal vises for plural-fomen i miniparadigmet: guovttit (gápmagat) !! Manglende informasjon for numeraler For numeraler får jeg ingen informasjon eller miniparadigme når jeg velger Mer informasjon. !! Feil i presentasjon av morfologi Selve ordboka (ikke plugin): {{{ gaskabeivviid is a possible form of ... gaskabeivviid <== her skal det være lemma, ikke ordform s. s. fl. akk. s. fl. gen. s. fl. akk. s. fl. gen. s. fl. akk. s. fl. gen. }}} Her burde det ha stått: {{{ gaskabeivviid is a possible form of ... gaskabeaivvit s. fl. akk. s. fl. gen. gaskabeaivi s. fl. akk. s. fl. gen. beaivi s. fl. akk. s. fl. gen. }}} {{{ baakoegærjah is a possible form of ... baakoegærjah <== skulle stå: baakoegærja N SgNomCmp Cmp#gærja N Pl Nom N Pl Nom }}} Fjerne fra analysen som blir presentert til brukerne: aktor, nom.Ag., G3, G7. Denne informasjonen får brukerne i miniparadigmet. !! Facebook-ordbok sme-nob: På facebook er 20 % av teksten skrive utan samisk tastatur. Trond har laga eit spellrelax-filter som sjekkar for áčđŋšŧž når det står acdnstz, og til og med for áčđŋšŧž når det står ACDNSTZ (Pekka Sammallahti, og med han også ein del andre, skriv slik: oaZZut for oažžut). Trond tenkte vi kunne kompilere med den (eg vil utvide fst-repertoaret til ein facebook-sme.fst), så kunne vi ha eit alternativ nederst på lista, "Blogg-ordbok, facebook-ordbok" el.l. ("forstår samisk utan samiske bokstavar"). !! Kombinert norsk/nynorsk-ordbok nob-sme: Ordboka vår er for bokmål. Trond tenkte å lage den også for å forstå nynorsk tekst: # leggje til ei fil med ubøyelege nynorsk-ord: ikkje har ikke som lemma, osv. # leggje til nynorskmorfologi for felles opne ord (maskulin får ''-ar, -ane'' i tillegg til ''-er, -ene''). Så kan vi lage ein dict-nob.fst, og bruke den !! Lokalisering Det kommer etterhvert, Ryan har en plan. !! Frekvenssortering av mg i entryene Vi ønsker å få de mest generelle oversettingene øverst i lista som presenteres for brukeren (eks. gå), og derfor vil vi merke disse mg med en attributt, og deretter sortere internt i hver entry. Dette vil forbedre presentasjonen også i fstdict. !! tf mangler - må legges til {{{ boaššu boaššus boššui den innerste plassen i telt eller gamme }}} Lene lager en liste over ordformer som bør sjekkes, se også denne: [sjekkliste for den nykompilerte ordboka (VD)|https://giellalt.uit.no/dicts/checklist.html] !! Neste møte Mandag 28.1 kl 8.00