Korpusmøte 12.3. 2014 Til stades: Børre, Ciprian, Lene, Trond, Sjur __Tema:__ * Lagring av samiske data * nob !!!Lagring av samiske data Møte om vår hverdagsrutine med korpus-konvertering hver dag. Det går ikke an å ta vare på alt data som vi generere. Det er for lite plass, vi tar vare på data vi ikkje treng. !!Noverande modell: Spare mykje, for mykje (ikkje plass itl alt). !!Ny modell for konvertering, analyse og lagring: * konvertering on demand * data som kan bli endra og som krev ny konvertering: ** nye metadata ** nye konverteringsrutiner ** nye korpusfiler * Modell for analyse on demand * data som kan bli endra og som krev ny analyse: ** nye fst-ar ** nye cg3-filer * Ny modell for nær-lagring - versjonar av __kontinuerleg konvertering og analyse for Korp m.m.__: ** spar konvertert materiale i svn? Utsett til seinare *** Undersøke svn og alternativ - kva gjer andre for å handtera versjonar av korpusdata? ** Spar siste n (av analysert), n=5 ** Spar eldre referanseanalyser (1 eks 1 mnd gammal) ** Meir diskplass og minneplass? __Referansekorpus for å evaluere analysatoren__ (fjern-lagring): * kva betyr det? ** Ein tekst stor nok og balansert nok til å vere interessant, som vi køyrer analysatorane våre mot med jamne mellomrom, for å måle fram- og attendegang. *** stort nok = 5M *** balansert = frå alle dei 5 delkatalogane *** interessant = udefinert / avhengig av den som spør ** berre analyser - eitt fast konvertert materiale * Korleis kan vi definera referansepunkt? ** subjektivt - vi synest det ser bra ut ** objektivt - kvar N-te månad, eller kvar 10000 svn-versjon ** etter spesifikke aktivitetar !!!rene nob-data. Laura og Hanne (UiO) om nob-data for noe projekt. Cip har lokalt alle korpora som man kan nedlaste fra Språkbanken. Han har gjort en del job med rensing, xml-formatering, etc. Det er minst tre plass som trenges nob-dataen i store mengden og så godt som mulig (minst) pos-tagget. # Cips phd: jeg vil gjerne se lit på partikkelverber in nob # GT/Divvun: alltid i sammenhang med smX-nob/nob-smX (se, td, frekvenslister) # Laura/Hanne sin projekt. Problem: # Problem: vi trenger mer plass! # Problem: Vi må ha en mulighet for å dele dataen med annet folk, ikke bare oss imellom (I just wanted to use the one and only postposition in nob).