!!!Korpus-møte

Til stades: Børre, Sjur, Trond

* nye metadata: kva slags bruk dokumentet er ok for (dokumentert med kva slags testar som har vorte køyrde)
* automatiserte testar for så mykje som mogleg
* Status quo for innsamla data
* Status quo for uinnsamla data
* arbeidsprioritering framover
* kjøpa meir arbeidskraft?
* Ta opp att doku-sida /doc/ling/corpus_maintenance.html
* Andre saker?

!!! nye metadata: kva slags bruk dokumentet er ok for (dokumentert med kva slags testar som har vorte køyrde)

!!Bruksområde
* grammatisk analyse
* terminologi og ordbok
* maskinomsetjing
* stavekontroll
* grammatikkontroll

!!Krav til konvertering
* Konverteringsfeil på teiknnivå (bokstav inn - bokstav ut)
* Konverteringsfeil på dokumentnivå (dokument inn - (del)dokument ut)
* OCR-feil 
* Språkattkjenningsfeil
** Les text_cat xsl? Ja
*** er text_cat for dårleg? Tja, med rett inndata er svaret ganske ok
*** er modellane for dårleg? - for tidleg å seia, vi må testa med korrekt xsl
** Står relevant data i xsl? -- nei
*** Identifisere fleirspråklege filer, og leggje til info i deira xsl-filer
*** Døme i sme/admin/other_files inneheld 30 av 60 filer (kanskje) nob.
** Klarer text_cat å velje mellom språka når xsl er i orden?
*** Börre: ja.
*** Den største utfordringa: nob eller swe?


!!!Språkattkjenning

* n-gram
* ordlister
* teiknfrekvens

text_cat er frå Groningen, og perlbasert. Brendan Molloy har laga ein ny
versjon, for sin eigen del og for "miljøet", reinskrive i Python ut i frå artikkelen som Groningen-verktyet byggjer på.

__TODO__
* Legge til språkinfo i xsl - halvautomatisk
* ccat+analysator-test

!!! automatiserte testar for så mykje som mogleg

!!Språkgjenkjenning og OCR-feil

* ccat + analysator
** be ccat om språk X
** analyser språk X
** sjekk forholdet mellom alle ord og ukjende ord: FAIL dersom ukjende er > 5 %

!!Parallelle setningar

Gjeld berre parallelldokument

* MÃ¥l: alle setningar skal vera parallelle, avvik maks 5 %
* Metode: TCA

!!! Status quo for innsamla data

!!! Status quo for uinnsamla data

* jus! nac1993 = NOU (den står i admin/dept/nou og i 
* lovtekstar i 
* opplæringslova står på sme, ikkje på nno

!!! arbeidsprioritering framover

!!! kjøpa meir arbeidskraft?

!!! Andre saker?