!!!Korpus-møte Til stades: Børre, Sjur, Trond * nye metadata: kva slags bruk dokumentet er ok for (dokumentert med kva slags testar som har vorte køyrde) * automatiserte testar for så mykje som mogleg * Status quo for innsamla data * Status quo for uinnsamla data * arbeidsprioritering framover * kjøpa meir arbeidskraft? * Ta opp att doku-sida /doc/ling/corpus_maintenance.html * Andre saker? !!! nye metadata: kva slags bruk dokumentet er ok for (dokumentert med kva slags testar som har vorte køyrde) !!Bruksområde * grammatisk analyse * terminologi og ordbok * maskinomsetjing * stavekontroll * grammatikkontroll !!Krav til konvertering * Konverteringsfeil på teiknnivå (bokstav inn - bokstav ut) * Konverteringsfeil på dokumentnivå (dokument inn - (del)dokument ut) * OCR-feil * Språkattkjenningsfeil ** Les text_cat xsl? Ja *** er text_cat for dårleg? Tja, med rett inndata er svaret ganske ok *** er modellane for dårleg? - for tidleg å seia, vi må testa med korrekt xsl ** Står relevant data i xsl? -- nei *** Identifisere fleirspråklege filer, og leggje til info i deira xsl-filer *** Døme i sme/admin/other_files inneheld 30 av 60 filer (kanskje) nob. ** Klarer text_cat å velje mellom språka når xsl er i orden? *** Börre: ja. *** Den største utfordringa: nob eller swe? !!!Språkattkjenning * n-gram * ordlister * teiknfrekvens text_cat er frå Groningen, og perlbasert. Brendan Molloy har laga ein ny versjon, for sin eigen del og for "miljøet", reinskrive i Python ut i frå artikkelen som Groningen-verktyet byggjer på. __TODO__ * Legge til språkinfo i xsl - halvautomatisk * ccat+analysator-test !!! automatiserte testar for så mykje som mogleg !!Språkgjenkjenning og OCR-feil * ccat + analysator ** be ccat om språk X ** analyser språk X ** sjekk forholdet mellom alle ord og ukjende ord: FAIL dersom ukjende er > 5 % !!Parallelle setningar Gjeld berre parallelldokument * Mål: alle setningar skal vera parallelle, avvik maks 5 % * Metode: TCA !!! Status quo for innsamla data !!! Status quo for uinnsamla data * jus! nac1993 = NOU (den står i admin/dept/nou og i * lovtekstar i * opplæringslova står på sme, ikkje på nno !!! arbeidsprioritering framover !!! kjøpa meir arbeidskraft? !!! Andre saker?