!!!Trond

* korpusstrukteren (kva er kor, generell info (Lene sitt utgangspunkt))
* konverteringsrutinene ("korleis konverteringa skal fungere")
* praktisk konvertering av freecorpus (har vi twig og perl på plass?)
* feilmeldingane i tmp/ 
* bruk av dei filspesifikke .xsl-filene ("korleis føre inn rettingar")
* å legge til nye filer / bruke convert2xml.pl til konvertering av nye filer
* gullstandardfilene, korleis dei går inn i heilskapen, korleis dei er merka, konvertert

!!!Lene

brukere av korpuset. dvs.
* struktur,
* varianter av ccat-kommandoen,
* hva gjør vi hvis vi finner feil,
* om:
** xsl-filene,
** gullkorpuset,
** det analyserte korpuset på divvun-serveren,
* regler for bruk av bound...

!!!Trond2

brukarperspektivet gjeld (bør gjelde) for oss alle:
* korleis vi ser på korpuset (ccat)
* korleis vi legg inn rettingar i .xsl-filene

Eit av problema med korpuset er jo at både brukarane og konverterarane i for liten grad har sett på resultatet.

!!!Forslag

!!Brukarperspektiv:
* struktur (vic, lokalt, xserve + free, bound - alt er svn)
** orig
** converted
** stable
** goldstandard
* ccat og andre måtar å bruka korpuset på
* om konverteringsprosessen
** fyrste steg (til førebels xml (= xhtml, docbook, m.m.)
** andre steg (til rå korpusxml - hovudkonverteringa)
** tredje steg (til nesten ferdig korpusxml - xsl-fil)
** fjerde steg (finpuss - språkattkjenning, feilmerkingskonvertering)
* feilretting:
** utanfor goldstandard
** i goldstandard
** etter feiltype:
*** skrivefeil
*** strukturfeil
*** feil språk
*** andre konverteringsfeil
* xsl-filene:
** kva, kor
** korleis dei blir brukte
* bruksreglar for bound

!!Konverteringsperspektiv:
* leggja til nye filer
* konvertera filer
* feilmeldingane in {{tmp/}}
* omkonvertera allereie konverterte dokument:
** sjekka regresjonar + progresjonar
** sjekka inn nykonverteringa
* korleis testa konverteringa:
** sjå på før- og eter-teksten
** analysera alle ord
** sjekka alle setningar - at dei er setningar (og blir avslutta med .?! osb.)

!!!Feilbehandling

!!Automatisk generert feilskriving i news

bilde:Leif
titt:Čiekčamat
mtitt:Ii
tekst:Álgočiekčamat
ingress:Mannan
byline:Johan
BILDETEKST:Dá
ÐMun
ÐGalanihtoguovllus
DagÈ
ÒVassdalenisÓ
oahpponeavvo-ráhkadeapmaiÓ

filer hvor de nordsamiske bokstavene er forsvunnet: Reportáaid Dieuid osv

Vi har ei felles common.xsl som blir brukt for alle konverteringar.
Her er det mogleg å leggje inn ei retting av typen "bilde: LÁIDEJIT".

Sametinget har enno ikkje (?) fått i stand ein klausul for språkteknologisk forsking for tekst produsert med støtte av Sametinget.

Samarbeidsavtalen mellom fylkeskommunane og Sametinget bør inkludera overlevering av samiske dokument (og norske parallellfiler) til den samiske korpussamlinga.

Wordcount bør være med i metadata.

metadata mangler i xml-filene:
/apache_corpus/boundcorpus/orig/sme/news/Avvir_xml-filer/Avvir_2010_xml-filer
(sjekka f.eks. year, ingen av filene inneholder ordet).