!!!Korpusmøte Børre og Sjur Børre har slått av språkgjenkjenningstesten pga alt for mykje støy frå særleg sørsamiske OCR-dokument. Problemet er OCR, ikkje språkgjenkjenningstestinga. Børre skal merka opp alle dokument som kjem frå OCR med passande metadata, og deretter oppdatera convert2xml til å hoppa over slike dokument med mindre dei blir eksplisitt spesifiserte eller bede om. Etter det kan språkgjenkjenningstesten bli slått på igjen, og bør gje nyttig informasjon. Gjort til no: * auka minimumsgrensa for text_cat - no krevst det minst 10 bokstavar før text_cat prøver seg -> bør føra til færre språkgjenkjenningsfeil * lagt til språkkoder for alle språk som hadde dansk tekst i seg, slik at berre dei faktiske språka i dokumenta no blir prosesserte ** gjeld {{sme/admin/}} ** vil òg føra til færre språkgjenkjenningsfeil __TODO:__ * merka opp alle dokument med OCR-bakgrunn (dvs ocr som digitaliseringskjelde må inn som metadata i xsl-fila) - vi hoppar over dei den nærmaste tida - 3 timar * legg til ein opsjon i convert2xml for å inkludera OCR-filer (dei blir hoppa over i utgangspunktet, jf det førre punktet) - 2 timar * sjekk om det enno finst uventa språk i det konverterte materialet, og oppdater xsl der det trengst - heile {{converted/sme/}} - 1 dag * endra ccat slik at om ikkje -l er spesifisert, får du alle språk - 3 timar * legg inn ein sjekk på tome dokument - bruk ccat -a -S, både med og utan -l - 3 timar * slå på att språkgjenkjenningstesten - 0,5 time * sjekk parallellføringa - 2 dagar ** sjekk at parallelldokumentet finst *** seinare: konverter alle samtidig, og legg inn parallellpeikarar berre til dei som faktisk blir konvertert ** sjekk at orda er ca like mange i begge/alle språka * hyph-buggane - 1 dag Mål: mot slutten av neste veke kan vi byrja å fylla opp prestable med tekstar gode for parallellføring. Vi bør ha nokre merkbare innsjekkingar i prestable før veka er slutt. Deretter - over i prestable: * alle html - sjekk parallelle pdf-filer, byt ut mot html dersom det er mogleg * alle txt * alle doc * alle pdf