!!!Møte om OCR-prosessen 15.12.16.

Til stades: Lene, Thomas, Børre, Sjur, Trond


!!!Saksliste

* Oversyn over ocr-situasjonen
* Konklusjonar
* Arbeid framover

!!!Oversyn over ocr-situasjonen

Ulike typar ocr-lese filar:

# Sametinget sine referat som .tiff
# Thomas og Maja har scanna


Sametinget sine referat som .tiff

Dette blir ocr-lese, og ocr-programmet lagrar både tekst og bilete
jf. 2302.

Thomas og Maja har scanna. Første OCR-versjon dukka opp, 

bug [2299|http://giellatekno.uit.no/bugzilla/show_bug.cgi?id=2299]

Vi skisserer typane slik vi vil ha det. {{filnamn_b}} er ikkje-ocr-filer.
{{filnamn_a.ocr}} er ei fil som er ocr-lese, og {{filnamn_a.ocr.correct}}
er same fil, men manuelt korrigert.

{{{
orig/
filnamn_b.doc     <== denne skal til konverterast til converted (vanlege filer)
filnamn_b.doc.xsl 
filnamn_a.ocr.doc     <== skal ikkje konverterast til boundcorpus/converted (x)
filnamn_a.ocr.doc.xsl <== har 'ocr' i metadata ==> blir ikkje konvertert
filnamn_a.ocr.correct.txt <== denne skal konverterast til goldstandard/converted (xx)
filnamn_a.ocr.correct.txt.xsl
}}}

Dette er t.d. Anna Jacobsen sine tekstar, men også t.d.

orig/sme/ficti/lindgren-sme-010-019corr.txt

Her er eit oversyn over Anna Jacobsen:


{{{
giellatekno:boundcorpus boerre$ find orig -name 'annajakobsen_don_jih_daan_bijre*.xsl'
orig/sma/ficti/annajakobsen_don_jih_daan_bijre_1_kap_1-45.orig.rtf.xsl <== i buggen (x)
orig/sma/ficti/annajakobsen_don_jih_daan_bijre_2_kap_1-45.orig.doc.xsl <== i buggen
orig/sma/ficti/annajakobsen_don_jih_daan_bijre_3_kap_1-38.orig.doc.xsl <== i buggen
orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_1.binorig.rtf.xsl  (også (x))
orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_1.doc.xsl
orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_1.ocrorig.correct.txt.xsl (xx)
orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_1_kap_46-50.correct.txt.xsl
orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_2.binorig.rtf.xsl
orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_2.doc.xsl
orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_2.ocrorig.correct.txt.xsl
orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_2.ocrorig.rtf.xsl
orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_2_kap_46-50.correct.txt.xsl
orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_3.binorig.doc.xsl
orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_3.ocrorig.correct.txt.xsl
orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_3.ocrorig.rtf.xsl
orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_3_kap_39-45.correct.txt.xsl
}}}

Det er ein del rot i filene i dag, det må bli rydda opp. Tema her er ikkje 
denne oppryddinga, men kva vi vil ha, korleis vi vil utføre rettingar og 
konverteringar.


Våre filer -- Anna Jacobsen -- har vorte retta med ocrleif§feil, t.d. slik:

goImeIuhkieuktsie§(golmeluhkieuktsie), Snåasesne golmeIuhkiegovhte§(golmeluhkiegovhte), Raanesne 

Sametingsprotokollane har vorte retta med søk/erstatt.

Vi har med andre ord to alternativ:

{{{
a. (Sjur)
Dette er feIl§feil og dette er ei fIllesak§fillesak l (ei fil)

b. (Lene)
Dette er feIl og dette er ei fIllesak (fil i.)
Dette er feil og dette er ei fillesak (fil ii.)

diff-skript som produserer ny fil:
leif§feil
fIllesak§fillesak
}}}


!!!Konklusjonar

Filene i systemet vårt:

* Vi må rydde opp i dei ocr-filene som no ligg i systemet
* Konvensjonar for filnamn som spesifisert ovafor
* Metode (b) for manuell retting
* Automatisk retting: OCR-mønster-retting som rettar til former som stavekontrollen kjenner att.
* Filer å rette: Dei som er interessante nok (!)
* Filer som ikkje er retta: blir ikkje konvertert

Framtidig ocr:

* Vel metode (Tesseract?)
* Vel språk (nordsamisk?)
* Bygg språkmodellar (tekst? fst?)
* ocr-les på nytt dei tekstane vi har korrigert manuelt for å utvikle parametersettinga


!!!Arbeid framover

... blir tema for neste møte, over jul.