!!!Møte om OCR-prosessen 15.12.16. Til stades: Lene, Thomas, Børre, Sjur, Trond !!!Saksliste * Oversyn over ocr-situasjonen * Konklusjonar * Arbeid framover !!!Oversyn over ocr-situasjonen Ulike typar ocr-lese filar: # Sametinget sine referat som .tiff # Thomas og Maja har scanna Sametinget sine referat som .tiff Dette blir ocr-lese, og ocr-programmet lagrar både tekst og bilete jf. 2302. Thomas og Maja har scanna. Første OCR-versjon dukka opp, bug [2299|http://giellatekno.uit.no/bugzilla/show_bug.cgi?id=2299] Vi skisserer typane slik vi vil ha det. {{filnamn_b}} er ikkje-ocr-filer. {{filnamn_a.ocr}} er ei fil som er ocr-lese, og {{filnamn_a.ocr.correct}} er same fil, men manuelt korrigert. {{{ orig/ filnamn_b.doc <== denne skal til konverterast til converted (vanlege filer) filnamn_b.doc.xsl filnamn_a.ocr.doc <== skal ikkje konverterast til boundcorpus/converted (x) filnamn_a.ocr.doc.xsl <== har 'ocr' i metadata ==> blir ikkje konvertert filnamn_a.ocr.correct.txt <== denne skal konverterast til goldstandard/converted (xx) filnamn_a.ocr.correct.txt.xsl }}} Dette er t.d. Anna Jacobsen sine tekstar, men også t.d. orig/sme/ficti/lindgren-sme-010-019corr.txt Her er eit oversyn over Anna Jacobsen: {{{ giellatekno:boundcorpus boerre$ find orig -name 'annajakobsen_don_jih_daan_bijre*.xsl' orig/sma/ficti/annajakobsen_don_jih_daan_bijre_1_kap_1-45.orig.rtf.xsl <== i buggen (x) orig/sma/ficti/annajakobsen_don_jih_daan_bijre_2_kap_1-45.orig.doc.xsl <== i buggen orig/sma/ficti/annajakobsen_don_jih_daan_bijre_3_kap_1-38.orig.doc.xsl <== i buggen orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_1.binorig.rtf.xsl (også (x)) orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_1.doc.xsl orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_1.ocrorig.correct.txt.xsl (xx) orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_1_kap_46-50.correct.txt.xsl orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_2.binorig.rtf.xsl orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_2.doc.xsl orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_2.ocrorig.correct.txt.xsl orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_2.ocrorig.rtf.xsl orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_2_kap_46-50.correct.txt.xsl orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_3.binorig.doc.xsl orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_3.ocrorig.correct.txt.xsl orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_3.ocrorig.rtf.xsl orig/sma/ficti/other_files/annajakobsen_don_jih_daan_bijre_3_kap_39-45.correct.txt.xsl }}} Det er ein del rot i filene i dag, det må bli rydda opp. Tema her er ikkje denne oppryddinga, men kva vi vil ha, korleis vi vil utføre rettingar og konverteringar. Våre filer -- Anna Jacobsen -- har vorte retta med ocrleif§feil, t.d. slik: goImeIuhkieuktsie§(golmeluhkieuktsie), Snåasesne golmeIuhkiegovhte§(golmeluhkiegovhte), Raanesne Sametingsprotokollane har vorte retta med søk/erstatt. Vi har med andre ord to alternativ: {{{ a. (Sjur) Dette er feIl§feil og dette er ei fIllesak§fillesak l (ei fil) b. (Lene) Dette er feIl og dette er ei fIllesak (fil i.) Dette er feil og dette er ei fillesak (fil ii.) diff-skript som produserer ny fil: leif§feil fIllesak§fillesak }}} !!!Konklusjonar Filene i systemet vårt: * Vi må rydde opp i dei ocr-filene som no ligg i systemet * Konvensjonar for filnamn som spesifisert ovafor * Metode (b) for manuell retting * Automatisk retting: OCR-mønster-retting som rettar til former som stavekontrollen kjenner att. * Filer å rette: Dei som er interessante nok (!) * Filer som ikkje er retta: blir ikkje konvertert Framtidig ocr: * Vel metode (Tesseract?) * Vel språk (nordsamisk?) * Bygg språkmodellar (tekst? fst?) * ocr-les på nytt dei tekstane vi har korrigert manuelt for å utvikle parametersettinga !!!Arbeid framover ... blir tema for neste møte, over jul.