!!!Korpus-møte Til stades: Børre, Ciprian, Sjur, Trond * Status quo for innsamla data * Konverteringa * Språktagging * Parallellføring * Testing * Korpusstrategi * Status quo for uinnsamla data * Arbeidsprioritering framover * Clarino, META-NET? * Neste møte !!! Status quo for innsamla data !!! Konverteringa !!dtd berre online xml som blir konvertert gjennom konvertering blir validert mot divvun-servaren. Det vi vil: # Kunne konvertere også offline. # Kunne oppdatere dtd-ane utan manuell kopiering på divvun.no Løysing: Referere til dtd lokalt gjennom heile konverteringa, men byt ut til dtd-ref på nettet i det ferdigkonverterte dokumentet. __TILTAK__ * køyre dtd-ane inn i svn i kvar katalog og referere til dei lokalt * oppdatera nett-dtd-en automatisk når svn blir oppdatert !! Konverteringsfeil Dvs convert2xml: * span og skrivefeil i same avsnitt - span blir konvertert, ikkje feilmerkinga. * ocr-feil (rapportert [her|/ling/corpus_errors_sma_analysis.txt], jf. #1024) * feil rapportert i bugzilla (11 bugar) ** 1141 sma orig/ficti/anna_... are converted with Žž for the scandinavian chars ** 984 Verse stanzas flawed in sma Bible ** 1139 Spaces in wrong places, multiword output in nested markup with ccat -S ** 1005 Still 3554 doublet sentences in sma corpus ** 1024 ocr-feil og språkmerkingsfeil i sma ** 1028 18 Couldn't convert - files ** 1029 11 files in freecorp with "not able to make valid xml out of" ** 1061 Language identification ignores xml:lang value ** 1048 Language detection assigns non-available languages to converted files ** 1074 Possible infinite template recursion because of input data ** 1073 stable/converted: Footnote in HTML-documents !!! Parallellføring: # finst det eit parallelt dokument? # inneheld det parallelle dokumentet tekst? # inneheld dei parallelle dokumenta tekst på rett språk? !! pdf-dokument i stable {{{ ~/freecorpus/stable/converted/sme/admin/depts$ll other_files/*xml|wc -l 62 ~/freecorpus/stable/converted/sme/admin/depts$ll regjeringen.no/*xml|wc -l 1003 }}} * convert2xml missar 12 av 12 000 dokument * dei som står i nob og sma admin dept er no i stable !!!Testing dersom konverteringa er ok, sjekk innhaldet: Språktagging: * hovudspråk - (likt dir-språk?) * andre språk - kva slags (berre rapport) * andre språk - meir enn 2? Innhaldssjekking: * kor mange ord er det i dokumentet? Er det tomt? (XSL eller ccat) * for kvart anna språk, kor mange ord er det jf med hovudspråket? (ccat -l XXX -S | wc -l) * for kvart språk vi kan analysera: kor mange ukjende ord er det? > 5% = ERR !!! Språktagging !!cat_text ccat -l smj -r stable/../sme/../regjeringen.no/ inneheld 15% nordsamisk Denne innehelt 15% sme. Vi må forbetre cat_text __TILTAK__ * Forbetre cat_text !!! Testing av stable !! testing av sme/../regjeringen.no Teknisk har konverteringa av html-filene gått bra. Det er ingen vesentlege feil med konvertering og språkattkjenning. Den typen feil som står att treng vi metodar for å finne. Oppdatering: det er framleis problem med tekstgjenkjenninga (OCR? nei, vanleg tekst), men det krev fyrst og fremst oppdaterte metadata, jf Bugzilla #1146. * strukturfeil (overskrifter, tabellar som går inn i brødteksten) * parallellitet (er heile sme på sme, er heile nob på nob?) !! testing av sme/../other_files !!! Korpusstrategi !! "stable" Kva er stable? # Sjur: Kvalitetssikra (automatisk, manuell) og sjekka for minst eitt bruksområde B. Metadata: stable modulo B. ## Men: kva er B? ±parallell, ±original == .xsl !!! # Trond: Vi treng både unstable og stable. Bruksområde: * parallellføring * syntaktisk analyse * termekstrahering Framtid: {{{ stable/ converted/ tagged/ goldstandard/ }}} !!Språkblanda dokument Dokument som inneheld same tekst fleire gonger, på ulike språk # multikatalog # duplisere og triplisere dokumenta # ha dokumentet i språkkatalogen til språket som står først Konsensus for 1.? Ja. !!! Status quo for uinnsamla data * jus! nac1993 = NOU (den står i admin/dept/nou og i * lovtekstar i * opplæringslova står på sme, ikkje på nno !!!arbeidsprioritering framover, deadlines # ccat-feil for testbenkprosjektet # Innhald ## parallell sme-nob (FAD, Autsh, online) ## monolingual sma (grammatikkutvikling) Deadlines !!! Neste møte