FAD-Møte 6.11.2012 Til stades: Ciprian, Marja, Trond, Berit Merete, Sjur, Børre !!! Saker: * Status quo * Oslo-Bergen-tagger * Wikipedia * Ukjente ord * Parallellkorpus og prosessering * Akilles og skilpadda * Neste møte !!! Status quo !! Parallellfiler og analyse * Analyse: second_run/00_readme.txt. ** Talet på filpar som er forkasta pga. ubalanse har gått ned frå 418 til 241. * Ordparallellisering: second_run/work_in_progress/00_readme.txt, ukjente: * sme N=1987867 ** sme tokens: 39 212 (2012.10.28), 38 481 (2012.11.02) ** sme types: 20 701 (2012.10.28), 20 535 (2012.11.02) * nob: N=2348630 ** nob tokens: 11 060 (2012.10.28), 10 952 (2012.11.02) ** nob types: 3 426 (2012.10.28), 3 431 (2012.11.02) !! Godkjenning av filpar Márjá, Berit Merete og Børre har sett på dette. Jf. punkt lenger ned. !!! Oslo-Bergen-tagger Testfiler generert som vist på [Wikipedia-sida|/ling/WikipediaAsCorpus.html] * cat $GTBIG/st/nob/corp/nowiki_aa.txt | obt/bin/mtag-osx64 |vislcg3 -g obt/src/nob_morf-prestat.cg3 > aa * cat aa | sum-cg.pl --words > aa-words * cat aa | sum-cg.pl --grammar > aa-grammar {{sum-cg.pl}} gjev talet på homonymi etter disambiguering. {{{ aa-words: 19865 "" prep adj fork "av" prep "AV" adj fork 9435 "" konj konj clb "og" konj clb "og" konj 7862 "" prep subst appell mask ub ent "i" subst appell mask ub ent "i" prep 3763 "" det mask ent kvant pron ent pers hum "en" pron ent pers hum "en" det mask ent kvant 2964 "" det dem fl pron fl pers 3 nom "de" pron fl pers 3 nom "de" det dem fl aa-grammar: 16931: subst appell nøyt ub ent subst appell nøyt ub fl 10400: konj clb konj 7751: subst appell mask ub ent prep 5257: adj ub m/f ent pos adj nøyt ub ent pos 3929: pron fl pers 3 nom det dem fl }}} __TILTAK__ * Trond følgjer opp obt. !!! Wikipedia * Ciprian har brukt __WP2TXT__ * Trond har brukt __WikiExtractor.py__ Skilnaden dei i mellom er xml-syntaks vs. wikisyntaks: {{{ xml: blabla wiki: ==blabla== }}} __TILTAK__ * Trond og Ciprian diskuterer Wikipedia-formatet :-) !!! Ukjente ord !!NOB {{{ Ciprian: cat ukjent_nob_20121028.txt |wc -l 3426 Av disse 3426 kan Trond analysera 265 med OBT: cat $GTBIG/gt/sme/corp/forvaltningsordbok/second_run/work_in_progress/ukjent_nob_20121028.txt \ | cut -c6- | cut -d"<" -f1 | $GTHOME/st/nob/obt/bin/mtag-osx64 |grep '^ '\ | grep -v ukjent | wc -l 265 }}} Det betyr framleis at det er over 3100 ukjende NOB-ord i korpuset (ukjende for OBT). OBT-taggaren er lukka, så kva gjer vi? Eitt alternativ er: {{{ mtag-osx64 < text | vår-tilleggs-fst | vislcg3 -g nob_morf-prestat.cg3 }}} Her er topp-ti for ord ingen kjenner att: {{{ "kap" ukjent "11-Rev" ukjent "lule" ukjent "allaskuvla" ukjent "siidaen" ukjent "of" ukjent "dei" ukjent "forr." ukjent "barne" ukjent }}} __TILTAK__ * __Trond__ og __Ciprian__ synkroniserer og analyserer data ang nob ukjente ord * __Trond__ ser på outputten av OBT analysen dvs. i kontekst (mål: få Oslo til å forbetre) !!SME ! Missing Top missing (N=1987867 og deromkring) {{{ 841 og 546 for 395 av 356 til 159 Sak 147 om 136 samiske 136 of 134 med 110 er 103 samisk (...) 66 Arkiivaáššenr 64 buš- 61 Arkiiváššenr 54 Ođđasisj 52 Luondduhálddašan 47 Liigejuollud 26 ­dikki 25 álgoál }}} Svar: Fortsette med leksikalisering (__BM, Marja__). !!! Parallellkorpus og prosessering Missing list er dominert av norsk. Problemet er at ikkje alle kapitla er omsett til samisk. Mål: ordne dette slik at også desse filene kan bli med. Inn i xsl: kva sider skal med og kva skal ikkje med. Med pdf-filer er dette lett: vi kan legge til page range: Vi vil ha side 20-24, osb. Tekstboksar er også lagt inn ulike stader i parallelldokument. Tidlegare i veka laga Børre ein mekanisme for å få dette til å fungere, (flytte rundt på boksar?) og det fungerte. Problemet her er original-integritet. Pagerange fungerer for pdf, men dessverre ikkje for andre format. Vi har altså to alternativ: # Slette asymmetriske filer (eller asymmetrisk innhald) # Symmetrisere asymmetriske sider Sjur: Vi bør ta utgangspunkt i __tekst__, ikkje i __side__. BM: Vi kan kombinere desse to innfallsvinklane: Der side er relevant bruker vi det, og i andre samanhengar brukar vi andre virkemiddel. Børre: Det finst også dokument som har annakvar side og annakvar spalte på sme, nob. Desse ligg i dag i mixed. Programma pdf2text etc. har val der du kan dra ut side eller tekststraum. I dag dreg vi ut tekststraum. Det er også mogleg å dra ut side for side. Prosessere data ulikt alt ettersom hvordan dokumentet er strukturert. Dette gjeld spesielt pdf-dokument: språkblanda på annakvar side, annakvar spalte, eller ulike seksjonar. Informasjon om skip og later inn i metadata __TILTAK__ * __Børre__ og __Sjur__ implementerer skip og later i metadata og dokumenterer hvordan dette skal gjøres * __Márjá__ og __BM__ legger inn info om dette når slike dokument blir oppdaget Berit Merete sitt brev 5.11. 23:32 : ---- Forslag til forbedring av parallellkorpuset Jeg og Marja har sett på Ciprian sin forenkling av filtesting i html for wrong ratio filer (veldig bra!) og på bakgrunn av det kan vi si at det er en del store filpar som ikke blir godkjent av pick-parallell-files-scriptet. For øyeblikket er det helt rett å ikke godkjenne flere av disse filene som parallelle filer siden disse filparene er ubalanserte, dvs at kun deler av den norske teksten er oversatt til samisk. Det gjelder blant annet disse filparene: {{{ 1. freecorpus/orig/sme/admin/depts/other_files/Klimamelding_St_meld_39_samisk.pdf freecorpus/orig/nob/admin/depts/other_files/STM200820090039000DDDPDFS.pdf --- Nob-fila har 177 sider, mens sme-fila har 23 sider. Dette fordi kun kapittel 1 er oversatt til samisk 2. freecorpus/orig/sme/admin/depts/other_files/NAC_2001_35.pdf freecorpus/orig/nob/admin/depts/other_files/NOU200120010035000DDDPDFA.pdf -- nob har 325 sider, sme har 74 sider. Kun kapittel 1 og 11 er oversatt til samisk. }}} En annen utfordring for antallet filer i det setningparalleliserte korpuset er samiske filer som inneholder noen sider på norsk, for eksempel denne filen: {{{ 3. freecorpus/orig/sme/admin/ffk/sp2011-2014-1.pdf -- dokumentet inneholder 15 sider, hvorav de to siste sidene er på norsk (sameloven). Denne filen blir ikke konvertert til xml pga av error-meldingen "too_low_mainlang". }}} Så har vi filer med løpende tekst som blir brutt av tekstvinduer med informasjon. Problemet er at disse tekstvinduene bryter den løpende teksten på forskjellige steder i den norske og den samiske filen. Et eksempel på dette filparet: {{{ 4. freecorpus/orig/sme/admin/depts/other_files/HP_2009_samisk_sprak_nordsam.pdf freecorpus/orig/nob/admin/depts/other_files/HP_2009_samisk_sprak_norsk.pdf -- paralleliseringen av filene går for så vidt greit, med noen feilparalleliseringer }}} Jeg har diskutert disse filene med Børre og han har kommet med noen forslag til løsninger. Når det gjelder pdf-filer, går det an å legge inn informasjon i xsl-filen om page rage, dvs hvilke sider i originalfilen som skal paralleliseres. Dette ville ha løst 1., 2. og 3. problem . Når der gjelder filer som nevnt i nr 4, har Børre jobbet med å implementere noen nye tagger som kan brukes til å løse utfordringer med tekstvinduer i løpende tekst. De nye taggene heter og og de passer for alle typer filer (pdf, html etc). Disse taggene kan i følge Børre legges inn i xsl-filen. Dette ville ha løst utfordringene med denne type filer på orig- og xsl-nivå. Vi kan jo diskutere dette videre på møtet i morgen. God natt! Hilsen Berit ---- !!! Akilles og skilpadda Tema for neste møte. !!! Neste møte Fysisk i Tromsø. Ikkje måndag før lunsj, ikkje tysdag, onsdag og torsdag morgon, ikkje fredag. Moglege tidspunkt: Tysdag og torsdag f.o.m. ca. 10. Tentativ tid: __Tysdag 13.11. 10.30__