FAD-Møte 31.10.2012 Til stades: Ciprian, Marja, Trond, Berit Merete Dette var eit internt gt-møte for å klargjere status quo på korridoren. !!! Saker: * Status quo * Forslag til bedring av pick-parallel: * Oslo-Bergen-tagger * Ukjente ord !!! Status quo !!! Forslag til bedring av pick-parallel: * overføringsratio 73-110, skal dette økes? Nei, men den bør forbedres, se nedenfor * legge inn i metafilen: info om antall ord (word count) også i wrong ratio filene : lettere å skaffe oversikt over hvilke dokument som er store nok til at de bør sjekkes manuelt Dette er gjort: {{{ New Revision: 64705 Modified: trunk/gt/script/langTools/Converter.pm Log: Insert wordcount }}} !!! Oslo-Bergen-tagger - må forbedredes: bindestrekene har Ciprian tatt bort, må meldes til Oslo-Bergen __Tiltak__ * Sjekke skilnaden mellom nob_morf-prestat.cg3 og nob_morf.cg3 (__Cip__) * Køyre sum-cg.pl på output, evt. samanlikne med onlineversjon (__Trond__) * Melde frå til Oslo + diskutere (__Trond__) Vi har brukt {{nob_morf-prestat.cg3}}. Bør vi bruke {{nob_morf.cg3}}? {{{ cat data.nob | tr '\n' '£' | sed 's/£/ £ ™/g' | tr '™' '\n' | \ ~/main/st/nob/obt/bin/mtag-osx64 | \ vislcg3 -g ~/main/st/nob/obt/src/nob_morf-prestat.cg3 > data.tagged.shitty.nob cat data.nob | tr '\n' '£' | sed 's/£/ £ ™/g' | tr '™' '\n' | \ ~/main/st/nob/obt/bin/mtag-osx64 | \ vislcg3 -g ~/main/st/nob/obt/src/nob_morf.cg3 > data.tagged.shitty.nob }}} Hva skal gjøres med store filer med minimale feil i setningsparallelliseringen? feks HP_2009_samisk_sprak_norsk.pdf og HP_2009_samisk_sprak_nordsam.pdf I disse store pdf-dokumentene (over 60 sider) er det løpende tekst som blir brutt av flere små info-vinduer med tekst. Problemet er at de ikke kommer på samme plass i samisk og norsk dokument, selv om det er samme tekst. Dette medfører at setningsparallelliseringen blir feil. Dette kan rettes manuelt i prestable før filene flyttes til stable. Dette kan ikke rettes automatisk. Dette kan rette på følgende måter: * gullkorpus med gullstandard (ekte gull), filen må merkes at er sjekket manuelt * forskjellige typer gullkorpus i forskjellig format i forskjellige stadier i løpet av pipeline, feks gullkorpus i orig, gullkorpus rett etter konvertering, gullkorpus etter setningsalignment, * informasjon om forandringene må dokumenteres Det vi kan lage her er skygge-originalar: Delar av dokumentet som i dag er i ulik rekkjefølgje vil vi manuelt omarrangere, og lagre som nye originalar. Alle aktuelt++ og aigeguovdil++ fra regjeringen.no er ikke parallelle fordi dette er oversikt over pressemeldinger og ikke alle pressemeldinger blir oversatt til samisk !!! Ukjente ord __Spørsmål__: Er det ingen spelrelax for allcapitalized strings? {{{ original input string: BEARRÁIGEAHČČANLÁVDEGOTTI BEARRÁIGEAHČČANLÁVDEGOTTI +? echo "bearráigeahččanlávdegotti" | lookup -q -flags mbTT $GTHOME/gt/sme/bin/sme.fst bearráigeahččanlávdegotti bearráigeahččanlávdegoddi+Org+N+Sg+Gen bearráigeahččanlávdegotti bearráigeahččanlávdegoddi+Org+N+Sg+Acc }}} __Svar__: Jo det finst, men: Svaret på det ligg i allcaps.regex. Dette scriptet er ikkje i bruk, fordi resultatet er ein __svært__ langsom automat (jf. B&K for dokumentasjon). Mange symboler i unknown lista skal filteres bort, det samme skal gjøres med Wikipedia info Word count skal bare være nummer og ord, ikke slash og slike ting. {{{ ~ $ usme 0%>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>100% márjá márjá márjá +? oslo oslo oslo +? Márjá Márjá Márjá+N+Prop+Fem+Sg+Attr Márjá Márjá+N+Prop+Fem+Sg+Nom Oslo Oslo Oslo+N+Prop+Plc+Sg+Nom Oslo Oslo+N+Prop+Plc+Sg+Gen Oslo Oslo+N+Prop+Plc+Sg+Acc deatnu deatnu deatnu+Plc+N+Sg+Nom deatnu deatnut+V+TV+Ind+Prs+Sg3 Deatnu Deatnu Deatnu+N+Prop+Plc+Sg+Nom Deatnu deatnu+Plc+N+Sg+Nom Deatnu deatnut+V+TV+Ind+Prs+Sg3 Mánná Mánná mánná+Hum+N+Sg+Nom Mánná mannat+V+TV+Ind+Prs+Sg3 }}} Kandidat til kommando for å finne ekte ukjente samiske ord: {{{ cat unknown_sme_20121028.txt |sed 's/^ *//g;'|cut -d"bt/bin/mtag-osx64 |grep '" ukjent'|cut -d"\"" -f2|ueng|grep -v '[.+@]'|grep -v '^$' > tull }}} __TODO__ Ciprian: * Sjekke ny wordcount pipeline * Konvertere alt på nytt * Implementere html-format når wrong ratio skal sjekkes * Ny unknown-liste * Analysere med engelsk analysator - fjerne engelske ord fra unknown liste * analysere hele nob-wikipedia på nytt med OBT og uten punktuasjon BM & Marja: * Sjekke ratio etter implementering av word counter * sjekke unknown word i sme, legge til i kildefiler * sjekke siste word alignment fra ap-pipeline - for å bli vant med formatet * Teste ut forskjellige typer forbedringer av input data til setningsparallelliseringen, feks er det mulig å legge inn info i xsl-fil om hvilke sider skal fjernes automatisk fra originalfila, er det mulig å redigere xml-fil manuelt slik at filene blir identiske. cat unknown_sme_without_nob_20121028.txt |~/main/st/nob/obt/bin/mtag-osx64 |grep '" ukjent'|cut -d"\"" -f2|ueng|grep '+?' |cut -f1 | rev | sort | rev > ukj cat ukj|grep -v '[0-9-]'|usme|grep '?'|cut -f1|rev|sort|rev|see !!! Neste møte Tysdag 6.11. kl. 10.00, også med Sjur og Børre (sjekke om tidspunkt passar)