FAD-Møte 31.10.2012

Til stades: Ciprian, Marja, Trond, Berit Merete

Dette var eit internt gt-møte for å klargjere status quo på korridoren.

!!! Saker:

* Status quo
* Forslag til bedring av pick-parallel:
* Oslo-Bergen-tagger
* Ukjente ord


!!! Status quo

!!! Forslag til bedring av pick-parallel:

* overføringsratio 73-110, skal dette økes? Nei, men den bør forbedres, se nedenfor 
* legge inn i metafilen: info om antall ord (word count) også i wrong ratio 
  filene : lettere å skaffe oversikt over hvilke dokument som er store nok til at 
  de bør sjekkes manuelt

Dette er gjort:

{{{
New Revision: 64705

Modified:
   trunk/gt/script/langTools/Converter.pm
Log:
Insert wordcount
}}}

!!! Oslo-Bergen-tagger

- må forbedredes: bindestrekene har Ciprian tatt bort, må meldes til Oslo-Bergen

__Tiltak__

* Sjekke skilnaden mellom nob_morf-prestat.cg3 og  nob_morf.cg3 (__Cip__)
* Køyre sum-cg.pl på output, evt. samanlikne med onlineversjon (__Trond__)
* Melde frå til Oslo + diskutere (__Trond__)

Vi har brukt {{nob_morf-prestat.cg3}}. Bør vi bruke {{nob_morf.cg3}}?

{{{
cat data.nob | tr '\n' '£' | sed 's/£/ £ ™/g' | tr '™' '\n' | \
    ~/main/st/nob/obt/bin/mtag-osx64 | \
    vislcg3 -g ~/main/st/nob/obt/src/nob_morf-prestat.cg3 > data.tagged.shitty.nob

cat data.nob | tr '\n' '£' | sed 's/£/ £ ™/g' | tr '™' '\n' | \
    ~/main/st/nob/obt/bin/mtag-osx64 | \
    vislcg3 -g ~/main/st/nob/obt/src/nob_morf.cg3 > data.tagged.shitty.nob    
}}}

Hva skal gjøres med store filer med minimale feil i setningsparallelliseringen? 
feks HP_2009_samisk_sprak_norsk.pdf og HP_2009_samisk_sprak_nordsam.pdf 

I disse store pdf-dokumentene (over 60 sider) er det løpende tekst som blir 
brutt av flere små info-vinduer med tekst. Problemet er at de ikke kommer på 
samme plass i samisk og norsk dokument, selv om det er samme tekst. Dette 
medfører at setningsparallelliseringen blir feil. Dette kan rettes manuelt i 
prestable før filene flyttes til stable. Dette kan ikke rettes automatisk.

Dette kan rette på følgende måter:

* gullkorpus med gullstandard (ekte gull), filen må merkes at 
  er sjekket manuelt
* forskjellige typer gullkorpus i forskjellig format i 
  forskjellige stadier i løpet av pipeline, feks gullkorpus i orig, 
  gullkorpus rett etter konvertering, gullkorpus etter setningsalignment, 
* informasjon om forandringene må dokumenteres

Det vi kan lage her er skygge-originalar: Delar av dokumentet som i dag er
i ulik rekkjefølgje vil vi manuelt omarrangere, og lagre som nye originalar.


Alle aktuelt++ og aigeguovdil++ fra regjeringen.no er ikke parallelle 
fordi dette er oversikt over pressemeldinger og ikke alle pressemeldinger 
blir oversatt til samisk


!!! Ukjente ord

__Spørsmål__: Er det ingen spelrelax for allcapitalized strings?

{{{
original input string: BEARRÁIGEAHČČANLÁVDEGOTTI       BEARRÁIGEAHČČANLÁVDEGOTTI       +?

echo "bearráigeahččanlávdegotti" | lookup -q -flags mbTT $GTHOME/gt/sme/bin/sme.fst
bearráigeahččanlávdegotti	bearráigeahččanlávdegoddi+Org+N+Sg+Gen
bearráigeahččanlávdegotti	bearráigeahččanlávdegoddi+Org+N+Sg+Acc
}}}

__Svar__: Jo det finst, men:

Svaret på det ligg i allcaps.regex. Dette scriptet er ikkje i bruk, fordi
resultatet er ein __svært__ langsom automat (jf. B&K for dokumentasjon).

Mange symboler i unknown lista skal filteres bort, det samme skal 
gjøres med Wikipedia info

Word count skal bare være nummer og ord, ikke slash og slike ting.

{{{
~ $ usme
0%>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>100%
márjá
márjá	márjá	+?

oslo
oslo	oslo	+?

Márjá
Márjá	Márjá+N+Prop+Fem+Sg+Attr
Márjá	Márjá+N+Prop+Fem+Sg+Nom

Oslo
Oslo	Oslo+N+Prop+Plc+Sg+Nom
Oslo	Oslo+N+Prop+Plc+Sg+Gen
Oslo	Oslo+N+Prop+Plc+Sg+Acc

deatnu
deatnu	deatnu+Plc+N+Sg+Nom
deatnu	deatnut+V+TV+Ind+Prs+Sg3

Deatnu
Deatnu	Deatnu+N+Prop+Plc+Sg+Nom
Deatnu	deatnu+Plc+N+Sg+Nom
Deatnu	deatnut+V+TV+Ind+Prs+Sg3

Mánná
Mánná	mánná+Hum+N+Sg+Nom
Mánná	mannat+V+TV+Ind+Prs+Sg3
}}}

Kandidat til kommando for å finne ekte ukjente samiske ord:
{{{
cat unknown_sme_20121028.txt |sed 's/^ *//g;'|cut -d"bt/bin/mtag-osx64 |grep '" ukjent'|cut -d"\"" -f2|ueng|grep -v '[.+@]'|grep -v '^$' > tull
}}}

__TODO__

Ciprian:
* Sjekke ny wordcount pipeline
* Konvertere alt på nytt
* Implementere html-format når wrong ratio skal sjekkes
* Ny unknown-liste
* Analysere med engelsk analysator - fjerne engelske ord fra unknown liste
* analysere hele nob-wikipedia på nytt med OBT og uten punktuasjon

BM & Marja:
* Sjekke ratio etter implementering av word counter
* sjekke unknown word i sme, legge til i kildefiler
* sjekke siste word alignment fra ap-pipeline - for å bli vant med formatet
* Teste ut forskjellige typer forbedringer av input data til 
  setningsparallelliseringen, feks er det mulig å legge inn info i 
  xsl-fil om hvilke sider skal fjernes automatisk fra originalfila, er det mulig å redigere xml-fil manuelt slik at filene blir identiske. 


cat unknown_sme_without_nob_20121028.txt |~/main/st/nob/obt/bin/mtag-osx64 |grep '" ukjent'|cut -d"\"" -f2|ueng|grep '+?' |cut -f1 | rev | sort | rev > ukj
cat ukj|grep -v '[0-9-]'|usme|grep '?'|cut -f1|rev|sort|rev|see


!!! Neste møte

Tysdag 6.11. kl. 10.00, også med Sjur og Børre (sjekke om tidspunkt passar)