!!!FAD- og korpusmøte 20.11.2012
Til stades: Ciprian, Trond, Marja
!!! Saker:
* Status
* Oslo-Bergen-tagger
* nobsme
* Neste møte
!! Status
Ciprian har samanlikna sentence alignment.
toktmx frå forrige køyring med denne
Nokre gonger er setningsparallelliseringa dårleg
! Vi har framleis problem med punktum
Sitat Cips brev av 14.11.
----
Hei,
jeg har sett litt på mulige forskjellen mellom de siste toktmx og de før:
For nob er alt ok, men det ser sånn ut at buggen som vi hadde
før med nob har vi nå med preprossesering av sme.
toktmx>ddf nob2sme pre_run/nob2sme
I give up!
Ciprian
Example 01:
{{{
diff -E -B -b -w -r
nob2sme/admin/depts/other_files/Forskrift_rammeplan_samiske_grunnskolelaererutdanninger_norskversjon.pdf.toktmx (nå)
pre_run/nob2sme/admin/depts/other_files/Forskrift_rammeplan_samiske_grunnskolelaererutdanninger_norskversjon.pdf.toktmx (før)
210c210,218
< § 3 SIERRANAHTTI VUOĐĐOSKUVLAOAHPAHEADDJEOAHPU STRUKTUVRA ( 1 ) Spesialiserema ja fágalaš ovttasteami gáibádusat Vuođđoskuvlaoahpaheaddjeoahput leat spesialiserejuvvon skuvlla ahkeluohkáide , ja gealbudahttet oahpahit jogo 1. –7. dásis dahje 5. – 10.dásis .
---
§ 3 SIERRANAHTTI VUOĐĐOSKUVLAOAHPAHEADDJEOAHPU STRUKTUVRA ( 1 ) Spesialiserema ja fágalaš ovttasteami gáibádusat Vuođđoskuvlaoahpaheaddjeoahput leat spesialiserejuvvon skuvlla ahkeluohkáide , ja gealbudahttet oahpahit jogo 1. –7. dásis dahje 5. – 10 .
dásis .
}}}
Example 02:
{{{
diff -E -B -b -w -r
nob2sme/admin/depts/other_files/HP_2009_samisk_sprak_norsk.pdf.toktmx (nå)
pre_run/nob2sme/admin/depts/other_files/HP_2009_samisk_sprak_norsk.pdf.toktmx (før)
18c18
< E JØM . RKE IL
---
E JØM RKE IL
55c55
<
---
Handlingsplan for samiske språk
63c63
< Handlingsplan for samiske språk
---
Handlingsplan
}}}
----
Poenget her er at den nye preprosesseringa legg til punktum som ikkje var
der i starten, som i strengen {{JØM . RKE}}, her hadde input ikkje
punktum. Dette er ein bug vi har hatt, __og retta__, som no kjem opp
på nytt.
Vi må dokumentere testing av toktmx-fila.
Enkel testing for toktmx:
* enten å ta vare på tca2 pekene og/eller enkle statistikken av
tu-elementer med tome seg-elementer for nob og sme
!! Oslo-Bergen-tagger
Cip har analysert bokmåplswikipedia med OBT-stat.
Først analyse med 300 ord, det gjekk fint.
{{{
new_analysis_wiki>wc -l input_00_wiki/*
300 input_00_wiki/p-a_01_test.txt
300 input_00_wiki/p-a_02_test.txt
300 input_00_wiki/p-a_03_test.txt
300 input_00_wiki/p-a_04_test.txt
}}}
Så analyse med heile wikipedia (60 mill ord, 7,3 mill linjer), det gjekk ikkje.
Analysatoren stansar for den første fila. Prosessen med ruby køyrer ikkje.
{{{
new_analysis_wiki>ls -latru wiki.*nowiki*
-rw-r--r--+ 1 ciprian staff 0 20 nov 10:35 wiki.tag.noisy.nob.nowiki_aa
-rw-r--r--+ 1 ciprian staff 40369111 20 nov 10:35 wiki.raw.clean.nob.nowiki_aa
}}}
Filer med xyz (Ciprians verkty, 1,8 mill linjer per fil, det gjekk ikkje.
{{{
new_analysis_wiki>wc -l 000_bu_wiki_input/*
1839533 000_bu_wiki_input/p-a_01.txt
1839581 000_bu_wiki_input/p-a_02.txt
1839616 000_bu_wiki_input/p-a_03.txt
1839500 000_bu_wiki_input/p-a_04.txt
7358230 total
}}}
Filer med WikiExtractor.py, ca. 0,2 mill linjer per fil, det gjekk ikkje.
{{{
new_analysis_wiki>wc -l ../../../../nob/corp/*.txt
189183 ../../../../nob/corp/nowiki_aa.txt
225291 ../../../../nob/corp/nowiki_ab.txt
...
}}}
{{{
main/st/nob/obt
echo "jeg gjør det" | $GTHOME/st/nob/bin/mtag-osx64 -wxml | vislcg3 -g $GTHOME/st/nob/src/nob_morf-prestat.cg3 --no-pass-origin -e $GTHOME/st/nob/OBT-Stat/bin/run_obt_stat.rb
perl -ne 'print if /\S/'
}}}
{{{
$GTHOME/st/nob/obt/bin/mtag-osx64 -wxml < $INTERIM_1 vislcg3 -C latin1 --codepage-input \ utf-8 -g $CGF --codepage-output utf-8 --no-pass-origin -e | $GTHOME/st/nob/obt/OBT-Stat/run_obt_stat.rb | perl -ne 'print if /\S/' > $INTERIM_2
}}}
{{{
#!/bin/sh
if [ $# -ne 1 ]
then
echo "Usage: `basename $0` TEXTFILE"
exit $E_BADARGS
fi
bin/mtag -wxml < $1 | vislcg3 -C latin1 --codepage-input \
utf-8 -g cg/bm_morf-prestat.cg --codepage-output utf-8 --no-pass-origin -e | \
OBT-Stat/bin/run_obt_stat.rb | perl -ne 'print if /\S/'
}}}
{{{
echo "Jeg gjør det." | bin/mtag -wxml | \
vislcg3 -C latin1 --codepage-input utf-8 -g cg/bm_morf-prestat.cg --codepage-output utf-8 --no-pass-origin -e | \
OBT-Stat/bin/run_obt_stat.rb | \
perl -ne 'print if /\S/'
}}}
no.crp.txt is the Wikipedia for Bokmål, then I tagged and stripped it,
then I made a frequency list, then I ran it through the
relative-frequency script.
__TILTAK__
* Cip ser på debugging av pipeline
* Trond, Marja og BM ser på siste apertium: fad_nobsme_candidates_ap-pl.20121028
* Trond snakkar med Fran om format/pipeline ([url|http://wiki.apertium.org/wiki/Extracting_bilingual_dictionaries_with_Giza%2B%2B])
!! nobsme
Cip har fletta alt til src/.
Det finst dublettar mellom src og new_entries2add
If you put together n/v_nobsme from source with that from new_entries2add you get
{{{
work_in_prog>grep 'grep '
profesjonell
profesjonealla
ámmátlaš
stri
čáris
garra
rávdnjái
stráŋga
lignende
seammasullasaš
sullásaš
tverrfaglig
fágaidgaskasaš
fágaidrasttideaddji
doaresfágalaš
bevisst
diđolaš
dihtomielalaš
}}}
Til meg der disse en "minimalpar" med bare en Fugevokal som forskjell. Hvis dem har samme
betydning jeg tror at man kan legge en lsub for å ha bare en entry (se smenob).
økshammer
øksehammer
To typar dublettar:
# Dei som er i src, dei er merka med "2".
## Leksikografar: vent med n, v
## Leksikografar: For andre ordklassar:
Rydd opp: Stryk, rearranger, osb.
Ignorer flagget "vd".
# Dei som er i new_entries2add, og har dublettar i src (319/717 n, 17/59 v)
## Ciprian unifiserer
## Deretter arbeider leksikografane
!! Neste møte
Seint i neste veke.