!!!FAD- og korpusmøte 20.11.2012 Til stades: Ciprian, Trond, Marja !!! Saker: * Status * Oslo-Bergen-tagger * nobsme * Neste møte !! Status Ciprian har samanlikna sentence alignment. toktmx frå forrige køyring med denne Nokre gonger er setningsparallelliseringa dårleg ! Vi har framleis problem med punktum Sitat Cips brev av 14.11. ---- Hei, jeg har sett litt på mulige forskjellen mellom de siste toktmx og de før: For nob er alt ok, men det ser sånn ut at buggen som vi hadde før med nob har vi nå med preprossesering av sme. toktmx>ddf nob2sme pre_run/nob2sme I give up! Ciprian Example 01: {{{ diff -E -B -b -w -r nob2sme/admin/depts/other_files/Forskrift_rammeplan_samiske_grunnskolelaererutdanninger_norskversjon.pdf.toktmx (nå) pre_run/nob2sme/admin/depts/other_files/Forskrift_rammeplan_samiske_grunnskolelaererutdanninger_norskversjon.pdf.toktmx (før) 210c210,218 < § 3 SIERRANAHTTI VUOĐĐOSKUVLAOAHPAHEADDJEOAHPU STRUKTUVRA ( 1 ) Spesialiserema ja fágalaš ovttasteami gáibádusat Vuođđoskuvlaoahpaheaddjeoahput leat spesialiserejuvvon skuvlla ahkeluohkáide , ja gealbudahttet oahpahit jogo 1. –7. dásis dahje 5. – 10.dásis . --- § 3 SIERRANAHTTI VUOĐĐOSKUVLAOAHPAHEADDJEOAHPU STRUKTUVRA ( 1 ) Spesialiserema ja fágalaš ovttasteami gáibádusat Vuođđoskuvlaoahpaheaddjeoahput leat spesialiserejuvvon skuvlla ahkeluohkáide , ja gealbudahttet oahpahit jogo 1. –7. dásis dahje 5. – 10 . dásis . }}} Example 02: {{{ diff -E -B -b -w -r nob2sme/admin/depts/other_files/HP_2009_samisk_sprak_norsk.pdf.toktmx (nå) pre_run/nob2sme/admin/depts/other_files/HP_2009_samisk_sprak_norsk.pdf.toktmx (før) 18c18 < E JØM . RKE IL --- E JØM RKE IL 55c55 < --- Handlingsplan for samiske språk 63c63 < Handlingsplan for samiske språk --- Handlingsplan }}} ---- Poenget her er at den nye preprosesseringa legg til punktum som ikkje var der i starten, som i strengen {{JØM . RKE}}, her hadde input ikkje punktum. Dette er ein bug vi har hatt, __og retta__, som no kjem opp på nytt. Vi må dokumentere testing av toktmx-fila. Enkel testing for toktmx: * enten å ta vare på tca2 pekene og/eller enkle statistikken av tu-elementer med tome seg-elementer for nob og sme !! Oslo-Bergen-tagger Cip har analysert bokmåplswikipedia med OBT-stat. Først analyse med 300 ord, det gjekk fint. {{{ new_analysis_wiki>wc -l input_00_wiki/* 300 input_00_wiki/p-a_01_test.txt 300 input_00_wiki/p-a_02_test.txt 300 input_00_wiki/p-a_03_test.txt 300 input_00_wiki/p-a_04_test.txt }}} Så analyse med heile wikipedia (60 mill ord, 7,3 mill linjer), det gjekk ikkje. Analysatoren stansar for den første fila. Prosessen med ruby køyrer ikkje. {{{ new_analysis_wiki>ls -latru wiki.*nowiki* -rw-r--r--+ 1 ciprian staff 0 20 nov 10:35 wiki.tag.noisy.nob.nowiki_aa -rw-r--r--+ 1 ciprian staff 40369111 20 nov 10:35 wiki.raw.clean.nob.nowiki_aa }}} Filer med xyz (Ciprians verkty, 1,8 mill linjer per fil, det gjekk ikkje. {{{ new_analysis_wiki>wc -l 000_bu_wiki_input/* 1839533 000_bu_wiki_input/p-a_01.txt 1839581 000_bu_wiki_input/p-a_02.txt 1839616 000_bu_wiki_input/p-a_03.txt 1839500 000_bu_wiki_input/p-a_04.txt 7358230 total }}} Filer med WikiExtractor.py, ca. 0,2 mill linjer per fil, det gjekk ikkje. {{{ new_analysis_wiki>wc -l ../../../../nob/corp/*.txt 189183 ../../../../nob/corp/nowiki_aa.txt 225291 ../../../../nob/corp/nowiki_ab.txt ... }}} {{{ main/st/nob/obt echo "jeg gjør det" | $GTHOME/st/nob/bin/mtag-osx64 -wxml | vislcg3 -g $GTHOME/st/nob/src/nob_morf-prestat.cg3 --no-pass-origin -e $GTHOME/st/nob/OBT-Stat/bin/run_obt_stat.rb perl -ne 'print if /\S/' }}} {{{ $GTHOME/st/nob/obt/bin/mtag-osx64 -wxml < $INTERIM_1 vislcg3 -C latin1 --codepage-input \ utf-8 -g $CGF --codepage-output utf-8 --no-pass-origin -e | $GTHOME/st/nob/obt/OBT-Stat/run_obt_stat.rb | perl -ne 'print if /\S/' > $INTERIM_2 }}} {{{ #!/bin/sh if [ $# -ne 1 ] then echo "Usage: `basename $0` TEXTFILE" exit $E_BADARGS fi bin/mtag -wxml < $1 | vislcg3 -C latin1 --codepage-input \ utf-8 -g cg/bm_morf-prestat.cg --codepage-output utf-8 --no-pass-origin -e | \ OBT-Stat/bin/run_obt_stat.rb | perl -ne 'print if /\S/' }}} {{{ echo "Jeg gjør det." | bin/mtag -wxml | \ vislcg3 -C latin1 --codepage-input utf-8 -g cg/bm_morf-prestat.cg --codepage-output utf-8 --no-pass-origin -e | \ OBT-Stat/bin/run_obt_stat.rb | \ perl -ne 'print if /\S/' }}} no.crp.txt is the Wikipedia for Bokmål, then I tagged and stripped it, then I made a frequency list, then I ran it through the relative-frequency script. __TILTAK__ * Cip ser på debugging av pipeline * Trond, Marja og BM ser på siste apertium: fad_nobsme_candidates_ap-pl.20121028 * Trond snakkar med Fran om format/pipeline ([url|http://wiki.apertium.org/wiki/Extracting_bilingual_dictionaries_with_Giza%2B%2B]) !! nobsme Cip har fletta alt til src/. Det finst dublettar mellom src og new_entries2add If you put together n/v_nobsme from source with that from new_entries2add you get {{{ work_in_prog>grep 'grep ' profesjonell profesjonealla ámmátlaš stri čáris garra rávdnjái stráŋga lignende seammasullasaš sullásaš tverrfaglig fágaidgaskasaš fágaidrasttideaddji doaresfágalaš bevisst diđolaš dihtomielalaš }}} Til meg der disse en "minimalpar" med bare en Fugevokal som forskjell. Hvis dem har samme betydning jeg tror at man kan legge en lsub for å ha bare en entry (se smenob). økshammer øksehammer To typar dublettar: # Dei som er i src, dei er merka med "2". ## Leksikografar: vent med n, v ## Leksikografar: For andre ordklassar: Rydd opp: Stryk, rearranger, osb. Ignorer flagget "vd". # Dei som er i new_entries2add, og har dublettar i src (319/717 n, 17/59 v) ## Ciprian unifiserer ## Deretter arbeider leksikografane !! Neste møte Seint i neste veke.