!!!FAD- og korpusmøte 19.12.2012 Til stades: Berit Merete, Marja, Ciprian, Trond !!!Saker: * Status * Arbeid framover * Autshomato * Neste møte !!!Status !!Oppsummere Apertium-gull-arbeid (M og BM ferdig) BM og M har funne mykje spennande. Gt-pipeline har lemma, det har ikkje Apertium. {{{ $67 0 -5.798 0.0 0.2087912 språk+regle giella+njuolggadus 11 0 -7.605 0.0 0.1212121 sovemedisin oađđit+dálkkas 7 0 -8.057 0.0 0.25 handel+avtale efta+gávpi+šiehtadus second_run>grep '^\$' fad_nobsme_candidates_ap-pl.20121130_0* | wc -l 17308 second_run>grep -h '^\$' fad_nobsme_candidates_ap-pl.20121130_0* | sort | uniq | wc -l 17238 $10 0 -7.7 0.0 0.25 høyskole+utdanning allaskuvla+oahpahus }}} !! Oppsummere gt-pipeline-alignment Cip har laga alignment. {{{ 22 0 -6.91 0.0 0.25 høgskoleutdanning allaskuvlaoahpahus 22 0 -6.91 0.0 0.25 hurtigrute riddorukto grep '^\$' fad_nobsme_candidates_ap-pl.20121130_0* | cut -d" " -f6-|cut -d"<" -f1|tr -d "+" |sort|uniq|lookup ~/main/words/dicts/nobsme/bin/nobsme.fst |grep '?'|wc -l grep '^\$' fad_nobsme_candidates_ap-pl.20121130_0* | cut -d" " -f6-|cut -d"<" -f1|tr -d "+" |sort|uniq|wc -l $22 0 -6.911 0.0 0.2222222 yrkesaktiv bargonávccalaš $3 0 -8.904 0.0 0.1538462 yrkesaktivitet fidnodoaibma $16 0 -7.23 0.0 0.1612903 yrkeserfaring bargoduogáš $16 0 -7.23 0.0 1.0 yrkeserfaring bargovásihus $17 0 -7.169 0.0 0.2 yrkesopplæring fitnooahpahus $10 0 -7.7 0.0 0.4 yrkesutøver fidnobargi }}} !!! Arbeid framover * Planlegge gt-gull-arbeid * bestemme nedre grense for sannsynsverdi !! Hovudtrekk # Fase 1 ## Ciprian leksikalisfiserer apertium-pipeline (sjå nedanfor) ## BM og Marja arbeider med andre ting # Fase 2 ## Cip fjernar leksikalifiserte apertium-par frå gt-pipeline ## BM og Marja ser på output av leksikaliserte + unifiserte ordpar ## BM og Marja arbeider med andre ting # Fase 3 ## BM og M arbeider med rest-gt-pipeline !! Prosedyre for å arbeide med apertium Lemmatisere apertium-$-output: # Lage grunnformer av avleidde ord (sjå nedanfor for prosedyre for der_X) # Ingen pluss i nob eller sme => ok # Pluss i nob men ikkje sme => prøv i nob å erstatte "+" med "s", null, "e" # Pluss i sme men ikkje i nob => prøv i sme: ## fjern +, ## Gjer /søk/erstatt/: /hallat/hallan/, /eapmi/an/, /stit/stin/, /hit/han/, /dit/dan/ /i+/e/, /u+/o/ /t+/n/, /t+// # Pluss i nob og sme => prøv nob først og deretter sme # Hugs i sme ## ... => stryk < ## ... => manuelt Her er oversikt over {{der}}: {{{ 1018 passl => stryk der_passl-taggen 719 n => erstatt final t med n 368 eapmi => erstatt -it med eapmi 127 at => stryk der_at-taggen 82 vuohta => legg vuohta til stamme 72 muš => erstatt final -t med muš 57 passs => stryk der_passs-taggen 44 dimin => stryk der_dimin-taggen 12 halla => stryk der_halla-taggen 12 ahtti => erstatt -it med ahttit 11 st => ignorer 11 alla => ignorer 8 h => ignorer 5 d => stryk der_d-taggen }}} Kommandoar: {{{ grep '^\$' fad_nobsme_candidates_ap-pl.20121130_0* | grep der_|rev|cut -d"_" -f1|rev|cut -d">" -f1|sort|uniq -c|sort -nr grep '^\$' fad_nobsme_candidates_ap-pl.20121130_0* | grep 'eapmi+'|rev|cut -d"+" -f2-|sort|rev|l }}} Taggen må vi sjå manuelt på: {{{ bruke geavahit bruke geavvat vurdere árvvoštallat avklare mearridit berøre guoskat binde čatnat diktere bidjat forsøke geahččalit rulle jorrat skifte lotnut stabil rievdat ubesvart vástidit uendret rievdadit ugift náitalit ukritisk árvvoštallat ulønnsom gánnáhit umistelig massit uskreven čállit utføre doaibmat utøve doaibmat uventet vuordit uønsket sávvat }}} !!! Autshomato # Skal vi pushe CAT (Authomato eller andre ting) på omsetjarar må vi arrangere __kurs__. # Verkeleg nyttig blir CAT først når TM inneheld tekstar som __verkeleg__ inneheld same emne !!! Neste møte Kort prat når Ciprian er ferdig med fase 1/2.