!!!FAD- og korpusmøte 25.1.2013 Til stades: Berit Merete, Børre, Ciprian, Sjur, Trond !!! Saker: * Status * Arbeid framover med FAD * Autshumato * Neste møte !!! Status Cip har arbeidd i to pipelines, ap, gt (der gt betyr gt + obt). Katalogen todo-done: Det er fem filer i {{{ dhcp274-ans:src ttr000$ wc -l *l|sort -nr 173322 total 93995 done_fad_nobsme.20121130_nob-c_sme-c.xml 50452 done_fad_nobsme.20121130_nob-s_sme-s.xml 21203 done_fad_nobsme.20121130_nob-s_sme-c.xml 7099 todo_fad_nobsme.20121130_nob-c_sme-c.xml 573 todo_fad_nobsme.20121130_nob-s_sme-c.xml }}} Det er ein systematisk feil i obt. Den gjev ikkje {{{ echo riksvegvegnettet | obt/bin/mtag-osx64 "" "riksvegvegnettet" subst prop <<< "" "vegnett" subst appell nøyt be ent <<< echo piratsituasjonen | obt/bin/mtag-osx64 "" "piratsituasjonen" subst prop <<< echo situasjonen | obt/bin/mtag-osx64 "" "situasjon" subst appell mask be ent <<< echo hesdfstesituasjonen | obt/bin/mtag-osx64 "" "hesdfstesituasjonen" subst prop <<< riksveg+N#+Cmp+veg+N#+Cmp+nett+N+Neu+Sg+Indef riksveg+N#+Cmp+veg+N#+Cmp+nett+N+Neu+Sg+Indef riksvegvegnett }}} Def som kan reduserast til Indef: {{{ cat *l|grep l_gt |tr '<' '>'|cut -d">" -f3|unob|grep '+Def'|cut -f1|wc -l 0%>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>100% 215 }}} !!! Arbeid framover med FAD __TILTAK__ ordparallellisering # BM, Marja og Trond ser på dette: # rette 2 todo-filer i main/words/dicts/nobsme/terms/admin/src/todo- ## todo-filene: rett sme manuelt i fil ## I prosessen: sjå om det er ting som kan ordnast (halv)automatisk # nob ## finpusse lemma ## Redusere Def til Indef ### Finn dei: __Trond__ ### Putt dei inn på plass: __Ciprian__ ## analysere ord som ikkje får analyse __Trond__ ## 600 som ikke har lemma med gt-pipeline # Analysere ordformer og gje grunnformer # nobsme ## Endre til (__Ciprian__) ## Sette inn rank-verdiar manuelt ## Sortere mg etter rank-verdiar (__Ciprian__) # Autsh (sjå neste punkt) {{{ grep 'l_gt_c="0"' *l |wc -l 191 grep 't_gt_c="0"' *l |wc -l 369 }}} !!Ultimate mål: * Forbetre allmennordboka med FAD-resultat (tja, det beste kan vera å ha dei kvar for seg) * Lage domenespesifikk FAD-ordbok ** Risten2, evt. NSG * Lage grensesnitt for parallellkorpus ( -> Korp ) * Lage Auths-løysing !!! Autshumato [/tools/autshumato.html] Få omsetjarar til å bruke Authsumato * Tilby avgrensa omsetjingsminne * Dictionary og glossary (nobsme), to alternativ: ** Tilby __autsh-Dictionary__ (nobsme minus vanlege ord) og __autsh-glossary__ (FAD-ordboka? par som har høgare domenefrekvens enn allmennfrekvens) ** Domenespesifikk FAD er Dictionary og deira private er Glossary * med kvalitetssikring? ** Tilby omsetjingsminnet in toto ** Tilby å parallellisere tekstpar for folk Kandidatar til å teste: Arnstein, Sametingsomsetjarar, Mikkel Magnus Utsi? Dep? __TODO__ * Prøve Autshumato sjølv (__alle andre enn BM__) * Lære Autshumato til BM (__husk å dokumentere__) * Diskutere med Arnstein + vise !!! Neste møte * Tromsø tysdag 29.1 kl. 13 * Plenum: Veka etter der att (vi vurderer det)