kmd-møte 10.3.15. Kevin, Sandra, Trond. !!!Saker * Status * Framover !!!Status sme2smj-lemmaX.fst er ferdig og produserer kandidatlister i nobsmjsme Vi har kandidatlister nob-smj-sme * decomp_ana 400 * precomp_ana 4983 * decomp_noana 169 * precomp_noana 3063 Der: * decomp = match der du finn alle delane ** sykkelstyre -> sykkel ok, styre ok -> sykkelstyre * precomp = match der du finn delane som delar av andre samansetjingar ** ordboka har barnespråk→mánágiella og bruksrett→adnemriektá/ávkkimriektá, så får me forslag bruksspråk→ávkkitgiella/adnemgiella No er det slik: {{{ videreføre joarkket fievrridit 241 0 160 14 +videreføre joarkket joatkašuvvat 241 0 31 14 videreføre joarkket joatkit 241 0 448 14 =videreføre joarkket }}} Det vil vere lettare med: videreføre joarkket joatkit/fievrridit/joatkašuvvat 241 0 448 14 Men likevel: {{{ innskrenkning gártjedibme gáržžádus 11 0 3 0 innskrenkning gártjodus gáržžádus 11 0 3 0 }}} Her skal vi framleis ha: {{{ bindeledd Aktisasjvuohtaladás oktavuođalađas 6 0 0 0 kontaktledd Aktisasjvuohtaladás oktavuođalađas 0 0 0 0 }}} og ikkje slå saman til: kontaktledd/bindeledd Aktisasjvuohtaladás oktavuođalađas 0 0 0 0 Dei som er noana er av to typar, den eine er der pga fleirordsuttrykk: {{{ Euruhpárádde Euruhpárádde +? = ekte Finnmárkku báhppa Finnmárkku báhppa +? = toords-uttrykk }}} Den siste typen kan vi fjerne, og analysere som separate ord. Ei anna sak er at desse fleirordsuttrykka sannsynlegvis ikkje er oppslagsord i seg sjølv ==> vi kan vente med dei. Filforklaring: * decomp :: input is compound analysed, parts are translated with existing dictionaries and glued back together * precomp :: existing dictionaries are compound analysed to create a dictionary of compound-part-translations; then input is compound analysed, parts are translated using the decompounded dictionaries, and glued back together * anymalign :: from parallel word alignment (see para/anymalign) * xfst :: using =$GTHOME/words/dicts/smesmj/scripts/sme2smj-$PoS.fst= * lexc :: using =$GTHOME/words/dicts/smesmj/bin/smesmj.fst= Markeringsmetode: Utgangspunkt (korrekt er kirkeliv = girkkoiellem) Kandidat i decomp: kirkeliv girkkoielle girkoeallin Resultat etter manuell gjennomgang: enten a eller b: * a. @kirkeliv girkkoielle girkoeallin * b. kirkeliv girkkoiellem girkoeallin viss a, fjern første kirkeliv-instans, viss b, fjern alle kirkeliv-instansar, i resten av filene: - (viss ei linje er markert som dårleg, fjern *paret*; viss markert som bra, fjern alle forslag med det nob-ordet) {{{ ~$cat ../unhammer/freecorpus/evttohus/out/nobsmjsme/*_ana|grep kirkeliv kirkeliv girkkoielle girkoeallin 33 0 17 5 kirkeliv girkkoiellem girkoeallin 33 0 17 13 kirkeliv girkkoiellem girkoeallin 33 0 17 13 kirkeliv girkkoiellet girkoeallin 33 0 17 13 kirkeliv girkkoielle girkoeallin 33 0 17 5 kirkeliv girkkohægga girkoeallin 33 0 17 0 kirkeliv girkkoviesso girkoeallin 33 0 17 0 kirkeliv girkkoviessom girkoeallin 33 0 17 0 kirkeliv girkkoviessot girkoeallin 33 0 17 0 kirkeliv girkkovájmmo girkoeallin 33 0 17 0 kirkeliv girkkoæládus girkoeallin 33 0 17 0 kirkeliv girkkoiellet girkoeallin 33 0 17 13 kirkeliv girkkoielle girkoeallin 33 0 17 5 }}} !!!Framover __Kva:__ {{{ @ foran former som ikkje er ok (måte: merk unntaka) * foran former du skal sjå på seinare + for ok (viss det er ei fil kor det meste er ikke-ok) }}} __Lage filer for manuell gjennomgang__ Gå gjennom filene i denne rekkjefølgja: * decomp før precomp * eventuelt først ei fil med kandidatar som kom frå fleire metodar * bolkar på 1000 etter frekvens, baklengssortert inni kvar bolk? __Lagring, svn__ Lagre filene her: main/words/dicts/nobsmj/inc Skriv ei readme-fil der rekkjefølgja går fram !!!Anna mens eg har det i hovudet Rettskrivingsendring ijja→iddja: Skript dette (Sandra sender Kevin ei liste). !!!sma Som for smj, men filtrere mot eksisterande.