Møte om sørsamisk kmd-prosjekt: 18.9.2017 Til stades: Risten Birje, Kevin Trond Saker * Bakgrunn * Status * Framover !!!Bakgrunn Vi tar opp att tråden frå sist Risten Birje arbeidde med dette, ho har no ca. 2 veker der ho kan arbeide. Sist hadde vi filer i desse mappene: {{words/dictsnobsma/inc/candidates}} Input til filene var: * Snitt av ulike ordbøker * oppdeling av nob-samansetjingar og generering av sma-samansetjingar * synonymi-hopping * og så ein metode til og listene er sortert/filtrert basert på frekvens og morfologisk analyse og lister av tidlegare gjennomgåtte kandidatar koden som genererer ting, kort forklaring av ulike «kjelder» for kandidatar: * [https://github.com/unhammer/evttohus#output-filename-format] Dette står òg godt forklart i [00_readme.txt|https://gtsvn.uit.no/langtech/trunk/words/dicts/nobsma/inc/candidates/00_readme.txt] i inc/candidates. Målet er å få nye oppslag i nobsma. Mappene under inc/ er: * {{candidates, done1, done2, done3}} Under {{inc}} ligg også {{N_missing_nowac.freq}} som inneheld 5017 vanlege substantiv frå NOWAC-korpuset for norsk som ikkje finst i nobsma, med sme omsetjing RB har arbeidd ein del med denne, og omsett 82 ord !!!Status Storparten av arbeidet vi kan få ut av å parallellisere ordbøker (sjå ovafor) er allereie gjort. Done-mappene 1, 2, 3 inneheld 6225 oppslag. Oppslaga i done er allereie lagt inn i src/*.xml (flott!). Det som står att no er 2661 nob-ord i candidates. RB har sett gjennom listene i {candidates}, og satt + på gode Vi har 18 filer att i inc-mappa (i tillegg kjem sjölvsagt evt. nye köyringar av skripta, men vi bør vurdere om det er vits i å køyre ei 5. køyring) Candidates-filene inneheld 2661 nob-ord. Her er alle filene, med oversyn over kommentaren til kvar av dei (første linja i fila, der første linje er tom er det ingen kommentar): {{{ tf4-hsl-m0024:candidates trond$ head -1 ?_* ==> A_intersection_multis <== ==> A_intersection_singles <== + på gode ==> A_rest <== + på gode - ferdig ==> A_syn_ana_00_multis <== + på gode ==> A_syn_ana_00_singles <== + på gode ==> N_decomplow_ana_00_multis_nob <== ==> N_intersection_multis <== ==> N_intersection_singles <== + på gode ==> N_precomplow_ana_00_multis_nob <== + på gode ==> N_precomplow_ana_00_singles_nob <== + på gode ==> N_rest <== ==> N_syn_ana_00_multis <== ==> N_syn_ana_00_singles <== ==> V_intersection_multis <== ==> V_intersection_singles <== + på gode ==> V_rest <== + på gode ==> V_syn_multis <== ==> V_syn_singles <== + på gode }}} Her er oversyn over alle filene: * A_intersection_multis * A_intersection_singles * A_rest * A_syn_ana_00_multis * A_syn_ana_00_singles * N_decomplow_ana_00_multis_nob * N_intersection_multis * N_intersection_singles * N_precomplow_ana_00_multis_nob * N_precomplow_ana_00_singles_nob * N_rest * N_syn_ana_00_multis * N_syn_ana_00_singles * V_intersection_multis * V_intersection_singles * V_rest * V_syn_multis * V_syn_singles 13 av dei har +-merker, og er i det minste delvis gått gjennom: {{{ 34 N_precomplow_ana_00_multis_nob 27 A_intersection_singles 16 V_intersection_singles 16 N_precomplow_ana_00_singles_nob 15 N_intersection_singles 14 N_syn_ana_00_multis 11 N_rest 6 V_syn_multis 6 A_syn_ana_00_multis 5 V_rest 5 A_syn_ana_00_singles 4 A_rest 1 V_syn_singles }}} !!!Metode Jf. 00_readme.txt. Døme __ledig__: {{{ A_intersection_multis:ledig tovme bargguheapme/guorosnaga/guorus/rabas 60 2 132 0 A_intersection_multis:ledig latjkes bargguheapme/guorosnaga/guorus/rabas 60 19 132 0 A_intersection_multis:ledig gåaroes bargguheapme/guorosnaga 60 102 17 0 A_syn_ana_00_singles:+arbeidsledig barkehts bargguheapme 11 102 33 0 }}} Sjølv om det står ''bargguheapme'' i sme-kolonna for "ledig", er dette ikkje relevant. sme-kolonnen er berre til hjelp, og skal ikkje vere med i arbeidet framover. Målet er å få samsvar mellom nob- og sma-kolonna. Sjølv om vi ikkje hadde hatt ''arbeidsledig'' i ei anna fil ville det ha vore riktig å ignorere sme-kolonna. Poenget med candidates-filene er ikkje at orda er så viktige (sjølv om dette ordet verkeleg er viktig), men at vi har ein omsetjingskandidat, som det i beste fall er mogleg å seie "ja" til. !!!Framover # RB går gjennom filene i candidates. # Kevin legg resultatet til i nobsma etterpå # Deretter tenkjer vi oss om ## Eitt naturleg neste steg er topp-200 i revidert nowac-missing: ### T/K oppdaterer dagens nowac-missing-liste ## Eit anna steg er andre korpussamlingar (og då tar vi nytt møte)