Møte om sørsamisk kmd-prosjekt: 18.9.2017

Til stades: Risten Birje, Kevin Trond

Saker
* Bakgrunn
* Status
* Framover


!!!Bakgrunn

Vi tar opp att tråden frå sist Risten Birje arbeidde med dette, ho har no ca. 2 veker der ho kan arbeide.

Sist hadde vi filer i desse mappene:

{{words/dictsnobsma/inc/candidates}}

Input til filene var:

* Snitt av ulike ordbøker
* oppdeling av nob-samansetjingar og generering av sma-samansetjingar
* synonymi-hopping
* og så ein metode til

og listene er sortert/filtrert basert på frekvens og morfologisk analyse og lister av tidlegare gjennomgåtte kandidatar

koden som genererer ting, kort forklaring av ulike «kjelder» for kandidatar:

* [https://github.com/unhammer/evttohus#output-filename-format]

Dette står òg godt forklart i
[00_readme.txt|https://gtsvn.uit.no/langtech/trunk/words/dicts/nobsma/inc/candidates/00_readme.txt]
i inc/candidates.

Målet er å få nye oppslag i nobsma.

Mappene under inc/ er:
* {{candidates, done1, done2, done3}}

Under {{inc}} ligg også {{N_missing_nowac.freq}}
som inneheld 5017 vanlege substantiv frå NOWAC-korpuset for norsk
som ikkje finst i nobsma, med sme omsetjing
RB har arbeidd ein del med denne, og omsett 82 ord

!!!Status

Storparten av arbeidet vi kan få ut av å parallellisere ordbøker (sjå ovafor)
er allereie gjort. Done-mappene 1, 2, 3 inneheld 6225 oppslag.
Oppslaga i done er allereie lagt inn i src/*.xml (flott!).

Det som står att no er 2661  nob-ord i candidates.
RB har sett gjennom listene i {candidates}, og satt + på gode

Vi har 18 filer att i inc-mappa (i tillegg kjem sjölvsagt evt. nye köyringar av skripta,
men vi bør vurdere om det er vits i å køyre ei 5. køyring)

Candidates-filene inneheld 2661 nob-ord. Her er alle filene,
med oversyn over kommentaren til kvar av dei (første linja i fila,
der første linje er tom er det ingen kommentar):

{{{
tf4-hsl-m0024:candidates trond$ head -1 ?_*
==> A_intersection_multis <==


==> A_intersection_singles <==
+ på gode

==> A_rest <==
+ på gode - ferdig

==> A_syn_ana_00_multis <==
+ på gode

==> A_syn_ana_00_singles <==
+ på gode

==> N_decomplow_ana_00_multis_nob <==


==> N_intersection_multis <==


==> N_intersection_singles <==
+ på gode

==> N_precomplow_ana_00_multis_nob <==
+ på gode

==> N_precomplow_ana_00_singles_nob <==
+ på gode

==> N_rest <==


==> N_syn_ana_00_multis <==


==> N_syn_ana_00_singles <==


==> V_intersection_multis <==


==> V_intersection_singles <==
+ på gode

==> V_rest <==
+ på gode

==> V_syn_multis <==


==> V_syn_singles <==
+ på gode
}}}

Her er oversyn over alle filene:

* A_intersection_multis
* A_intersection_singles
* A_rest
* A_syn_ana_00_multis
* A_syn_ana_00_singles
* N_decomplow_ana_00_multis_nob
* N_intersection_multis
* N_intersection_singles
* N_precomplow_ana_00_multis_nob
* N_precomplow_ana_00_singles_nob
* N_rest
* N_syn_ana_00_multis
* N_syn_ana_00_singles
* V_intersection_multis
* V_intersection_singles
* V_rest
* V_syn_multis
* V_syn_singles

13 av dei har +-merker, og er i det minste delvis gått gjennom:

{{{
  34 N_precomplow_ana_00_multis_nob
  27 A_intersection_singles
  16 V_intersection_singles
  16 N_precomplow_ana_00_singles_nob
  15 N_intersection_singles
  14 N_syn_ana_00_multis
  11 N_rest
   6 V_syn_multis
   6 A_syn_ana_00_multis
   5 V_rest
   5 A_syn_ana_00_singles
   4 A_rest
   1 V_syn_singles
}}}

!!!Metode

Jf. 00_readme.txt. Døme __ledig__:

{{{
A_intersection_multis:ledig        tovme        bargguheapme/guorosnaga/guorus/rabas        60        2        132        0
A_intersection_multis:ledig        latjkes        bargguheapme/guorosnaga/guorus/rabas        60        19        132        0
A_intersection_multis:ledig        gåaroes        bargguheapme/guorosnaga        60        102        17        0
A_syn_ana_00_singles:+arbeidsledig        barkehts        bargguheapme        11        102        33        0
}}}

Sjølv om det står ''bargguheapme'' i sme-kolonna for "ledig", er dette ikkje relevant.
sme-kolonnen er berre til hjelp, og skal ikkje vere med i arbeidet framover.
Målet er å få samsvar mellom nob- og sma-kolonna. Sjølv om vi ikkje hadde hatt ''arbeidsledig'' i ei
anna fil ville det ha vore riktig å ignorere sme-kolonna.

Poenget med candidates-filene er ikkje at orda er så viktige (sjølv om dette ordet verkeleg er viktig),
men at vi har ein omsetjingskandidat, som det i beste fall er mogleg å seie "ja" til.

!!!Framover

# RB går gjennom filene i candidates.
# Kevin legg resultatet til i nobsma etterpå
# Deretter tenkjer vi oss om
## Eitt naturleg neste steg er topp-200 i revidert nowac-missing:
### T/K oppdaterer dagens nowac-missing-liste
## Eit anna steg er andre korpussamlingar (og då tar vi nytt møte)