!!!Konvertering til sma-stil

Heli har tatt over heile koden frå sma for numra (jf. game.py)

__TILTAK__

* __Ingen__ rører nu_oahpa-koden
* __Ciprian__ lagar ein ny katalog, univ_oahpa, i pedversions. __done__
* __Ciprian__ lagar ein ny katalog for kjeldefiler, {{ped/sme/univ_oahpa_data/data_sme/sme}}. __done__
  Dette er no gjeldande katalog for sme-kjeldefiler.
* __Heli__ lagar ein ny database __done__
* __Heli__ tilpasser navner fra oahpa til univ_oahpa og teste det på victorio __"tilpassning av navner" mostly done, testning ikke klar__
* Dokumentasjon: __Alle__, særleg __Ryan__ og __Heli__
** Ei separat dokumentasjonsside for denne konverteringsprosessen:
** Eiga jspwiki-fil (denne)
** Katalogen inneheld ein kopi av smaOahpa, og blir fylt med sme-innhald
* __Lene__ går gjennom entriane i leksikon og merker <mg> osv (til måndag morgon 14.11) __done__
* __Ciprian__ overfører til sma-format og legg inn i univ_oahpa __done__


!! Leksikonfilene

!Leksikonfiler i sme/xml
* Legge til oversettelser og bokinfo fra AA-listen fra Oulu - Lene: __done__
* Dele opp i entryer når entryen bør ha minst 2 <mg>, sjekke mot normfst (__done__)
** adv_smenob.xml  - ikke brukt i smeOahpa tidligere - oppdatert - flytta til tmp_towards-sma-format/data_sme/sme/adv_smenob.xml
** multiword_smenob.xml - bare for Leksa - ikke brukt i smeOahpa tidligere - oppdatert - tmp_towards-sma-format/data_sme/sme/multiword_smenob.xml
** adjectives.xml  - oppdatert og flytta til tmp_towards-sma-format/data_sme/sme/a_smenob.xml
** verbs.xml   - oppdatert og flytta til tmp_towards-sma-format/data_sme/sme/v_smenob.xml
** nouns.xml - oppdatert og flytta til tmp_towards-sma-format/data_sme/sme/n_smenob.xml - obs - denne bør deles til g3, actor og n ?
** prop_nouns.xml  -  stedsnavn som var i nouns.xml. Det var meninga at de skulle inngå i MorfaS, men generinga har ikke fungert pga av disse krever N+Prop. Men det kunne være lurt å ha dem med i MorfaS, som nouns. - ny fil tmp_towards-sma-format/data_sme/sme/n_prop_smenob.xml
** propernouns.xml - denne skal ikke genereres - kun for Leksa, flytta til tmp_towards-sma-format/data_sme/sme/prop_smenob.xml
** numerals.xml - i denne er det er både N+Coll, A+Ord og Num - for MorfaC, flytta til tmp_towards-sma-format/data_sme/sme/num_smenob.xml
** fillings.xml - kanskje vi ikke trenger den i sma-oppsettet? - flytta til tmp_towards-sma-format/data_sme/meta/fillings.xml
* Endre attibutter og elementer til sma-stil (__Lene, Ciprian__) 
** <noleksa/> til exclude="smenob" - Lene: __done__
** første nob-oversettelse og fin-oversettelse skal ha stat="pref" - Ciprian: __done__
** <only-pl/> til gen_only="Pl"  - Lene: __done__. (De som er igjen nouns.xml er slike som har lemma i sg. Dette er noe som ikke finnes i sma, vi får se på hvilken løsning vi velger.)
** <only-sg/> til gen_only="Sg" - Lene: __done__
** tcomm="yes" - Lene: __done__
** N type="Actor" - Lene: __done__
** N type="G3" - Lene: __done__
** N type="Prop" - Lene: __done__
** entry –> e, lemma –> l - Ciprian: __done__
** <pos class="N"/> osv –> pos="n" i l-element - Ciprian: __done__
** stem-attributter flyttes til l-element: trisyllabic –> 3syll, bisyllabic –> 2syll contracted –> Csyll (denne finnes ikke i sma) - Ciprian: __done__
** tomme 'book name' gis dummy xxx og tomme 'sem class' gis YYY etter mønster fra sma - Ciprian __done__
** tomme '<tr xml:lang="eng"/>' gis dummy-t-element med FIN-VERDI_ENG etter mønster fra sma; also for deu from nob - Ciprian __done__
** add pos attributes to t-elements with default of the sme-lemmata - Ciprian: __done__

!Utviding av smeX leksikonfilene
* Leksikonfilene utvides med ped/sme/inc/morelemmasfromfin.csv - Ciprian __done__ 
** hvis semantisk sett mangler -> legges foreløpig YYY (manuelt redigering etter utvidinga) 
** bokinformasjon finnes i words/dicts/smefin/inc i
*** cealkke1.csv -> c1
*** cealkke2.csv -> c2
*** cealkke3.csv -> c3
*** cealkke4.csv -> c4
*** AA.csv -> AA
** stem, gradation, compare, diphthong, rime attributer og dialect elementer må legges til separat
** for stat="pref" gjelder samme prinsipp som for overføring av xml-filene i smaoahpa-format: første oversetting får stat="pref"

__NB__: smenob/smeX leksikonfiler __bør utvides__ med ped/sme/inc/morelemmasfromfin.csv __før konvertering__ til nobsme og finsme. 

!Leksikonfiler nobsme og finsme: 
* Skal konverteres fra smenob til nobsme og finsme på samme måte som smanob til nobsma og finsma - algoritme med hensyn til statpref. Ciprian __done__
** angåend filene med proper nouns, __bare prop_smenob.xml skal snus__ til nobsme. Alle lemmaene (bortsett fra ett) i n_prop_smenob.xml finnes i prop_smenob.xml
* Legg til ekstra sme-synonymer fra de gamle nobsme- og finsme-filene på samme som det gjort i sma fra smanob til smafin - Ciprian __todo__

!! Andre filer i sme/xml

!Feedback-filer for Morfa i sme/xml - oppdateres til samme struktur som for smaOahpa - alle er flytta/kopiert til tmp_towards-sma-format/data_sme/meta/
* feedback_adjectives.xml  - Lene: __done__ 
* feedback_adjectives_eastern.xml  - Lene: __done__
* feedback_nouns.xml  - Lene: __done__
* feedback_numerals.xml  - Lene: __done__
* feedback_verbs.xml  - Lene: __done__
* feedback_verbs_eastern.xml  - Lene: __done__ 
* messages.eng.xml - har samme struktur som sma
* messages.fin.xml - har samme struktur som sma
* messages.sme.xml - har samme struktur som sma
* messages.xml - har samme struktur som sma

!Filer for MorfaC i sme/xml - de har samme struktur som sma
* grammar_defaults.xml, kopiert til tmp_towards-sma-format/data_sme/meta/
* questions_adjectives.xml, kopiert til tmp_towards-sma-format/data_sme/meta/adjective_questions.xml
* questions_nouns.xml, kopiert til tmp_towards-sma-format/data_sme/meta/noun_questions.xml
* questions_numerals.xml, kopiert til tmp_towards-sma-format/data_sme/meta/noun_questions.xml
* questions_verbs.xml, kopiert til tmp_towards-sma-format/data_sme/meta/verb_questions.xml


!Filer for Vasta i  sme/xml
* cealkka.xml - påbegynt arbeid for Vasta Cealkka
* questions_vasta.xml

!Filer for Vasta og Sahka i sme/xml
* messages_vasta.eng.xml - også for Sahka
* messages_vasta.fin.xml - også for Sahka
* messages_vasta.sme.xml - også for Sahka
* messages_vasta.xml - også for Sahka

!Filer for Sahka i sme/xml
* dialogue_firstmeeting.xml
* dialogue_firstmeeting_boy.xml
* dialogue_firstmeeting_girl.xml
* dialogue_firstmeeting_man.xml
* dialogue_grocery.xml
* dialogue_shopadj.xml
* dialogue_visit.xml
* dialogues.dtd


! Andre viktige filer i sme/xml
* comments.nob.xml - kommentarer til brukeren
* semantic_sets.xml - for Leksa - oppdatert, flytta til tmp_towards-sma-format/data_sme/meta/


! Diverse filer i sme/xml - ikke i bruk?
* outcommented_propernouns.xml
* verbs.css
* verbs.dtd

!! Filer i sme/src

!Pronomen i Morfa - har ikke vært implementert i smeOahpa tidligere

* sme/src/pronounforms.csv som inneholder både lemma+morfology og ordform. Fila er konvertert til pron_nob.xml og ligger i data_sme/sme/   __done__
** Added forms which should be accepted as answer from students, but not presented as facit. They are marked with the tag Use/NG.
** Kommentar fra Ryan: me treng ikkje semantiske sett lengre, fordi det er lettare å nytta tag-setter i sme/data_sme/meta/tags.txt, slik at man kan velja 3 person eller 1 og 2 person pronomener. Det er heller ikkje noko pronomen-oppgåver i Leksa, då treng me ikkje semantiske setter for å skilja mellom deim. 


! Andre filer i sme/src
* Makefile - for Sahka / Vasta
* paradigms.txt - denne har vært brukt i smeOahpa, men erstattes nå av egne filer for hver PoS
* a_paradigms.txt - skal brukes, kopiert til tmp_towards-sma-format/data_sme/meta/
* n_paradigms.txt - skal brukes, kopiert til tmp_towards-sma-format/data_sme/meta/
* v_paradigms.txt - skal brukes, kopiert til tmp_towards-sma-format/data_sme/meta/
* prop_paradigms.txt - skal brukes, inneholder både Sg og Pl, men gen_only - attributter i leksikonfilene styrer dette, kopiert til tmp_towards-sma-format/data_sme/meta/
* num_paradigms.txt - skal brukes, kopiert til tmp_towards-sma-format/data_sme/meta/
* comments.nobsme - kommentarer til bruker
* comments.sme  - kommentarer til bruker
* grammatikklinker.txt - for grammatikkmenyen - samme struktur som smaOahpa, kopiert til tmp_towards-sma-format/data_sme/meta/
* sme-ped.cg3 - for Vasta og Sahka
* tags.txt, kopiert til tmp_towards-sma-format/data_sme/meta/
* adv.txt - skal ikke brukes, bør flyttes i en doc-mappe
* pp.txt - skal ikke brukes, bør flyttes i en doc-mappe
* conj.txt - skal ikke brukes, bør flyttes i en doc-mappe
* prongeneration.txt - skal ikke brukes, bør flyttes i en inc-mappe


!!Forskjeller mellom sma vs. sme
* Filplassering. sme: Alle leksikonfiler, oppgavefiler, feedbackfiler ligger i ped/sme/xml. sma: spredt i pedversions og ped/sma/xml og ped/sma/src.
* Generering i sme: generering med ped/sme/src/paradigms.txt, dessuten ped/sme/src/prongeneration.txt, i 
sma: i meta: a_paradigms.txt, num_paradigms.txt, v_paradigms.txt, n_paradigms.txt, prop_paradigms.txt
* Begrense generering: sma: gen_only, sme: <only-sg/> <only-pl/>
* sma: stat_pref - sme: første t er default stat_pref
* sma: exclude="nobsma" sme: <noleksa/> 
* sma: l-element sme: lemma-element
* morfologisk info - sma: l-element. sme: stem-element 
{{{
sma: <l margo="e" pos="n" soggi="e" stem="3syll">
sme: <stem class="bisyllabic" diphthong="yes" gradation="yes" soggi="i" rime="0"/>
}}}
* sma: spell relax ï/i, ö/ø, osv.
* sma: installeringsprosessen genererar alle formane som vert innført i databasen ein gong på byrjinga, sme: genererar paradigmer til kvar ord ein gong per ord