!!!Konvertering til sma-stil Heli har tatt over heile koden frå sma for numra (jf. game.py) __TILTAK__ * __Ingen__ rører nu_oahpa-koden * __Ciprian__ lagar ein ny katalog, univ_oahpa, i pedversions. __done__ * __Ciprian__ lagar ein ny katalog for kjeldefiler, {{ped/sme/univ_oahpa_data/data_sme/sme}}. __done__ Dette er no gjeldande katalog for sme-kjeldefiler. * __Heli__ lagar ein ny database __done__ * __Heli__ tilpasser navner fra oahpa til univ_oahpa og teste det på victorio __"tilpassning av navner" mostly done, testning ikke klar__ * Dokumentasjon: __Alle__, særleg __Ryan__ og __Heli__ ** Ei separat dokumentasjonsside for denne konverteringsprosessen: ** Eiga jspwiki-fil (denne) ** Katalogen inneheld ein kopi av smaOahpa, og blir fylt med sme-innhald * __Lene__ går gjennom entriane i leksikon og merker osv (til måndag morgon 14.11) __done__ * __Ciprian__ overfører til sma-format og legg inn i univ_oahpa __done__ !! Leksikonfilene !Leksikonfiler i sme/xml * Legge til oversettelser og bokinfo fra AA-listen fra Oulu - Lene: __done__ * Dele opp i entryer når entryen bør ha minst 2 , sjekke mot normfst (__done__) ** adv_smenob.xml - ikke brukt i smeOahpa tidligere - oppdatert - flytta til tmp_towards-sma-format/data_sme/sme/adv_smenob.xml ** multiword_smenob.xml - bare for Leksa - ikke brukt i smeOahpa tidligere - oppdatert - tmp_towards-sma-format/data_sme/sme/multiword_smenob.xml ** adjectives.xml - oppdatert og flytta til tmp_towards-sma-format/data_sme/sme/a_smenob.xml ** verbs.xml - oppdatert og flytta til tmp_towards-sma-format/data_sme/sme/v_smenob.xml ** nouns.xml - oppdatert og flytta til tmp_towards-sma-format/data_sme/sme/n_smenob.xml - obs - denne bør deles til g3, actor og n ? ** prop_nouns.xml - stedsnavn som var i nouns.xml. Det var meninga at de skulle inngå i MorfaS, men generinga har ikke fungert pga av disse krever N+Prop. Men det kunne være lurt å ha dem med i MorfaS, som nouns. - ny fil tmp_towards-sma-format/data_sme/sme/n_prop_smenob.xml ** propernouns.xml - denne skal ikke genereres - kun for Leksa, flytta til tmp_towards-sma-format/data_sme/sme/prop_smenob.xml ** numerals.xml - i denne er det er både N+Coll, A+Ord og Num - for MorfaC, flytta til tmp_towards-sma-format/data_sme/sme/num_smenob.xml ** fillings.xml - kanskje vi ikke trenger den i sma-oppsettet? - flytta til tmp_towards-sma-format/data_sme/meta/fillings.xml * Endre attibutter og elementer til sma-stil (__Lene, Ciprian__) ** til exclude="smenob" - Lene: __done__ ** første nob-oversettelse og fin-oversettelse skal ha stat="pref" - Ciprian: __done__ ** til gen_only="Pl" - Lene: __done__. (De som er igjen nouns.xml er slike som har lemma i sg. Dette er noe som ikke finnes i sma, vi får se på hvilken løsning vi velger.) ** til gen_only="Sg" - Lene: __done__ ** tcomm="yes" - Lene: __done__ ** N type="Actor" - Lene: __done__ ** N type="G3" - Lene: __done__ ** N type="Prop" - Lene: __done__ ** entry –> e, lemma –> l - Ciprian: __done__ ** osv –> pos="n" i l-element - Ciprian: __done__ ** stem-attributter flyttes til l-element: trisyllabic –> 3syll, bisyllabic –> 2syll contracted –> Csyll (denne finnes ikke i sma) - Ciprian: __done__ ** tomme 'book name' gis dummy xxx og tomme 'sem class' gis YYY etter mønster fra sma - Ciprian __done__ ** tomme '' gis dummy-t-element med FIN-VERDI_ENG etter mønster fra sma; also for deu from nob - Ciprian __done__ ** add pos attributes to t-elements with default of the sme-lemmata - Ciprian: __done__ !Utviding av smeX leksikonfilene * Leksikonfilene utvides med ped/sme/inc/morelemmasfromfin.csv - Ciprian __done__ ** hvis semantisk sett mangler -> legges foreløpig YYY (manuelt redigering etter utvidinga) ** bokinformasjon finnes i words/dicts/smefin/inc i *** cealkke1.csv -> c1 *** cealkke2.csv -> c2 *** cealkke3.csv -> c3 *** cealkke4.csv -> c4 *** AA.csv -> AA ** stem, gradation, compare, diphthong, rime attributer og dialect elementer må legges til separat ** for stat="pref" gjelder samme prinsipp som for overføring av xml-filene i smaoahpa-format: første oversetting får stat="pref" __NB__: smenob/smeX leksikonfiler __bør utvides__ med ped/sme/inc/morelemmasfromfin.csv __før konvertering__ til nobsme og finsme. !Leksikonfiler nobsme og finsme: * Skal konverteres fra smenob til nobsme og finsme på samme måte som smanob til nobsma og finsma - algoritme med hensyn til statpref. Ciprian __done__ ** angåend filene med proper nouns, __bare prop_smenob.xml skal snus__ til nobsme. Alle lemmaene (bortsett fra ett) i n_prop_smenob.xml finnes i prop_smenob.xml * Legg til ekstra sme-synonymer fra de gamle nobsme- og finsme-filene på samme som det gjort i sma fra smanob til smafin - Ciprian __todo__ !! Andre filer i sme/xml !Feedback-filer for Morfa i sme/xml - oppdateres til samme struktur som for smaOahpa - alle er flytta/kopiert til tmp_towards-sma-format/data_sme/meta/ * feedback_adjectives.xml - Lene: __done__ * feedback_adjectives_eastern.xml - Lene: __done__ * feedback_nouns.xml - Lene: __done__ * feedback_numerals.xml - Lene: __done__ * feedback_verbs.xml - Lene: __done__ * feedback_verbs_eastern.xml - Lene: __done__ * messages.eng.xml - har samme struktur som sma * messages.fin.xml - har samme struktur som sma * messages.sme.xml - har samme struktur som sma * messages.xml - har samme struktur som sma !Filer for MorfaC i sme/xml - de har samme struktur som sma * grammar_defaults.xml, kopiert til tmp_towards-sma-format/data_sme/meta/ * questions_adjectives.xml, kopiert til tmp_towards-sma-format/data_sme/meta/adjective_questions.xml * questions_nouns.xml, kopiert til tmp_towards-sma-format/data_sme/meta/noun_questions.xml * questions_numerals.xml, kopiert til tmp_towards-sma-format/data_sme/meta/noun_questions.xml * questions_verbs.xml, kopiert til tmp_towards-sma-format/data_sme/meta/verb_questions.xml !Filer for Vasta i sme/xml * cealkka.xml - påbegynt arbeid for Vasta Cealkka * questions_vasta.xml !Filer for Vasta og Sahka i sme/xml * messages_vasta.eng.xml - også for Sahka * messages_vasta.fin.xml - også for Sahka * messages_vasta.sme.xml - også for Sahka * messages_vasta.xml - også for Sahka !Filer for Sahka i sme/xml * dialogue_firstmeeting.xml * dialogue_firstmeeting_boy.xml * dialogue_firstmeeting_girl.xml * dialogue_firstmeeting_man.xml * dialogue_grocery.xml * dialogue_shopadj.xml * dialogue_visit.xml * dialogues.dtd ! Andre viktige filer i sme/xml * comments.nob.xml - kommentarer til brukeren * semantic_sets.xml - for Leksa - oppdatert, flytta til tmp_towards-sma-format/data_sme/meta/ ! Diverse filer i sme/xml - ikke i bruk? * outcommented_propernouns.xml * verbs.css * verbs.dtd !! Filer i sme/src !Pronomen i Morfa - har ikke vært implementert i smeOahpa tidligere * sme/src/pronounforms.csv som inneholder både lemma+morfology og ordform. Fila er konvertert til pron_nob.xml og ligger i data_sme/sme/ __done__ ** Added forms which should be accepted as answer from students, but not presented as facit. They are marked with the tag Use/NG. ** Kommentar fra Ryan: me treng ikkje semantiske sett lengre, fordi det er lettare å nytta tag-setter i sme/data_sme/meta/tags.txt, slik at man kan velja 3 person eller 1 og 2 person pronomener. Det er heller ikkje noko pronomen-oppgåver i Leksa, då treng me ikkje semantiske setter for å skilja mellom deim. ! Andre filer i sme/src * Makefile - for Sahka / Vasta * paradigms.txt - denne har vært brukt i smeOahpa, men erstattes nå av egne filer for hver PoS * a_paradigms.txt - skal brukes, kopiert til tmp_towards-sma-format/data_sme/meta/ * n_paradigms.txt - skal brukes, kopiert til tmp_towards-sma-format/data_sme/meta/ * v_paradigms.txt - skal brukes, kopiert til tmp_towards-sma-format/data_sme/meta/ * prop_paradigms.txt - skal brukes, inneholder både Sg og Pl, men gen_only - attributter i leksikonfilene styrer dette, kopiert til tmp_towards-sma-format/data_sme/meta/ * num_paradigms.txt - skal brukes, kopiert til tmp_towards-sma-format/data_sme/meta/ * comments.nobsme - kommentarer til bruker * comments.sme - kommentarer til bruker * grammatikklinker.txt - for grammatikkmenyen - samme struktur som smaOahpa, kopiert til tmp_towards-sma-format/data_sme/meta/ * sme-ped.cg3 - for Vasta og Sahka * tags.txt, kopiert til tmp_towards-sma-format/data_sme/meta/ * adv.txt - skal ikke brukes, bør flyttes i en doc-mappe * pp.txt - skal ikke brukes, bør flyttes i en doc-mappe * conj.txt - skal ikke brukes, bør flyttes i en doc-mappe * prongeneration.txt - skal ikke brukes, bør flyttes i en inc-mappe !!Forskjeller mellom sma vs. sme * Filplassering. sme: Alle leksikonfiler, oppgavefiler, feedbackfiler ligger i ped/sme/xml. sma: spredt i pedversions og ped/sma/xml og ped/sma/src. * Generering i sme: generering med ped/sme/src/paradigms.txt, dessuten ped/sme/src/prongeneration.txt, i sma: i meta: a_paradigms.txt, num_paradigms.txt, v_paradigms.txt, n_paradigms.txt, prop_paradigms.txt * Begrense generering: sma: gen_only, sme: * sma: stat_pref - sme: første t er default stat_pref * sma: exclude="nobsma" sme: * sma: l-element sme: lemma-element * morfologisk info - sma: l-element. sme: stem-element {{{ sma: sme: }}} * sma: spell relax ï/i, ö/ø, osv. * sma: installeringsprosessen genererar alle formane som vert innført i databasen ein gong på byrjinga, sme: genererar paradigmer til kvar ord ein gong per ord