!!!Møte om lule- og sørsamisk korpusinnsamling 17.12. 2014. Børre, Kevin, Sandra, Trond. * Bakgrunn: [Prosjektskildring|../Prosjektskildring.html] * Tidlegare notat: [Planutkast|../Planutkast.html] !!!sme→smj * $GTHOME/words/dicts/smesmj/ * $GTHOME/words/dicts/smesmj/src/ = kjeldefiler til ordboka * $GTHOME/words/dicts/smesmj/script = for å kompilere fst av ordboka !!Ordboka smesmj Dette er ei ordbok: {{{ echo čállit | lookup -q $GTHOME/words/dicts/smesmj/bin/smesmj.fst čállit tjállet }}} !!Lulesamifisering Dette er ein lulesamifiserar: Kommandosett for å kompilere lulesamifiserar: {{{ cd $GTHOME/gt/smj/src/ xfst -e "source sme2smj-lexeme.xfst" -e "save stack sme2smj.fst" -stop }}} Bruk: {{{ lookup -q sme2smj.fst čállit cat nordsamisk-tekst.txt | preprocess | lookup -q sme2smj.fst echo "Mun lean okta sápmelaš." | preprocess | lookup -q sme2smj.fst }}} !!!Uutnytta kjelder til korpus * [http://sametinget.no] har firespråklege sider ** I dag hentar vi ingen ting frå Sametinget. ** Utfordring: Unngå duplikat. Svar: Sjekke dato på siste høsting og hente berre nyare * Pressemeldingar frå [http://regjeringen.no] ligg i dag i freecorpus/mixed Filer i freecorpus/smj: * other_files ** hp_2009_samisk_sprak_lulesam.pdf.xsl ** reindrift_konvensjon_norge_sverige_lulesamisk_070710.pdf.xsl ** reindrift_omraadeprotokoll_til_konvensjon_mellom_norge_sverige_lulesamisk.pdf.xsl ** reindrift_vedtekter_for_norsk_svensk_reinbeitenemnden_og_norsk_svensk_overprovingsnemnden_lulesamisk.pdf.xsl ** sami_samekonv_lulesamisk.pdf.xsl * regjeringen.no: Pressemeldingar * Kintel AS har faste avtalar med Sametinget og KMD. * Tysfjord kommune __TODO__ * __Børre og Kevin__ diskuterer desse skripta ++ Đ* Mixed-diskusjonen held fram * __Sandra__ tar ein samtale med LT og med Árran om admin-tekstar !!!Tekniske aspekt Ordboksformat osb. words/dicts/LaLb/ * dtd/ - dette har vi ikkje no * bin/ tom (vente på kompilerte filer) * src/ - kjeldefilene * script/ - nettopp det (her kanskje noko a la smesmj.sh * inc/ - mykje rart * LaLb.sh (shellscript som gjer xml om til lexc og deretter til fst) ** (visse har make-smedict eller Makefile i tillegg ...) Digresjon: dtd: Vi har: words/dicts/script/gt_dictionary.dtd Vi vil lage dtd for LaLb.xml for alle ordbøker, og legg i LaLb/dtd deretter mekke og standardisere modulo ordbok !!!Arbeidsplan * norske kandidatord: ** dei som har høgare frekvens i fad-korpus enn i norsk *** fadkorpus = freecorpus/prestable/tmx (samiske tema) *** Ta ut den norske delen, OBT-analyser og finn frekvens *** [http://gtweb.uit.no/korp/?mode=parallel#parallel_corpora=nob] ** nobsme silt mot ei admin-frekvensordliste * sjekk mot nobsmj, fjern dei som allereie ligg der * ta resten, omsett til sme * lulesamifiser til smj // smesmj-ordbok * sjekk ** sjekk lulesamifisert form mot smj-korpus ** manuell sjekk av lulesamifisert form !!!Neste møte Torsdag 8.1. kl. 9.