Møte om klitika 29.10.2019 Til stades: Lene, Linda, Sara (i starten), Thomas, Trond, Sjur !!!Tema: Analyse av partiklar og klitika Ord med tvetydig eller problematisk fokuspartikkelanalyse: * dálkadat (feilskriving) * dálkkádat (korrekt) * čohkkáhan {{{ "" "dálka" N Sem/Dummytag Sg Nom @HNOUN MAP:22636:hnounNom ; "dálkat" V IV PrsPrc REMOVE:3963:PrsPrc "" "dat" Pcle @PCLE MAP:21642:r16 }}} Ny analyse, berre {{hfst-tokenise}}: {{{ echo "Son čohkkáhan dáppe." | hfst-tokenise -g tokeniser-gramcheck-gt-desc.pmhfst "" "son" Pcle "son" Pron Pers Sg3 Nom : "<čohkkáhan>" "čohkkáhit" V TV Actio Gen "čohkkáhit" V TV Actio Nom "čohkkáhit" V TV Ind Prt ConNeg "čohkkáhit" V TV PrfPrc "čohkkát" Ex/V IV Der/h V Actio Gen "čohkkát" Ex/V IV Der/h V Actio Nom "čohkkát" Ex/V IV Der/h V Ind Prs Sg1 "čohkkát" Ex/V IV Der/h V Ind Prt ConNeg "čohkkát" Ex/V IV Der/h V PrfPrc "#" Foc/han "" "čohkkát" V IV Imprt Sg2 "<čohkká>" "#" Foc/han "" "čohkkát" V IV Ind Prs ConNeg "<čohkká>" "#" Foc/han "" "čohkkát" V IV Ind Prs Sg3 "<čohkká>" "#" Foc/han "" "čohkkát" V IV VGen "<čohkká>" : "" "dáppe" Adv Sem/Plc "<.>" "." CLB :\n }}} Ny analyse etter {{cg-mwesplit}}, klitisert: {{{ $ echo "Son čohkkáhan dáppe." | hfst-tokenise -g tokeniser-gramcheck-gt-desc.pmhfst | vislcg3 -t -g mwe-dis.cg3 | cg-mwesplit "" "son" Pcle "son" Pron Pers Sg3 Nom : "<čohkká>" "čohkkát" V IV Ind Prs Sg3 SELECT:2146 "" "#" Foc/han ; "čohkkáhit" V TV Actio Gen SELECT:2146 ; "čohkkáhit" V TV Actio Nom SELECT:2146 ; "čohkkáhit" V TV Ind Prt ConNeg SELECT:2146 ; "čohkkáhit" V TV PrfPrc SELECT:2146 ; "čohkkát" Ex/V IV Der/h V Actio Gen SELECT:2146 ; "čohkkát" Ex/V IV Der/h V Actio Nom SELECT:2146 ; "čohkkát" Ex/V IV Der/h V Ind Prs Sg1 SELECT:2146 ; "čohkkát" Ex/V IV Der/h V Ind Prt ConNeg SELECT:2146 ; "čohkkát" Ex/V IV Der/h V PrfPrc SELECT:2146 ; "#" Foc/han "" ; "čohkkát" V IV Imprt Sg2 "<čohkká>" SELECT:2146 ; "#" Foc/han "" ; "čohkkát" V IV Ind Prs ConNeg "<čohkká>" SELECT:2146 ; "#" Foc/han "" ; "čohkkát" V IV VGen "<čohkká>" SELECT:2146 : "" "dáppe" Adv Sem/Plc "<.>" "." CLB :\n }}} Ny analyse etter {{cg-mwesplit}}, ikkje klitisert: {{{ $ echo "Son čohkká han dáppe." | hfst-tokenise -g tokeniser-gramcheck-gt-desc.pmhfst | vislcg3 -t -g mwe-dis.cg3 | cg-mwesplit "" "son" Pcle "son" Pron Pers Sg3 Nom : "<čohkká>" "čohkkát" V IV Ind Prs Sg3 SELECT:2146 "< han>" " " Foc/han ; " " Foc/han "< han>" ; "čohkkát" V IV Imprt Sg2 "<čohkká>" SELECT:2146 ; " " Foc/han "< han>" ; "čohkkát" V IV Ind Prs ConNeg "<čohkká>" SELECT:2146 ; " " Foc/han "< han>" ; "čohkkát" V IV VGen "<čohkká>" SELECT:2146 : "" "dáppe" Adv Sem/Plc "<.>" "." CLB :\n }}} Gamal analyse: {{{ $ echo "Son čohkká han dáppe." | preprocess | hfst-lookup -q ../../src/analyser-disamb-gt-desc.hfst| cut -f1-2 | lookup2cg "" "son" Pcle "son" Pron Pers Sg3 Nom "<čohkká>" "čohkkát" V IV Ind Prs Sg3 "čohkkát" V IV VGen "čohkkát" V IV Ind Prs ConNeg "čohkkát" V IV Imprt Sg2 "čohkkát" V IV Imprt ConNeg "" "han" Pcle "" "dáppe" Adv Sem/Plc "<.>" "." CLB }}} Spørsmål: * Kva skal vera lemma? "han" osb. * Kva skal vera taggen? Svar: * Viss vi ser "leahan" som er samansetjing (som biila i láibebiila) blir "han" lemma Jf. analysen av desse to — ''láibebiila'' og ''čohkkáhan'': {{{ usme: láibebiila láibi+N+Cmp/SgNom+Cmp#biila+N+Sg+Nom echo "láibebiila" | hfst-tokenise -g tokeniser-gramcheck-gt-desc.pmhfst "" "biila" N Sem/Veh Sg Nom "láibi" N Sem/Food Cmp/SgNom Cmp usme: čohkkáhan čohkkát+V+IV+Ind+Prs+Sg3+Foc/han hfst-tokenise: "han" Pcle "" "čohkkát" V IV Imprt Sg2 "<čohkká>" }}} For usme-analysen kunne vi i staden ha: {{{ čohkkát+V+IV+Ind+Prs+Sg3#han+Pcle+Foc }}} Her ser vi korleis ''biila'' og ''han'' blir lemma i hfst-tokenise, og indirekte korleis det kunne ha vorte det for ''čohkkahan''. !!!Partiklar vs. adverb Nickel/Sammallahti s. 205: «Modalpartikler» * enklitiske partikler * partikler som selvstendige ord * (setningsadverb) Partikler: * Dei som blir skrive i lag med verten på finsk side: ** Pcle etter ordet det står til: -ge (pos/neg, = kin/kAAn) ** Pcle på andreplass i setninga: alle andre enklitiske ** Pcle go * Dei som ikkje blir skrive i lag med verten på finsk side (og ikkje må stå på andreplass (?)) {{{ --------------------------------------- Pcle: 2. posisjon eller fokus/polaritet: Pcle leago +Pcle+Qst evt: +Pcle+Qst+Clt lea go +Pcle+Qst leage +Pcle+Pol lea ge +Pcle+Pol leago +Pcle+Qst lea go +Pcle+Qst leaba +Pcle+Foc lea ba +Pcle+Foc ------------------------------------- Ikkje 2. posisjon eller fokus: Adverb aitto Pcle <== Adv Cls Sem/xxx? odne Adv manne+Adv+Subqst dáppe+Adv+Sem/Plc dalle+Adv+Sem/Time čččč+Adv+Sem/Plc_Time ? ------------------------------------- husmedis mihkkege mihkkege mihkke+Pron+Indef+Sg+Nom+Foc/Neg-ge 0,000000 mihkkege mihkke+Pron+Indef+Sg+Nom+Foc/Pos-ge 0,000000 Pron Pers N NomAg }}} !!!LIA-materialet Legge inn LIA-etntrŧyer i fil/filer? {{{ grep LIA src/morphology/stems/* |wc -l 2175 }}} Begrunnelse: Dette gir mulighet for å kompilere en egen HFST for LIA-analyse, og vi risikerer ikke at ordene gir for mange analyser i andre sammenhenger !!!Korleis referere til underlesingar i vislcg3 {{{ REMOVE:longest-match SUB:1 ("<.*>"r)(NEGATE 0 Err/Lex); SELECT V + Sg3 (0 Foc/han LINK -1 Pers + Sg3 + Nom) ; }}} Dette er måten å referere til underlesingar på: {{{ # SUBREADINGS: # ------------ bil 0, -3 kake 1, -2 oste 2, -1 # oste#kake#bil # 0 = bil # 0/0 = bil # 0/1 = kake # 0/2 = oste # 0/-1 = oste # 0/-2 = kake # 0/-3 = bil # Til venstre for "/": posisjon i setninga # Til högre for "/": posisjon i stakken, rekna ovafrå (positiv) eller nedanfrå (negativ }}}