korpus mark-up Workshop 2 26.10.2020 Ritva, Linda, Duommá orig/sme/ficti/blog/nps-009_soadis_dacca_calmmis_ja_muorra_iezamet_calmmis.correct.txt ??? OLD: Dien gaskka lea 70 miilla, ja {gokča}${verb,á|gokčá} badjel beali Sámeguovllu. NEW: {Dien}£{dem,pph,gensg,genpl,number|Dieid} gaskka lea 70 miilla, ja {gokča}${verb,á|gokčá} badjel beali Sámeguovllu. ##Dán lean šekken sisa. Muhto leaš go dálge riekta..? Dien gaskka = diekko = dien geainnu ??? OLD: Logaldalli muitalii dološ {grehkalaš}${adj,conc|greikalaš} {lyrihkkár}£{noun,pph,gensg,nomsg,case|lyrihkkára} Sapfo birra, guhte orui Lesbos-sullos dego 600 jagi Kristusa ovdal. NEW: (cs "dego" sajis galgá Adv "su.") ...orui Lesbos-sullos dego 600 jagi Kristusa ovdal. ## čffadis "style" ;) --------------------------------------------------- nps-010_deanuleagi_goarideapmi_ja_ohcejoga_beastin.correct.txt ??? OLD: ja geas {ii leat mangelágan čanastagat}£{noun,spred,nomsg,nompl,kongr|ii leat mangelágan čanastat} báikái dahje beroštupmi dan buresbirgejupmái. NEW: SJUR/BØRRE (///) https://giellalt.uit.no/proof/spelling/testdoc/error-markup.html => Alternative constructions Duommá: ## ja geas {ii leat mangelágan čanastagat}£{noun,spred,nomsg,nompl,kongr|ii leat mangelágan čanastat}///{ii leat mangelágan čanastagat}£{noun,spred,nompl,nomsg,kongr|eai leat mangelágan čanastagat} báikái dahje beroštupmi dan buresbirgejupmái. ## Kommentára: Mii jearrat Børres leago /// mielde merkenkonvenšuvnnain. ??? OLD: Suomabeal NEW: (Muhto mo dás divvu "bealde" nestingain?) {Suomabeal}${noun,notcmp|Suoma beal} ## In leat šekken sisa. Dát 2 leat vearrut: {Suomabeal}${adv,x|Suomabealde}¥{adv,notcmp|Suoma bealde} {Suomabeal}¥{adv,notcmp|Suoma beal}${adv,x|Suoma bealde} Suomabeal Suomabeal suomabealli+N+Sg+Gen+Err/Orth 0,000000 Suomabeal suopma+N+Cmp/SgGen+Cmp#beal+N+Sg+Nom+Err/Lex 0,000000 Suomabeal suopma+N+Cmp/SgGen+Cmp#beal+N+Sg+Nom+Err/Lex 0,000000 ## Suoma {beal}${pp,x|bealde} Deatnogáttis olbmot leamaš juo guhká fuolas dán ovdáneamis. Ná galgá: {{Suomabeal}¥{adv,notcmp|Suoma beal}}${pp,typo|Suoma bealde} !!! OLD: Gos dalle Ohcejoga gildii dat stuorra vearroboađut? NEW: (LEAT-vearba/VÁLDOVEARBA váilu) ## MO mii sáhtášeimmet oažžut prográmma muitalit dan čállái? Kommentára: Linda háliida dáid cealkkaovdamearkkaid. Ritva sáhttá čoaggit daid sierra dokumentii. lang-sme/tools/grammarcheckers/data/ lang-sme/tools/grammarcheckers/errordata/ ------------------------------------------- nps-011_arktalas_parlamentarihkkariid_coakkamis.correct.txt !!! OLD: Árktalaš ráđi jođiheapmi lea dán vuoru dan dáfus hárvenaš, ahte ságadoalliriikka báiki lea guhtta jagi maŋŋálaga (leamaš) davviriikkaid hálddus NEW: (Váilogo váldovearba: lea leamaš?) Ledingen av det Arktiske rådet er denne gangen spesiell med tanke på at lederrikets plass på det sjette året er i nordens besittelse. ## Kommentára: Ritva lasiha "leamaš" !!! OLD: Evttohin, ahte ođđa dárkojeaddjit eai galggale váldojuvvot mielde muđuid go dakkár organisašuvnnat, main lea gaskavuohta árktalaš guvlui dego EU ja Unesco. NEW: ("Unesco" gávdno HUSME:s, muhto dat lea akronyma ja galggašii čállot stuorra bustávain. Galggašiigo Err/Lex?) ## Kommentára: Duommá mearrida ahte dál oažžu čállit dan aivve stuorra bustávaiguin, go nu dat čállo UNESCO iežaset siidduin. Unesco Unesco Unesco+N+Prop+Sem/Org+Attr 0,000000 Unesco Unesco+N+Prop+Sem/Org+Sg+Acc 0,000000 Unesco Unesco+N+Prop+Sem/Org+Sg+Gen 0,000000 Unesco Unesco+N+Prop+Sem/Org+Sg+Nom 0,000000 UNESCO UNESCO UNESCO+N+Prop+Sem/Org+ACR+Sg+Acc 0,000000 UNESCO UNESCO+N+Prop+Sem/Org+ACR+Sg+Gen 0,000000 UNESCO UNESCO+N+Prop+Sem/Org+ACR+Sg+Nom 0,000000 UNESCO UNESCO+N+Prop+Sem/Org+ACR+Attr 0,000000 UNESCO UNESCO+N+Prop+Sem/Org+ACR+Sg+Acc 0,000000 UNESCO UNESCO+N+Prop+Sem/Org+ACR+Sg+Gen 0,000000 UNESCO UNESCO+N+Prop+Sem/Org+ACR+Sg+Nom 0,000000 ??? OLD: Dánmárkku olgoáššiidministara vástádus ii jávkadan mu fuola {árktalaš ráđi}¢{prop,cap|Árktalaš ráđi} boahttevuođas vejolaš ođđa dárkojeddjiid váikkuhusa mielde. NEW: (Syntáksa lea imašlaš. Maid dás oaivvildit?) ## Dánmárkku olgoáššiidministara vástádus ii jávkadan mu fuola Árktalaš ráđi boahttevuođs vejolaš ođđa dárkojeddjiid. DAT ii jávkadan mu fuola DAS/DAN BIRRA/ ## Kommentára: Dán lei váttis divvut... Dat ferte beare orrut dál. Vejolaččat jearrat Lenes. !!! OLD: Dát lea mu mielas okta mávssolaččamus {árktalaš ráđi}¢{prop,cap|Árktalaš ráđi} doaimma ulbmiliin, daningo lassáneaddji mearrajohtalus, oljofievrredeapmi ja offshore-bohkan buktet hui stuora birasriskkaid, maidda ferte ráhkkanit. NEW: (KOMPAREREN/HEAJOS STIILA!: ártet go HUSME suovvá čállit "mávssolaččamus".=> guoská maiddái "dábálaččamus". Mun almmatge lean divvon dan.) Dát lea mu mielas okta {mávssolaččamus}£{adj,attr,superl|mávssolamos} {árktalaš ráđi}¢{prop,cap|Árktalaš ráđi} doaimma ulbmiliin, daningo lassáneaddji mearrajohtalus, oljofievrredeapmi ja offshore-bohkan buktet hui stuora birasriskkaid, maidda ferte ráhkkanit. ## Lean šekken sisa. ## Jus leat guokte dohkkálaš hámi, mo de sáhttá geavahit "///" merket ahte goappašagat leat riekta? ## Kommentára: Divo nu go leai ovdal - ná lea lohpi čállit. !!! OLD: Prošeavttas gávdno lassidiehtu mielčuovvu čujuhusas: {http://www.arcticgovernance.org}∞{url}/ Prošeaktajođiheaddji, dr Robert Corell muitalii prošeavtta duogážis ja mearkkašumis. NEW: (Liŋka - galggašeimmetgo lasihit dán ieažamet dokumentašuvdnasiidui?) ## Kommentára: Mii jearrat Sjuras manne dát lea merkejuvvon dán láhkai. Sjur vástidii ahte muđui url hehtte prográmma go dat ii máhte lohkat dan. echo http://www.arcticgovernance.org | hfst-tokenise -g tools/tokenisers/tokeniser-gramcheck-gt-desc.pmhfst "" "http://www.arcticgovernance.org" URL :\n !!! OLD: Prošeavtta ulbmilin lea ohcat vugiid mot árktalaš guovllu hálddašeapmi sáhttá gárgehuvvot dávistit jur dálkkádatrievdama buktin hástalusaide. NEW: (gensg "buktima" vai PrfPrc "buktán" vai PassL PrfPrc "buktojuvvon") Prošeavtta ulbmilin lea ohcat vugiid mot árktalaš guovllu hálddašeapmi sáhttá gárgehuvvot dávistit jur dálkkádatrievdama {buktin}¢{svow|buktán} hástalusaide. ## Lean šekken sisa. ## Kommentára: Dát "buktin" leai aktio - rievdat dan ruovttoluotta nugo leai. -------------------------------------------- doc: nps-006-ihpil.correct.txt !!! OLD: Lean {dan}£{dem,á|dán} vahku duostan leahkit hybelvistti gievkkanis, {ii}£{verb,fin,agr|in} beare fitnat doppe {stumppasneaiddaid}${noun,cmp,gen,nom|stumpasneaiddaid} suvležit, ja de báhtarit fas latnjii seaibi juolgegaskkas. NEW: (NEGFOC: galggašii "in ge beare fitnat". Galgágo nesting-error? Mo mun lasihan parihkkala?) ## stumpasnieiddaid = stumpa + snieida ## {{ii}£{verb,fin,agr|in}}¥{pcle,missing|in ge} --------------------------------------------------------- nps-010_deanuleagi_goarideapmi_ja_ohcejoga_beastin.correct.txt !!! OLD: SUV:at NEW:(Mo merken acro:id?) {SUV:at}${acr,suf|SUV:t} #DOKU ## Lean šekken sisa. Galggašiigo lasihit dokumentašuvdnii? Mis eai leat akronymat doppe. ------------------------------------------------------ nps-011_arktalas_parlamentarihkkariid_coakkamis.correct.txt !!! OLD: Bissovaš komitea čoahkkana njealje {have}${noun,á|háve} jagis miehtá árktalaš viidodaga ja mátkkoštangolut leat stuorrát, ja dat báhcet Suoma sámedikki máksima várás. NEW: NP - ÁIGEADVERBIÁLA ("njealje geardde jagis" vai "njealje geardde jahkái" = njelljii jahkái) ## Mu mielas lea "njeljii jahkái" = "njealje geardde jahkái". Juoga mii dáhpáhuvvá ođđasit ja ođđasit. ## Kommentára: Dát lea ortnegis. !!! -------------------------------------- Dokumentašuvdnasiidu: https://giellalt.uit.no/proof/spelling/testdoc/error-markup.html#Orthographic+errors%2C+real-words Morpho-syntactic errors TEMPLATE: {wrong form}£{pos,gf,cat,orig,errtype|correct form} Errors that require an analysis of (parts of) the sentence or surrounding words to be detected and corrected. In the resulting xml, the element is named . Mark-up attributes: pos { noun | verb | adj | adv | num | interj | pp | cc | cs | pcle | prop |pers | refl | dem | resip | indef | x } gf { subj | obj | advl | fin | infin | spred | opred | pcle | interj | app | conj | pph | x | attr } cat { nomsg | nompl | gensg | genpl | illsg | illpl | locsg | locpl | comsg | compl | ess | sg1prt | sg2prt | sg3prt | du1prt | du2prt | du3prt | pl1prt | pl2prt | pl3prt | sg1prs | sg2prs | sg3prs | du1prs | du2prs | du3prs | pl1prs | pl2prs | pl3prs | attr | pred | word | comp | superl | cmp | imprt | pot | infinite | cond | conneg | ger | vgen | x } orig { nomsg | nompl | gensg | genpl | illsg | illpl | locsg | locpl | comsg | compl | ess | sg1prt | sg2prt | sg3prt | du1prt | du2prt | du3prt | pl1prt | pl2prt | pl3prt | sg1prs | sg2prs | sg3prs | du1prs | du2prs | du3prs | pl1prs | pl2prs | pl3prs | attr | pred | word | comp | superl | imprt | pot | infinite | cond | conneg | ger | vgen | x } errtype { agr | case | tense | mode | number | mix | x } ## Manne akksg ja akkpl eai leat mielde listtas? Daid galggašii lasihit (lea objeavtta kásus!) ##DOKU akksg akkpl ---------------------------------------- nps-012_nuoraid_skandala.correct.txt !!! OLD: Ii oktage oro diehtime gean lea {ovddasvástadus}${noun,á|ovddasvástádus} go {nuoraidorganisašuvdná}${noun,a|nuoraidorganisašuvdna} {masii}${verb,conc|massii} coavcci, iige oktage {oro berošteames}£{verb,infin,ess,loc,case|oro berošteamen} duohtavuođa buktit beaivečuvgii. NEW: (Leago RelC sátneortnet ok? "gean lea ovddasvástadus". Mun dajašin: "gean ovddasvástadus lea") ## gen-attr: Ritva divvu sátneortnega r->w bowing --------------------------------------- nps-013_lihkolas.correct.txt !!! OLD: ...ferte go álo leat muhtin {olmmoš?!a.a}${interj,mix|olmmoš?! A-a}, ii leat nieida ge! NEW: (gaska ja merkenvuohki?) ## Ná galgá: ...ferte go álo leat muhtin {{olmmoš?!a.a}‰{space|olmmoš?! a.a}}${interj,mix|A-a}, ii leat nieida ge! ## ...ferte go álo leat muhtin {olmmoš?!a.a}${interj,mix|olmmoš?! A-a}, ii leat nieida ge! A-a A-a a-a+Interj 0,000000 !!! OLD: {dat maid dovddan ii leat diet ráhkisvuođa dovdu maid {{áittoráhkistan}${vowc,á-a|aittoráhkistan}}${verb,notcmp|aitto ráhkistan}} olmmoš {dovda}${verb,á|dovdá}}¥{verb,trans|dat maid dovddan ii leat diet ráhkisvuođa dovdu maid aitto ráhkásmuvvan olmmoš dovdá}. NEW: (Dákko livččii dárbu molsut "aitto ráhkistan" ja "aitto ráhkásmuvvan" - mo dan livččii vuohkkasamos dahkat?) ## dat maid dovddan ii leat diet ráhkisvuođa dovdu maid {{{áittoráhkistan}${vowc,á-a|aittoráhkistan}}${verb,notcmp|aitto ráhkistan}}€{verb,trans|aitto ráhkásmuvvan} olmmoš {dovda}${verb,á|dovdá} áittoráhkistan => aitto ráhkásmuvvan € man ellegánta!!!! {{áittoráhkistan}€{verb,trans|áittoráhkásmuvvan}}${verb,notcmp|{áitto}${adv,vowc,a|aitto} ráhkásmuvvan} ------------------------------------- Error mark-up dokumentašuvdna: https://giellalt.uit.no/proof/spelling/testdoc/error-markup.html#Orthographic+errors%2C+real-words ??? OLD: Morpho-syntactic errors TEMPLATE: {wrong form}£{pos,gf,cat,orig,errtype|correct form} Errors that require an analysis of (parts of) the sentence or surrounding words to be detected and corrected. In the resulting xml, the element is named . Mark-up attributes: pos { noun | verb | adj | adv | num | interj | pp | cc | cs | pcle | prop |pers | refl | dem | resip | indef | x } gf { subj | obj | advl | fin | infin | spred | opred | pcle | interj | app | conj | pph | x | attr } cat { nomsg | nompl | gensg | genpl | illsg | illpl | locsg | locpl | comsg | compl | ess | sg1prt | sg2prt | sg3prt | du1prt | du2prt | du3prt | pl1prt | pl2prt | pl3prt | sg1prs | sg2prs | sg3prs | du1prs | du2prs | du3prs | pl1prs | pl2prs | pl3prs | attr | pred | word | comp | superl | cmp | imprt | pot | infinite | cond | conneg | ger | vgen | x } orig { nomsg | nompl | gensg | genpl | illsg | illpl | locsg | locpl | comsg | compl | ess | sg1prt | sg2prt | sg3prt | du1prt | du2prt | du3prt | pl1prt | pl2prt | pl3prt | sg1prs | sg2prs | sg3prs | du1prs | du2prs | du3prs | pl1prs | pl2prs | pl3prs | attr | pred | word | comp | superl | imprt | pot | infinite | cond | conneg | ger | vgen | x } errtype { agr | case | tense | mode | number | mix | x } #DOKU: infinite>inf | prfprc LIST @+FAUXV = @+FAUXV ; # finite auxiliary LIST @+FMAINV = @+FMAINV ; # finite main verb LIST @-FADVL> = @-FADVL> @-FADVL-ela> @-FADVL-ine> ; # adverbial of infinite verb outside of the predicate LIST @-F = @-FOBJ> ; # object of infinite verb outside of the verbal LIST @-F = @-FSUBJ> ; # subject of infinite verb outside of the verbal LIST @-F = @-FSPRED> ; # subject of infinite verb outside of the verbal NEW: (lasihit pos:ide: infinitive) #DOKU inf ---------------------------------------- fin - finihtta infin - buot presens partisipp, aktio essiv, infinitive intinite = infinitiiva?