Grammatikkontroll - oppstartsmøte 18.11.2015
!!!Status for arbeidet som er gjort til no:
Linda:
* real-word errors
* syntaktiske feil:
** kongruens
** kasusfeil med passive verb
** kasusfeil med adposisjoner
** kasusfeil etter numeraler
** adjektivfeil (attributiv vs. predikativ form, feil ved komparering)
** bruk av pronomen (refleksiv vs. personlig pronomen)
** numerus feil (numeraler + substantiv)
** leksikalske feil
* lister med flaue feil? (norsk: 'driften' feilstava som 'dritten', osb.; du vil typisk alltid flagga det ordet)
* valensfeil:
** har testa dei verba som er annoterte
** 0,77 % presisjon (kan vera betre no)
** må annotera fleire verb
** potensielt ei stor gruppe feil (kasusfeil og andre feil)
* oppdagar heile tida nye feil
* grammatikkontrollen finn feil som Duomma ikkje ser med ein gong :)
Vi har (nesten) ikkje jobba med:
* sammensettingsfeil: særskriving og samskriving:\\
«Hui ollusat leat dušše geavahan ''luohte oasi'' ja Sverre Kjelsberg oasi leat
guođđán, dadjá Simona Máhtte ja lohká son ii dieđe manne Sverre Kjelsberg ii
lean mielde Gylne Tider joavkkus.» -- "luohteoasi"\\
«Dattetge ballá son ráđđehusa ''guolástan politihkka'', gos eriid sáhttá
gávppašit, bágge smávvaguolásteaddjiid gáddái.» --- "guolástanpolitihkka"
** lister med unntak
** slå opp to og to ord som eitt ord
* tegnsettingsfeil
!!!Punktar til ein arbeidsplan
* workshop med språkbrukarar, som kan gje synspunkt på feiltypar
** kva er det folk ventar seg?
** kva er det dei opplever at dei treng hjelp med?
* kontakt med språknormeringsorgan
* forslagsmekanisme
* webdemo (via Google Code-In (Fran, Kevin)?) -- [[FMT] Lik som LanguageTools webdemo fungerer? -- https://www.softcatala.org/corrector (i januar?)
* distribuerbar binærfil for LO (alfa) til hausten?
* GC-arkitektur
* hfst-proc2
* byta ut lookup2cg (perl) med cgconv + konvensjonar for cg-subreadings
!!!Program for dagane
Tysdag:
* 13-14 - Francis presenterer koden sin for Kevin (og Sjur) [[på IRC]
Onsdag:
* 9.00 - Kevin presenterer dei norske grammatikkontrollane
* 10.00 - Linda presenterer delar av det nordsamiske arbeidet
* 11.00 - Diskutera feiltypar vi vil satsa på ut i frå det vi har sett til no
!!!Onsdag kl 9 - Kevin presenterer nn/nb
Pipeline for nn/nb:
{{{
teiknsetijngshack -- ka er det?
-- «(kake )» vanlegvis tokenisert som "(" "kake" ")" – men då forsvinn feilmellomrommet før «)»
-- hack: gjer om " )" → "\ )"
| morf.analyse (tokenisering inkludert) -- fst, deskriptiv med feiltaggar
| særskrivingsoppslag (burde sikkert vore i steg 1)
| stavekontroll (burde sikkert òg vore kombinert med steg 1 …) -- hadde den tilgang til morf. kontekst? ja, men ikkje brukt -- kosjn fungerer det praktisk sett, kjøres den to ganger?
| morf.disambiguering (OBT)
| syntaksdis (OBT)
| enkel dep/chunking --- kosjn elementer la du dep til? berre NP-chunking
| grammatikkfeilreglar
| forslagsgenerering
}}}
brukte du statistikk?
* helst offline, listegenerering
* særskriving online: frekvens(ananasringer) > frekvens(ananas ringer)
* burde skje: full dokumentfrekvensliste før køyring, for å oppdaga korrekte,
men ukjende ord
* kor sjekka du tegnsetting og formateringsfeil (dvs. linjeshift som gjør at to
setninger ser ut som ett osv.)
** teiknsetjingshack la til spesialteikn
{{{
«kort setning her§
meir»
«kort setning her§meir»
}}}
Og:
{{{
«Setning her.
Ny paragraf»
«Setning her.
Ny paragraf»
}}}
* input: {{^ananas/ananas$ ^ringer/ring/ringe$}}
* slå opp __ananasringer__
* output: {{^ananas/ananas$ ^ringer/ring/ringe$}}
* input: «vi riner i telefonen»
* før morf.dis, etter stavekontroll:
{{{
""
"ringe" vblex pres !stavefeil
"ring" n pl !stavefeil
}}}
* etter dis:
{{{
""
"ringe" vblex pres !stavefeil
;"ring" n pl !stavefeil
}}}
!!!Pipeline for sme
{{{
morf. analyse (deskriptiv, noen feilanalyser)
| legge til valenstagger til verb via CG (SUBSTITUTE)
| disambiguering + syntaktisk analyse
| grammatikkontroll
}}}
* feilfinningsregler+korrigeringsregler for real word errors - lokale feil
(refererer ikkje til dep/sem.rolle)
* et sett med dependensregler for
** innafor adposisjonsfraser
** korrekte argumenter av verb
* et sett med SUBSITUTE regler som legger til semantiske roller for argumenter av verb
* globale feilfinningsregler+korrigeringsregler
** valensfeil
** kongruensfeil
** osv.
REAL WORD ERROR:
{{{
""
"dego" CS @CVP MAP:7549:r10 #17->17
; "de" Adv Qst REMOVE:5693:r1076
; "dego" CS @CNP MAP:7549:r10 REMOVE:7726:r1459
""
"leat" V IV Cond Prs Sg3 @+FAUXV MAP:9983 #18->18 SUBSTITUTE:5846:SubV=aux SUBSTITUTE:7318 SUBSTITUTE:5846:SubV=aux SUBSTITUTE:7318 SUBSTITUTE:7911
"leat" V IV Cond Prs Err/Orth Sg3 @+FAUXV MAP:9983 #18->18 SUBSTITUTE:5846:SubV=aux SUBSTITUTE:7318 SUBSTITUTE:5846:SubV=aux SUBSTITUTE:7318 SUBSTITUTE:7911
""
"ballat" V TV PrfPrc @-FMAINV SELECT:9474:r1852 MAP:10044:r409 &real-ballán #19->19 ADD:4953:real-ballán SUBSTITUTE:5845:SubV=mv ADD:4953:real-ballán SUBSTITUTE:5845:SubV=mv
"ballat" TV PrfPrc @-FMAINV SELECT:9474:r1852 MAP:10044:r409 V TV &SUGGEST #19->19 COPY:4954:real-ballán SUBSTITUTE:5845:SubV=mv SUBSTITUTE:5845:SubV=mv
"ballat" TV PrfPrc @-FMAINV SELECT:9474:r1852 MAP:10044:r409 V TV &SUGGEST #19->19 COPY:4954:real-ballán SUBSTITUTE:5845:SubV=mv
; "ballat" V TV Actio Gen SELECT:9474:r1852
; "ballat" V TV Actio Nom SELECT:9474:r1852
; "ballat" V* TV* Der/NomAct N Sg Gen SELECT:9474:r1852
; "ballat" V* TV* Der/NomAct N Sg Nom SELECT:9474:r1852
; "ballat" V TV Ind Prt ConNeg SELECT:9474:r1852
""
"eret" Adv @20
""
"doppe" Adv Sem/Plc @21
"<.>"
"." CLB #22->22
}}}
{{{
""
"ruošša" G3 N Sem/Hum Sg Nom @SUBJ> MAP:17047 &msyn-valency-loc-acc #1->1 ADD:8336:wrong-valency-loc-acc
"ruošša" G3 N Sem/Hum Sg Acc @OBJ> MAP:17169:IfNoTransV< &msyn-valency-loc-acc #1->1 ADD:8336:wrong-valency-loc-acc
"Ruošša" N Prop Sem/Plc Sg Acc @OBJ> MAP:17169:IfNoTransV< &msyn-valency-loc-acc #1->1 ADD:8336:wrong-valency-loc-acc
"Ruošša" N Prop Sem/Plc Sg Nom @SUBJ> MAP:17047 &msyn-valency-loc-acc #1->1 ADD:8336:wrong-valency-loc-acc
"ruošša" G3 N Sem/Hum Sg @OBJ> MAP:17169:IfNoTransV< Loc &SUGGEST #1->1 COPY:8350:wrong-valency-loc-acc
"Ruošša" N Prop Sem/Plc Sg @OBJ> MAP:17169:IfNoTransV< Loc &SUGGEST #1->1 COPY:8350:wrong-valency-loc-acc
; "ruošša" A Attr REMOVE:5438:r1016
; "ruošša" G3 N Sem/Hum Sg Gen REMOVE:11494:r2269
; "Ruošša" N Prop Sem/Plc Sg Gen REMOVE:11494:r2269
""
"bealde" Po @ADVL> MAP:16517 #2->2
"bealde" Adv @ADVL> MAP:16517 #2->2
; "bealde" Pr REMOVE:5888:r1123
""
"ballat" V TV Ind Prs Pl3 @+FMAINV MAP:9988:r406 #3->3 SUBSTITUTE:5728:SubV=mv SUBSTITUTE:5728:SubV=mv
; "ballat" V TV Imprt Pl2 REMOVE:9256:NotImprtN
; "ballat" V TV Ind Prt Sg2 @+FMAINV MAP:9988:r406 REMOVE:14227:allPrtSg2
""
"mánná" N Sem/Hum Err/Orth Pl Gen #4->4
"mánná" N Sem/Hum Pl Gen #4->4
"mánná" N Sem/Hum Err/Orth Pl Acc @ #4->4
"mánná" N Sem/Hum Pl Acc @ #4->4
"