Sjur- og Trondmøte 1.10.2018 !!!Saksliste * preprosessering, segmentering * Irrelevante aggar i disam-analysatorane * Bugzilla !!!preprosessering, segmentering Vi arbeider med hfst-pipeline, ser på diskusjonen og Bz. Linda ser på dette i dagane som kjem. Vi ser alle på gullkorpus Vi vil ta hfst-proc i bruk i cgi-bin og i smedis (__Trond__) * abbr -- sjur driv med omorg av sme * sma -- her har sjur laga nytt mønster slik vi vil ha det. Arbeidet med LIA og Korp held fram (Ciprian, innspel frå alle). !!Tentativ klassifisering av setningsgrenseidentifisering: Abbr-transitivitet: * transitiv = må vere same setning * intransitiv = kan vere same setning, men må ikkje Tentativ rettesnor: Korrekt tekst: * Foran namn med stor bokstav: Transitiviteten avgjer * Foran anna ord med stor bokstav: Alltid setningsgrense * Foran liten bokstav: Aldri setningsgrense * Foran (arabiske) tal: Transitiviteten avgjer Grammatikkontroll: * Foran liten bokstav: Transitiviteten avgjer * Foran stor bokstav: Transitiviteten avgjer??? * Foran namn med stor bokstav: Transitiviteten avgjer * Foran arabiske tal: Transitiviteten avgjer !!!Irrelevante taggar i disamb-analysatorane Lene har fjerna irrelevante taggar for samiske språk, Trond ser på andre språk. !!!Bugzilla Buggar opna i september {{{ Sev Pri Assign Reportr Comp Summary Comment&Action 2517 cri P2 Jack Lene Morpholo xfst sms does not compile: doesn't find ProperNoun-smi- - easy, should be done imm -> P1 2516 enh P5 Børre Lene Corpus a smn analysen inneholder tagger - Trond + Sjur ser på dette 2513 enh P5 Sjur Lene Continua V+Ex/IV+Der/PassS+V+ - major, requires time -> P3 2512 maj P2 Thomas Lene Continua Analyse for dynamiske sammensetninger bokstav + tall - ikkje berre Thomas, alle må sjå på dette --> møte 2511 enh P5 Sjur Lene Analysis tegn som ikke blir gjenkjent som missing - private use, irrelevant 2510 enh P5 Lene Lene Tags Ha acronymer som er propernouns i smi-propernouns - krev diskusjon -> møte 2509 maj P2 Børre Lene Corpus a HFST-korpusanalysen klarer ikke URLer - berre på Linux ser det ut til (Stallo, hjå Børre), melding sendt til hfst 2508 nor P5 Ciprian Sjur lookup2c lookup2cg forvrenger sma-lemma - er det noko å prioritera? Sjå på det, evt WONTFIX? 2507 nor P5 Sjur Sjur Analysis Handteringa av tvetydig setningsinndeling og abbr - jobbar med saka 2506 nor P4 Thomas Lene Continua Skrivefeil som blir godtatt som Px-substantiver - ventar på at Thomas blir frisk }}} Ny prioritering? Sjå merknader over, i merknadsfeltet til høgre.