!!!Meeting memo 3.1.2011 Topics: * end of collection of Norwegian documents * spørsmål "trigget" - er dette ordet tatt UT av norsk-ordboka på dokpro? Ser ut som at det bare finnes i forrige utgave? "…nå blir den ikke trigget før du igjen kommer…" Nå har dokpro tydeligvis endret layout og motor, men linken jeg ble sendt til var http://www.nob-ordbok.uio.no/perl/ordbok.cgi?OPP=trigget&ordbok=bokmaal&forrige=ja& (se "forrige=ja", interessant) * kilder 20177 ord for i in `find |grep correct.txt$`; do cat $i |tr " " "\n" >> feilord; done cat feilord |egrep -c "[[¥€$£] ca 784 feil Lister: * nob-001.txt http://home.c2i.net/kaaby/historie/antidemo.htm * nob-003 http://www.essay.org/school/norwegian/beatels.doc * nob-005 http://www.essay.org/school/norwegian/bjorn.doc av Geir Vatland, mens originaldokumentets metadata påstår Johan Fredrik Øhman. * nob-006 http://www.essay.org/school/norwegian/asbmoe.doc av Geir Vatland, mens originaldokumentets metadata påstår Johan Fredrik Øhman. En del leksikale feil samt og/å-feil. * nob-007-dyreplageri http://www.propaganda.net/skoleside/?stil=9126 Mest ord delings feil. Åpenbart skrevet i harme av Marius Lian (mailadressen er antakelig også stavet feil: marius_lina@hotmail.com men dette kan være med vilje for å unngå spam) FACTA Norske pass har mange skrivefeil til å være et så lite dokument (men for få feil til å tas opp her tror jeg) http://www.dn.no/forsiden/utenriks/article1969281.ece?WT.mc_id=dn_rss * nob-009-ekkolodd om Eagle 300 Cuda fra http://webserver.flak.no/vbilder/12801.pdf En del stavefeil, noe hyperkorreksjon og ord delings feil. Konvertert til tekst med pdftotext og så ryddet bort en del unødvendig før korreksjonen. NEWS * nob-002-klaraklok_familytrouble.correct.txt http://www.klara-klok.no/wips/440185332/caseId/859713681/ * nob-004-forsvarsdebatt.txt http://vgd.no/samfunn/forsvar/tema/1438653/tittel/norks-forsvarspolitikk (synes denne er ment å være et seriøst innlegg, kan det gå gjennom som news mon tro? De fleste andre på siden skriver bra.) NB her var det en god del syntaktiske feil, som jeg ikke fikk til å "neste" inni hverandre. Men stavefeila er der. * nob-008-slapphet Kan denne gå igjennom mon tro? Det er en artikkel med nokså god grammatikk og lite slurveskriving. En del feil ord og stavefeil. http://www.klara-klok.no/wips/722538495/caseId/398505412/ av Gutt 18år * markup discussion Ekstra feilkoder comps = sinnsyke (mangler bindebokstav, sinnssyke) Har brukt denne også for manglende bindestrek - Uttalen endrer seg ikke særlig, [[sinnsyke sinssyke sinns-syke] i motsetning til "compe" under. compe = kjørglede (mangler e, kjøreglede) comp0 = potetskoker (skal være ingen bindebokstav, potetkoker) comp = bruker heller "nosplit" for det er riktigere for norsk. redup = duplikerte ord (det var ingen ingen hjemme) men ikke feil med: "det var det det gjaldt" syll = ekspansasjon (stavelse for mye, ekspansjon). Satt flyve (fly) i samme kategori, men det burde kanskje hett Dansk->norsk? Satt også manglende enkeltstavelser her: istedfor -> istedenfor nosplit = skulle ikke vært delt: annen hver (annenhver) split = skulle vært delt: dengang (den gang) doubc = double consonant missing, common error in norwegian: eterpå (etterpå) onec = should be one consonant, common error in norwegian: misstanker (mistanker) nosilent = should not be a silent letter: aldrig (aldri) mens nydelig er riktig. Putter Skjømannsvis (sjømannsvis) og forskelige/forskjellige i samme kategori, men det er vel egentlig en annen type lydfeil? skjøtt, skjøre/kjøre? silent = should be a silent letter, allti (alltid), spansk: alar (halar) doubsyl = mangler en [[repetert] stavelse: halvsøskene (Mangler -ne- : halvsøsknene) ligner dobbelkonsonant-feil. create = "nye" eller kreative ord, som "utskjeller". Står ikke i bokmålsordboka, men Google har en del treff. Treffene er mest feilbøyd "han utskjeller" istedenfor "han skjeller ut", men det er også en del "han er en utskjeller" synes teknisk sett det er rett, men merker det med "rett ord"="feil ord" i tilfelle... hyper= "hyperkorreksjon", ord som antageligvis er "rettet" av word/openoffice, men som ble feil. Typisk eksempel er å bruke engelsk språk i word/writer og skrive norsk. i blir da rettet til I, som er korrekt engelsk. --Ikke tatt i bruk:-- (Burde kanskje hatt en markup for "best effort word split"?: 'fotball laget kan jo ikke skrives fotballlaget, så jeg deler det') expr = (Burde hatt kanskje markup for "feil i fast uttrykk"?: "men det er litt både også"= både og) (BETYR "prop" Proper noun, egennavn? Tror nesten at Beatles kunne stått i ordboka...) (Burde nok ha egen og/å-feil? Det er vel en [[morfo]syntaktisk feil?) Setter foreløpig leksikalsk feil €(conj,w|og) (Burde kanskje hatt en egen markering for [[del]setninger som er ufullstendige, eller så usammenhengende at det ikke er mulig å se meningen? "…, denne generasjon som ble mistet da alle sine idealer som skal til for unge mennesker.") (Hva med plural eller genitiv lånt av andre språk: "fikk Moe av brødrene Grimms" (the Grimms) kanskje? eller kan være en skrivefeil) (Hva med skrivefeil som ikke er ortografiske feil? "hentet inn fra gjordet" [[for det første er gjordet et verb i preteritum. "fra"+verb = NOK?] ) sound = (Lydfeil? "selvgift" = "cellegift", "serlig" = "særlig". Kanskje "venna mine" [[vennene mine] kunne havnet i samme kategori. Eller det skulle vært i slang/talespråk-vs-skriftspråk-kategorien. Eksprimentere er et eksempel til.) ==Ekstra attributter== art = attributt som skal forestille "article" : en, ei, et pfct = [[pluskvam]perfektum [[partisipp eller ikke] = perfect (partisipp) "jeg gikk i tiende klasse inså$(v,doubc|innså) jeg at jeg hele livet (hadde tror)£(v,gf,pfct,sg1prs,tense|hadde trodd) jeg skulle dø eller komme i fengsel" sg3prt = singular 3rd preteritum Ting som er for vanskelig å merke/logiske feil Er merket med grønn bakgrunn i arbeidsdokumentet. (opendocument) eks "Jeg hadde aldri tenkt på at jeg skulle noen gang jobbe" og "Jeg satt å [[sic] tenkte på å bli skuespiller eller rørlegger, så inni meg tenkte jeg aldri at det kom til å skje." "Dorthe delte nyheten om at hun var gravid med venner og familie" * script bugs • Doble anførselstegn " lager trøbbel, alle feilmarkeringene blir borte i xml-filen. Feilen begrenser seg til nærmeste resulterende
paragraf. I originalteksten må det to etterfølgende linjeskift (en tom linje) til for å "stoppe" feilen. Har som en nødløsning brukt apostrof, men da har jeg måttet endre originalteksten fra " til '. Kanskje en manglende escaping av " kanskje? • Paranteser lager trøbbel: "Alt du trenger å gjøre er å trykke på (PWR) knappen". Hvis jeg vil markere: ((PWR) knappen)$[[rettelse], så går det dårlig • Tegn før parentes lager trøbbel: "fart/trolling fart". Hvis jeg vil markere: "fart/(trolling fart)$[[retting]", så går det dårlig. • Tegn etter parantes lager trøbbel: "silicon=luft". Hvis jeg vil barkere: "silicon$(rettelse)=luft", så går det dårlig. • Et linjeskift inni en feilmerking gjør at feilmerkingen forsvinner helt fra den resulterende xml-filen. [[har bare sjekket nob-005, bør kanskje sjekke nob-001-004] Står det en "Dette er en (skriveleif med linjeskift)$(noun,typo|skrivefeil med linjeskift) inkludert." , blir resultatet i xml-filen: "Dette er en inkludert." * konverteringsskriptet finst i: ** $GTHOME/gt/script/langTools/Corpus.pm: add_error_markup{}