!!!Lingvistmøte Til stades: Inga, Maja, Sjur, Thomas Saker: * Rutinar kring ny infra * Referansekorpus- * twol-testing * lemma-testing (no i sma, snart i smj) !!!Rutinar kring ny infra Ideell arbeidsgang: # rediger # make check # tilbake til 1 til alt er ok # sjekk inn Testdata skal vera direkte i koden (jf twolc-fila) - Sjur lagar tilsvarande rutinar for lexc. !!Almenne rutinar * bugzilla - Inga og Maja har default-andsvaret for kvart sitt språk, men kan senda andsvaret vidare om dei vil (med stutt grunngjeving). !!!Referansekorpus Vi vil ha eit referansekorpus for kvart språk. Det skal brukast til å sjekka at at analysene held seg stabile trass i endringar i koden. Har vi eitt for nordsamisk? Ja, her: {{$GTBIG/gt/sme/corp/testkorpus.txt}}. Innhald i ref-korpuset bør vera: * heile setningar * gjerne setnignar med feil ** ortografiske feil ** morfosyntaktiske feil ** syntakiske feil ** => mål: vi vil sikra oss at feila blir analyserte/ikkje analyserte på ein konsistent måte, slik at vi ikkje får tilfeldig/random/arbitrær variasjon i handteringa av feil * morfologi: ** alle bøyingsformer ** alle stammetypar ** mykje (produktiv) derivasjon ** mange ulike typar samansetjingar ** eksempelord finn de i: $GTHOME/gt/sme/testing/speller-testbed-sme.txt * syntaks: ** lange setningar ** topikaliserte setnignar ** innskotne leddsetningar ** andre uvanlege (men grammatiske!) ordstillingar * fonotaks: all variasjon i ... ** stadieveksling ** omlyd ** vokalreduksjon ** andre morfofonologiske prosessar * kommentarar kan leggjast inn med # som fyrste teikn på lina. Kommentaren kjem først, på lina over setninga kommentaren gjeld. Det kan vera fleire liner med kommentarar etter kvarandre. Mål med data i referansekorpuset: Vi vil ha størst mogleg variasjon og breidde i fonotaks, morfologi og syntaks, slik at vi testar alle delar av dei grammatiske modellane våre. Data skal liggja her: {{{ $GTHOME/newinfra/langs/$GTLANG/test/data/ref-korpus.txt }}} !!!twol-testing Det finst ferdige testpar i twol-filene: {{{ !€# dåeried%>%^DISIMPem !€0 dåer0ed00em !$# dåeried%>%^DISIMPem !$0 dåeried00em }}} {{make check}} vil veldig snart testa desse para, og dermed heile tida gje oss tilbakemelding om alt er ok i twol-reglane. !!!lemma-testing No i sma, snart i smj - i dag? * lemma skal vera felles for alle variantar av stammen! * når ein sorterer, varsku alle fyrst slik at alle kan sjekka inn eigne endringar! !!!LexC-kodingsstandard Her er nokre kodingsideal for LexC-koden vår: * éi lexc-oppføring pr leksem pr stamme * færrast mogleg fortsettingsleksikon * i bøyingsleksikona: skriv ut eksempel på korleis paradigmet skal sjå ut * bruk mellomrom og innrykk i fleng for å gjera koden oversiktleg og lettlesen * bruk kommentarar så mykje som mogleg for å klargjera kva som skjer i koden * kommentarane skal skrivast med ein "nybyrjar i LexC" for auge - ein slik person skalu kunna lesa kommentarane og skjøna kva som skjer i koden. Vi innfører "code reviews" - kodesjekk - av kvarandre, for å auka sjansane for å finna feil, og for å hjelpa kvarandre med å skriva ein meir vedlikehaldsvenleg kode. !!!Oppsummering Vi definerer kva analysene skal vera fyrst, og jobbar oss fram til at vi får det.