Onsdagsmøte 21. oktober 2015 Tilstede: Trond, Ciprian, Marja-Liisa, Lene !!!Saksliste: * MT-phd-stillinga * Programmerarstillinga * Bidix * MT-veka * Korpus * Korp og korpusdataene !!MT-phd-stillinga Vi har ikke aktuell søker, så det blir ny utlysing så snart som mulig. Trond vil ta kontakt med aktuelle folk så snart utlysinga er på nett. Siden det tar tid for å få en person i denne stillinga, så får Lene hovudansvar for implementering av transferreglar. !!Programmerarstillinga Vi rangerer lista denne veka. Vi får ekstern hjelp om et par dager (når?) til å organisere intervjuene. !!Bidix Ulike måtar å få ned homonymien: !Ta sme-smn og: # tilpass data (erstatt initial nordsamisk bdg med ptk, osb) # Ta Levenshtein (redigeringsavstand) og gå for det beste resultatet Er det mange falske vener (som fi. piimä est. piim)? {{{ smn puddo sme "buddu" fin "rippa" - boddu puddâ sárnuđ - sárdnut - denne er ok, samme betydning smn og sme sárdnut - báhppa sárdnu (goit Suoma bealde ná) särniđiđ - sárdnidit sárnuđ - hupmat ohjelm - prográmma täsni - násti puško - havga }}} dette er eit problem viss # prográmma - progámm <== Levenshtein-kandidat # prográmma - ohjelm <== korrekt? Men dette moteksemplet gjeld ikkje. Realiteten: prográmma N ohjelm N {{{ sárdnut V sárnuđ V <==== sárdnut V šumpârdiđ V sárdnut V mullârdiđ V sárdnut V päksiđ V sárdnut V njunevuálástiđ V sárdnut V palijdiđ V sárdnut V šuáláđ V sárdnut V pompestiđ V sárdnut V ucástittiđ V sárdnut V mođárdittiđ V sárdnut V suomâstiđ V sárdnut V sámástiđ V sárdnut V šlobârdiđ V sárdnut V teŋkkiđ V sárdnut V huáttáđ V sárdnut V huávristiđ V OBS oa:uá sárdnut V šlarvâdiđ V sárdnut V mevristiđ V sárdnut V snuollâđ V - snoallat sme? OBS oa:uo (snoallat ikkje i bidix, men i smefin) sárdnut V ronedâttâđ V sárdnut V semmuđ V sárdnidit V särnidiđ V <===== suomagiella N suomâstiđ N hupmat V suomâstiđ V hállat V suomâstiđ V sárdnut V suomâstiđ V hoallat V suomâstiđ V }}} Sjekke verb mot verb med Levenshtein. Vi lagar ein enaresamisk "stavekontroll" som består av berre infinitivar, vi enaresamifiserer nordsamisk, og vi plukkar ut kognatar. Enaresamifisering: * bdg til ptk * oa til uá !TILTAK: # plukke ut kandidater fra synonymlista med Levenstein # check MWE fra smn-parantes i fin2sme-dataene # sme-fin verb som ikke blir med i bidix: bruke stavekontroll med kun verb i infinitiv, for kandidater ## kandidater skal sjekkes manuelt # andre ord som ikke blir med i bidix: bruke stavekontroll for å lage kandidater ## kandidater skal sjekkes manuelt !!MT-veka En ny bidix er klar til MT-uka !Reise * søndag Tromsø-Oulu: 16:30 Tromso 19:50 Uleåborg * fredag Oulu-Tromsø: 11:40 Uleåborg 13:00 Tromso Kevin til lunsj onsdag evt. fredagsprogram ML, Kevin, Erika {{{ a Bil Uleåborg: Ciprian, Lene, Trond, ML Bil Rovaniemi: Kevin b Bil Uleåborg: Ciprian, Lene, Trond Bil Rovaniemi: Kevin, ML Buss Rovaniemi-Salla ML c Bil Uleåborg: Ciprian, Lene, Trond Bil Rovaniemi: Kevin Bil Rovaniemi: ML }}} __Tidspunkt: 2-6. november__ __Sted: Salla__ !Innhald: * Kva er MT, om prosjektet * Teknisk: Maskiner skal fungere * Metodisk: Arbeidsrutiner * Lingvistisk: ** Arbeide med MT-transfer (syntaks) ** Arbeide med bidix (andre aspekt) ** Arbeide med bidix (ordbøkene) (jf. lista på tavla) !Forarbeid * Installere Apertium og finne parallelltekstar * Setje opp pending tests - på Apertium-wiki * Gå gjennom tagproblem og løyse dei * Lære/diskutere om transferregler * Sikre oss at vi har eit fungerande system * Arbeide med sme-smn kontrastiv grammatikk (Google-dokumentet) (*) !Forslag til innhold i MT workshop: * Dag 1 ** Lære om Apertiums moduler - 2 t ** Teste med parallelle finsme og finsmn tekster - begynne å se på problemer - 2 t ** Hva er arbeidet som skal gjøres og hvordan - 2 t * Dag 2 ** Bli enig om hvem som skal gjøre hva, og sette igang med arbeidet ** Pending tests og regresjonstester - wiki * Dag 3 ** Sammenlikne sme og smn lingvistisk, morfologiske tagger og derivasjoner - dag 3 * Dag 4 ** Arbeid !Suggestion for who will do what in MT work (but details we'll discuss at the workshop) * Collect parallel texts, finsme - finsmn (Neetä) * Collect missing word pairs in parallel texts, finsme - finsmn (Erika) * Check word pairs in bidix, perhaps 6.000 ? (Miina, ML, Neetä) * Look at closed parts of speech in bidix (ML) * Come up with more word pairs, perhaps 14.000 ? (Miina, Neetä) * Make sure that all new words are in the smn lexicon (Erika, ML) * Fix FST errors (ML, Lene, Trond) * Make sure that the tags are parallel in sme and smn (ML, Lene, Trond) * Examine parallel tests and formalise rules (ML, Erika) * Implement lexicon selection rules (ML, Lene, Trond) * Implement transfer rules (Lene, Trond) !!!Korpus Denne rakk vi ikke å diskutere. !!!Korp og korpusdataene Diskusjon. Prinsipp for taggdokumentasjon for brukere: På de sidene hvor det er relevant for brukeren. Lene ser på innholdet..