Saksliste Sjur og Trond 4.11.14. Saker: * Nyinfra for sme * Forrest * Korpusinnsamling * Bugzilla * hfst * oppsummering av tts-betatestinga * cg-taggar og apertium (russisk) !!!Nyinfra for sme Vi vil ha - kva står att? Taggen {{+Use/NA}} er no fjerna frå lexc. Den eine staden der han var i bruk er han endra til {{+Use/MT}} (på linje med sma), med innhaldet ''fjern i andre fst-ar enn apertium-generering''. Dermed er han ikkje noko hinder for flyttinga. Lokaliserte taggar: {{{ src/analyser-nob-desc.xfst src/analyser-nob-norm.xfst }}} Konverteringa er definert i {{src/tagsets/nob.regex}}. I tillegg må ein be om at fst-en blir bygd, ved å leggja til liner som dette i {{Makefile.am}}: {{{ if WANT_MORPHOLOGY GT_ANALYSERS_XFST+= analyser-nob-desc.xfst \ analyser-nob-norm.xfst endif # WANT_MORPHOLOGY if WANT_GENERATION GT_GENERATORS_XFST+=generator-nob-desc.xfst \ generator-nob-norm.xfst endif # WANT_GENERATION }}} NB! Språkkoden i fst-namnet og i tagsetfila må vera den same. Namnet -nob- refererer dermed til språket på (dei lokaliserte) taggane, ikkje til språket i automaten. (dvs -nob- istf. -gt-) Konklusjon: er vi klare til å flytta? Vi manglar svart frå Ciprian. Funkar ny infra for dict-genereringa? Når svaret på dette spørsmålet er ''ja'' er vi klare til å flytta. Ciprian har problem med vislcg3, Sjur legg inn støtte for å slå av syntakskompilering, deretter kan Ciprian byggja og testa morfologiane slik han vil utan vislcg3-interferens. !!!Forrest Korleis går det? # kløyv gtuit-forrest i to likt Divvun # bygg ut gtuit til å vera fleirspråkleg slik Divvun er det # lag felles techdoc Tidsplan: Denne/neste veke. !!!Korpusinnsamling jf. siste referat om romanar/oversyn. Vidare oppfylging etter Uppsala. !!!Bugzilla Betre politikk for prioritering: * Den som meldar inn buggen set alvorlegheitsgrad ** (feature request ... blocker). ** Så kan sjølvsagt alle involverte revidere alvorlegheitsgraden viss det viser seg at buggen er meir/mindre alvorleg enn vi først trudde. * Trond/Sjur/eigaren set prioritet ** (P1 ... P5) * Vi tar prioriteringane alvorleg, og lar det vere samsvar med P og realitet. __bug 1363__, derivasjonar, hash og twol-reglar __Trond__ skriv ein meir konkret kommentar. !!!hfst Kjappare no? Lookup er mykje kjappare i 3.8.1 enn i 3.8.0. Ingen andre endringar. !!!Oppsummering av tts-betatestinga På ein skala frå 1 til 5 (best), vart røystene vurdert slik: {{{ MOS-samandrag: Divvun/UiT: Acapela: MOS norsk kvinnestemme: 3,71 3,71 MOS samisk kvinnestemme: 3,68 3,68 MOS norsk mannsstemme: 3,76 3,76 MOS samisk mannsstemme: 3,61 3,62 }}} Andre ting: * testen var ei nyttig røynsle, bra å ta med vidare. * viktig å sjekka kor lang tid det tek å gjennomføra testen * vi har no referansemateriale for framtidige eigne tts-system !!!cg-taggar og apertium (russisk) * Situasjonen var: langs/rus: +N i fst, n i cg * Trond endra til: langs/rus: +N i fst, n N i cg Vi vil ikkje ha manuelle endringar, vi vil ha automatisk konvertering. Frå IRC/#hfst: {{{ [09:59am] spectre: TinoDidriksen, would it be hard to write a program or option for vislcg3 that reads a grammar file and outputs a list of tags/symbols and sets ? [10:04am] TinoDidriksen: spectre, that'd be trivial... [10:07am] spectre: and how about a program that rewrites them ? [10:07am] spectre: e.g. we'd like to make the CGs work with >1 tagset [10:08am] spectre: the first step is to get rid of inline sets [10:08am] TinoDidriksen: Just include the separate tagsets. [10:09am] spectre: ugh [10:09am] spectre: that's hideous [10:09am] spectre: sjnomos, --^ [10:09am] TinoDidriksen: Have 2+ parent grammars that include the tagset and independent rules. That's how you'd do it in XML as well. [10:09am] spectre: in the FSTs we have relabelling scripts [10:10am] TinoDidriksen: That's an option. [10:11am] spectre: i have an awful python script for relabelling the sámi CG [10:11am] spectre: but it just lowercases everything with some mangling [10:11am] TinoDidriksen: I just don't understand why you put this into the FSTs or CGs. Why isnt this a filter program in the chain? [10:11am] spectre: tagsets are shitty [10:11am] spectre: filter programs don't work [10:13am] TinoDidriksen: If you can relabel them mechanically, I don't see how a filter is impossible. [10:13am] spectre: you can't relabel them fully automatically [10:14am] spectre: there are always holes [10:15am] TinoDidriksen: Are the conversions 1:1? That'd be easy to add to CG. [10:15am] spectre: many:many [10:17am] TinoDidriksen: Hm. Well, I will make CG-3 dump single tags. How do you want sets dumped? Their whole definition, or just names, or what? [10:18am] spectre: whole definition }}} Konklusjon: Vi vil ha russisk fungerande både i nyinfra og i Apertium, og fungerande, språkuavhengig tagkonvertering for CG. Genererte tagsetfiler blir ikkje ignorerte. Trond ser på {{set-svn-ignores-langs.sh}} for å retta på dette. Det gjeld: {{{ ? sme/tools/mt/apertium/tagsets/apertium.relabel ? sme/tools/mt/apertium/tagsets/apertiumtags.txt }}} Filer som: {{{ ? src/morphology/stems/smi-propernouns.lexc ? src/morphology/stems/smi-sme-propernouns.lexc }}} er gamle og skal slettast.