!!!TTS-arbeidsplan !!Prioritering: # Preprosessering # Ispedd andre ting !!Lingvistikk * tekst-til-ipa (fonologiske reglar) - forbetringar * modell av samisk prosodi (diskuter med __Patrik__) * forbetringar av taggaren for å matsje prosodimodellen * Diskutere prosodi med Helsingfors * Snakk med Patrik om kva vi vil ha !!Preprosessering Konvertering av ulike slags forkorta uttrykk til rein tekst, som deretter kan konverterast til ein fonologisk streng. * arabiske tal: sme-num.txt ** {{cd gtsvn/gt/sme/src/}} ** {{xfst -e "read lexc sme-num.txt"}} ** {{up}} ** {{234}} ** [http://www.stanford.edu/~laurik/fsmbook/examples/NumbersToNumerals.html] * romartal: ser ut til at det ikkje er dekka ** det finst fst-ar ferdig for romartal til arabisk ** [http://dingo.sbs.arizona.edu/~sandiway/ling538-08/lecture18.pdf] * forkortingar: ikkje dekka * datoar: delvis dekka ** common/src/num.txt gjev datotagging ** Neste skritt er dato-til-ord (ikkje gjort) ** B-Á: skriv oppsett for dato-til-ord, som vi kan formalisere ut i frå * klokkeslett: clock-sme.lexc 12:35 -> ord * titlar: ikkje dekka (er ikkje dette forkortingar? ja, truleg) * ukjende namn, inkl namn med boktavar som ligg utanfor dei nordiske alfabeta Kasusbøying av taluttrykk som del av ein kasusbøygd frase/NP {{{ cd gtsvn/gt/common/src/ xfst -e "read lexc num.txt" save num.fst lookup num.fst 12.12.1234 }}} Andre talformat {{{ 6,50 seks-femti kuus-ja-viiskymmentä 12 23 23 77644000 => 77 64 40 00 linjetelefon initial 2, 3, 6, 7, 8 95500234 => 955 00 234 mobil initial 4, 5, 9 12345678 => 12 345 678,- NOK/€ 12.345.678 => 12 345 678,- NOK/€ }}} fst for desse og andre talformat !!Arbeidsoppgåver Børre: * Sett opp dokumentasjonsinfrastruktur for tts B-Á ser på: * eksisterande kode: ** gt/common/src/num.txt ** gt/sme/src/sme-num.txt * kompiler og vurder og sjekk om det finst andre ting også * fsmbook.com * skriv kvasikode på det som manglar * skriv preprosesserings-dokumentasjon inn i doku-ramma B-Á, T, S: * skriv automatar ut i frå kvasikode !!Informantar * Mannleg røyst -- Per K. Hætta? ** B-Á: snakk med han / NRK? !!Samarbeid Ta kontakt med Helsingfors univ. * Sjur, deretter alle. !!Andre samiske språk? I kor stor grad skal vi ha med dei andre språka frå starten av * Preprosessering på sma, smj parallelt med sme-arbeidet ** Først gjere sme (prøve og feile) ** Deretter gjere sma, smj (før vi gløymer korleis vi gjorde sme) * Ferdige opptak av alle tre språk ** Lage tekstar ** Finne folk til å lese inn * Tekst-til-IPA ** __Berit Ánne, Thomas, Patrik, Trond, Bruce, lulesame __ (mest mogleg Bruce) ** __Berit Ánne, Thomas, Patrik, Trond, Ove, sørsame__ (mest mogleg Ove) ** Manuelt setje inn pausemerke i tekstane til lydbanda