!!!Talesyntese !!Norsk minitalesyntese Bør bli inkludert for å få rimeleg god opplesing av norske sitat og andre norske tekstfragment og norske namn inne i samiske tekstar. * språkgjenkjenning <==== VI? Ja (hm, det vi har er perl-basert, funkar ikkje i ein runtime på ein PC) * integrera norsk ort2fon * vi treng eit passande korpus * finst det ferdige ressursar for alt bortsett frå opptak? -> språkbanken ** kva då med integreringa med resten av systemet? den norske ort2ipa-delen burde kunna vera ein svart boks !!Testverkty * få verkty for å produsera syntese frå H.fors? Ev. få dei til å generera stemmen for oss Dette treng vi for å sjekka at alle dei ulike delane av preprossesseringa blir rett. * pause og ytringsfinale endringar framfor pause (t.d. t vs h av '-id') * talordskonvertering til tekst: ** svært kontekstavhengig: 2-3 - 'to-til-tre', 'to minus tre' eller '(dei tapte) to tre'? ** kan med fordel bruka disambiguering før tal-til-tekst-konvertering Preprosessering, forslag til oppbygging med fst + cg: # morfologisk analyse # disambiguering (m.a. kasus på tal, rett grunnform (korte vs lange vokalar andre enn a), osb) ## må gje berre ein analyse til slutt, slik at vi berre har éin analyse å generera ut i frå ## må handtera ukjende ord "rimeleg", dvs slik at vi får ein sannsynleg analyse ### heilt ukjende ord: berre sleppa dei gjennom, og lata ein generell tekst-til-IPA-konverterar gjera alt ### ukjende ord med noko som liknar kasusending: regelbaset konvertering av endinga # (konvertera alle forkorta uttrykk til tekst med basis i analysert versjon) # generera IPA frå grunnform + analyse (her kan vi truleg gå rett frå forkorta uttrykk og sifferuttrykk til IPA) Tilgang til grunnform (via generering) vil rydda opp mykje når det gjeld vokal- og konsonantlengde. Ein annan fordel med modellen over: den genererande transduceren kan gå frå leksikalsk abstrakt form (lexc lower) til ein IPA-twolc, som gjer at vi har tilgang til visse lengdesymbol og andre diakritika som elles forsvinn i transducerkompileringa. Det vil gjera det lettare for oss å skriva gode IPA-reglar Ein tredje fordel er at ved å tagga ulike dialektvariantar (t.d. Loc/s vs Loc/n) og velja ein av dei i genereringa kan vi lata syntesen produsera ulike (morfologiske) dialektformer. Dersom ein i tillegg kan variera ulike parameter i HMM-syntesen, burde det vera råd å heilt syntetisera dei viktigaste dialektane ut i frå ein syntese. Eit interessant sp.m. i alle fall - og kan gjera syntesen til eit forskingsverkty for dialektforskarane:) Ukjende ord: må handterast for seg både ved analyse og generering/ipa-konvertering. Obs! Norske ord med samiske kasusendingar (namn og in situ-lån) Kor kjem pausesymbol, prosodimarkørar m.m. inn i modellen? Truleg som ein del av disambigueringa - siste VISLCG3 kan leggja til heile kohortar (og lemma?), slik at vi kan skyta inn (abstrakte) symbol for å markera ulike prosodiske element, som deretter kan konverterast (via genereringa) til passande IPA-symbol.