!!!Talesyntese

!!Norsk minitalesyntese

Bør bli inkludert for å få rimeleg god opplesing av norske sitat og andre norske tekstfragment og norske namn inne i samiske tekstar.

* språkgjenkjenning <==== VI? Ja (hm, det vi har er perl-basert, funkar ikkje i ein runtime på ein PC)
* integrera norsk ort2fon
* vi treng eit passande korpus
* finst det ferdige ressursar for alt bortsett frå opptak? -> språkbanken
** kva då med integreringa med resten av systemet? den norske ort2ipa-delen burde kunna vera ein svart boks

!!Testverkty
* få verkty for å produsera syntese frå H.fors? Ev. få dei til å generera stemmen for oss

Dette treng vi for å sjekka at alle dei ulike delane av preprossesseringa blir rett.

* pause og ytringsfinale endringar framfor pause (t.d. t vs h av '-id')

* talordskonvertering til tekst:
** svært kontekstavhengig: 2-3 - 'to-til-tre', 'to minus tre' eller '(dei tapte) to tre'?
** kan med fordel bruka disambiguering før tal-til-tekst-konvertering

Preprosessering, forslag til oppbygging med fst + cg:
# morfologisk analyse
# disambiguering (m.a. kasus på tal, rett grunnform (korte vs lange vokalar andre enn a), osb)
## må gje berre ein analyse til slutt, slik at vi berre har éin analyse å generera ut i frå
## må handtera ukjende ord "rimeleg", dvs slik at vi får ein sannsynleg analyse
### heilt ukjende ord: berre sleppa dei gjennom, og lata ein generell tekst-til-IPA-konverterar gjera alt
### ukjende ord med noko som liknar kasusending: regelbaset konvertering av endinga
# (konvertera alle forkorta uttrykk til tekst med basis i analysert versjon)
# generera IPA frå grunnform + analyse (her kan vi truleg gå rett frå forkorta uttrykk og sifferuttrykk til IPA)

Tilgang til grunnform (via generering) vil rydda opp mykje når det gjeld vokal- og konsonantlengde.

Ein annan fordel med modellen over: den genererande transduceren kan gå frå leksikalsk abstrakt form (lexc lower) til ein IPA-twolc, som gjer at vi har tilgang til visse lengdesymbol og andre diakritika som elles forsvinn i transducerkompileringa. Det vil gjera det lettare for oss å skriva gode IPA-reglar

Ein tredje fordel er at ved å tagga ulike dialektvariantar (t.d. Loc/s vs Loc/n) og velja ein av dei i genereringa kan vi lata syntesen produsera ulike (morfologiske) dialektformer. Dersom ein i tillegg kan variera ulike parameter i HMM-syntesen, burde det vera råd å heilt syntetisera dei viktigaste dialektane ut i frå ein syntese. Eit interessant sp.m. i alle fall - og kan gjera syntesen til eit forskingsverkty for dialektforskarane:)

Ukjende ord: må handterast for seg både ved analyse og generering/ipa-konvertering. Obs! Norske ord med samiske kasusendingar (namn og in situ-lån)

Kor kjem pausesymbol, prosodimarkørar m.m. inn i modellen? Truleg som ein del av disambigueringa - siste VISLCG3 kan leggja til heile kohortar (og lemma?), slik at vi kan skyta inn (abstrakte) symbol for å markera ulike prosodiske element, som deretter kan konverterast (via genereringa) til passande IPA-symbol.