Giellatekno-møte 17.12.2015
!!!Saksliste
* avslaget på toppforsk-søknaden og samarbeidet med CLEAR-gruppa
* Clarino (kort statusrapport)
* Korpusarbeid
* nettsidene våre
* Logo
* Audio
* Neste møte
!!avslaget på toppforsk-søknaden og samarbeidet med CLEAR-gruppa
__Trond__ skriv brev til Laura si gruppe om eit møte på nyåret der
vi ser på avslaget.
!!Clarino
!kort statusrapport
Vi registrerer nokre av ressursane våre med permanent URL og metadata.
Om kort tid har vi 23 datasett tilgjengelege:
Korpora, ngram, frekvenslister, ordbøker (med ein viss kvalitet).
Registrering av metadata på COMEDI-editoren i Bergen.
* Author-feltet er Giellatekno og Divvun
* Kommentarfeltet gjev ressursspesifikk liste over forfattarar.
!Lagring lokalt
* Vidare bearbeiding av data må vi lage og lagre
** Vi ser på automatisering av bearbeiding av
[egne frekvenslister|http://giellatekno.uit.no/lex.en.html]
* Frekvenslister som vi bruker kontinuerleg må vi lagre i svn-treet (evt. big/)
!!Korpusarbeid
Parallelltekster sme-smn:
* Miina kan samarbeide med Børre med å få inn flere sme-smn parallelltekster,
* Ciprian eller Børre kan setje opp setningsparallellisering for sme-smX
* Áilu kan sjekke setningsalignment.
* Miina kan lage anchor file sme-smn: 4059 linjer,
eng / nor / sme / fin / sma / smj /
Evt. lage sme-smn-ankerliste
Evt.: ta anchorlista, eller eit sett ord, og hente smn frå miniparadigma
* Elles prioriterer dei i Enare oppgåver som treng kunnskap i enaresamisk, f.eks. bidix-arbeid, spesielt algoritme 1 og 2, se under Bidix-bargu i [dokumentasjonen|/mt/MachineTranslation.html]
gt/common/src/anchor.txt
{{{
3*, three*, thir* / 3*, tree* / 3*, golbm*, golmm* / 3*, kolme / 3*, gålmmå*, gålmå / 3*, golme* /
fought / kjempet, kjempa, sloss / doarui* / tappeli*, tapell* / oajbbu*, oajboj*, dårru*, doaroj* / dåar*, dåår* /
}}}
!Arbeid med parallellisering:
# Trond fikser konfigurasjonen av Apertium på MLs maskin
# Trond og Lene ser på ankerliste (før jul)
## Evt. manuell postredigering av ankerliste (Miina, Neeta?)
# Ciprian ser på pipeline og TCA2:
## Oppsett, testing
# Trond diskuterer tekstar med Miina (denne veka)
# Manuell korrigering av setningsparallellisert tekst
Mål: Fungerande pipeline første veka etter nyttår.
!!Nettsidene våre
[Vår todo-liste|/admin/giellatekno/TODO.html]
Trond og Ciprian ser på dette neste veke, etter Clarino.
!!Logo
* Bjørn har laga framlegg til logo + ståande plakat (sendt på epost februar 2015), sendt til alle giellateknoansatte i dag
* Trond tar kontakt med: HSL har ein ny person med ansvar for nettdesign
* Evt. ny design må bli implementert i Forrest
!!Audio
* TTS og bruk av TTS
** bruke alternativ teknologi i samarbeid med UofA
** [Festival|http://www.cstr.ed.ac.uk/projects/festival/]
** Ta i bruk dagens TTS (t.d. i NDS, Oahpa) når den reviderte versjonen kjem
* Talegjenkjenning og bruk av det
* Digitalisering, transkribering av gamle lydband
** Når NJ-banda er digitalisert og transkribert vil vi sjå på ELAN-pipeline**
** Pipeline også for andre
* Opptak og transkribering av nye dialektdata
** Dette er ikkje for oss
* sette opp en infrastruktur for en audio-korpus
** "Korp med lyd" -- bruke Korp? Sannsynlegvis jo
** Samarbeide med Skandiasyn
* lyd i Oahpa og NDS
** eksperimenter med audio-filer i Cree oahpa, muligheter for nye oppgavetyper
** syntetisk tale, etter at ny versjon av sme TTS er klar
!Arbeid:
* Ciprian snakker med Øystein om digitaliseringsprosjektet
* Ciprian ser på mulighetene om å bruke Korp-grensesnittet, evt. andre
* Vi tar opp TTS-bruk med Sjur når TTS 2.0 kjem
{{{
Hei,
jeg vil gjerne snakke også om
arbeid med audio-dataene og som jeg har forslått:
- bygging av en audio-korpus med pipeline lingende på vårt text-korpus
- dette kommer til bli relevant for language technology for spoken language
- Michael, Josh, and Jack have already a need for this kind of stuff
- I myself am thinking of an Oahpa++ with spoken language and even
gesture (agent programming, e.g., SARL http://www.sarl.io/about/index.html), kind of an teacher avatar
As I already mentioned, the work with audio data at GT is by far not sufficient to use it for serious LT projects,
not event the TTS stuff.
aber deine ideen gefallen mir. ich hatte vor einer weile auch mal die idee einer kleinen (und eigentlich recht banalen) audio-erweiterung für oahpa. ich erinnere nicht, ob ich dir auch darüber geschrieben habe. an trond hatte ich mal so eine grobe idee geschickt, ist aber schon lange her:
a) “dikta” - anstatt geschriebener wörter werden fünf audiodateien ausgegeben, man muss sie anhören und korrekt eintippen
b) “lyssna” - dito, eingetippt wird nur eine übersetzung.
wir hätten jetzt wahrscheinlich genügend (ich glaube es sind schon über 4000) skoltsaamische wörter, um eine testversion herzustellen. ich nehme an, dass jack die entsprechenden links demnächst in die xml-quelldateien einbaut.
}}}
!!Neste møte
* __Tysdag 22.12. klokka 0900__