!!!SD-ráddi presentation (1 hour): Kanskje 1,5 t !!Personar Sjur pres Thomas stavekontroll Trond parallellkorpus !!Demoar !demo Divvun (5 min) * sme ** testdoc: [Markansluska|https://giellalt.uit.no/proof/spelling/testing/spelltest-pl-forrest-Markansluska_publicbeta1.html] ** testdoc 2: [kongeteksten|http://minaigi.no/index2.php?id=1152] * smj ** [https://giellalt.uit.no/proof/spelling/testing/spelltest-typos-pl-forrest-smj_20070614.html] * hovudpoeng: ** ikkje så mange falske alarmar (Tronds text) ** kan retta store skrivefeil (dvs fleire feil i same ord, jf redigeringsavstand i Markansluska og smj-typos) ** stort sett relevante forslag (%?), og det rette i top 5 (vis testresultatsida - markansluska = 100 % av alle feilskrivingar med forslag har rett forslag i topp 5 = kontekstmeny) ** markansluska er eit gullstandarddokument, dvs stavekontrollen har ikkje "sett" det før, og dokumentet er ikkje brukt for å leggja til manglande ord. Det bør difor gje eit godt bilete av kor god stavekontrollen er. Ei svakheit ved dokumentet er at det finst visse tekniske feil i prosesseringa av det, som gjer at resultatet ser dårlegare ut enn det faktisk er. !demo risten.no (5 min) * parallelle samlingar (dvs fleire ordbøker og termsamlingar, ikkje berre éi) * søk (inkl. Komi - på eiga maskin) * redigering (nemnt med ei setning) * kan byggjast ut med så mange samlingar ein er interessert i, på alle språk * risten.no har eit dårleg rykte - folk trur det er ei ordbok, men det er pr i dag ikkje det -> vi bør leggja til ei ordbok, før vi har gjort det vil folk bli skuffa over risten * integrering med språkteknologi - paradigmegenerering, parallellkorpussøk (+ redigering: hent/sjekk omsetjingar mot parallellkorpus direkte i risten.no) !demo parallellkorpus (5 min) * støtte for omsetjarar * støtte for termarbeid og -utvikling * støtte for ordboksredigering % Hugselapp % Demo parallellkorpus % parallellkorpus: søk boks 1 Norwegian "omsorg" boks 2 Saami blank og deretter Search %  omsorg % == ovddamorraša; mens juridisk ordliste har fuolahus %  høringsinstans % == To termar på samisk: gulaskuddanásahus, gulaskuddaninstansa %  forvaltningsmyndighet % == i halvparten av tilfella hálddašanváldi, i andre halvpart hálddašaneiseváldi. %  forskrift % == det er nesten alltid láhkaásahus (litt for ofte skrive láhkaasahus) % == men i nestsiste tilfelle på 1. s. er det njuolggadus %  part % == korpus: bealli, juridisk ordliste: osolaš Akkurat. Jeg skal prøve å finne meg en mac, så jeg kan få debugget det. -lars Trond Trosterud wrote: Lars Nygaard kirjoitti 15.6.2007 kello 13.33: http://omilia.uio.no/glossa/html/index_dev.php?corpus=samno Ved siden av menyen for språkvalg, finnes det en meny til, der du kan velge "exclude". Det bør gi deg den funksjonaliteten du beskriver, tror jeg. Ja, det bør det, viss det finst ein slik boks. Men eg finn ingen. Sjå desse to bileta, det første frå safari og det andre frå firefox Du har ikkje ein feildatabase i Oslo, men vi kan godt bruke vår til dette grensesnittet. Er du interessert i det? Ja, det høres fint ut. kjem attende til. det. !!Nær framtid/SD * drift av divvun * sørsamisk ordretteprogram * drift av risten.no Finansiering: forslag frå BOM om å slå i hop divvun-drift og sørsamisk til eitt prosjekt, og venta med "permanent". Kva skjer i så fall med risten.no? !risten.no * terminologiarbeid og ordbøker !Fellesprosjekt for sørsamisk og drift + risten.no * Det viktige er sørsamisk divvun * dei andre lingvistane (sme og smj) vil vera ei viktig hjelp for den sørsamiske lingvisten * vedlikehaldet tek ikkje så mykje tid, men vi bør halda fram med å byggja ut korpuset, særleg gjeld det lulesamisk * ved å byggja ut korpuset, særleg med vekt på parallelle tekstar, vil vi støtta både vedlikehaldet av stavekontrollane og andre prosjekt (MT, terminologiarbeid) * risten.no bør inn som ein del av dette arbeidet ** tettare integrering med språkteknologi *** paradigme *** pallellkorpus (dvs automatisk laga eksempel på bruken av termar) !!Nær framtid el no/UiT * Etablere språkteknologisk senter med to tilsette frå 1.1.08 (3 tilsette 1.1.09) * Prosjekt ut over det: ** Pedagogisk programvare 2007-2008 (UiT/Sametinget) ** MT-prosjekt? * parallellkorpus ** terminologi-utvikling ** grunnforsking: viser skilnad mellom ulike språk ** Giellatekno i Tromsø er med i Panorama, eit nordisk samarbeidsprosjekt om parallelltekstkorpora. *** Prosjektet skal samle tekstar frå ulike nordiske språk *** Målet er å utvikle metodar for å parallellføre ikkje berre på setningsnivå, som i dag, men på ordnivå *** Resultata vil bli input både til maskinomsetjing og til terminologiarbeit *** [Panorama|http://beta.visl.sdu.dk/visl2/panorama.html] * smesmj-MT-prosjekt 1.8.07 -> 31.12.07, viss vi får støtte ** Mål: Utnytte nordsamisk tekstproduksjon til å få lulesamiske tekstar *** Prioriterte tekstar: Skolebøker, barnebøker, offisielle dokument, ... ** Middel: Lage eit program for å omsetje frå nord- til lulesamisk *** Programmet skal bli godt nok til at det blir mogleg å spare myke tid på å korrekturlese maskinomsett lulesamisk tekst, heller enn å omsetje på nytt ** Sideeffektar: Prosjektet vil... *** gje grunnstammen i ei nordsamisk-lulesamisk ordbok *** gje lulesamisk terminologisk arbeid eit løft *** sikre harmonisering i terminologiutviklingsarbeidet mellom nord- og lulesamisk *** utvikle lulesamisk språkteknologi *** danne grunnlaget for maskinomsetjing frå norsk, svensk og finsk til nord- og lulesamisk ** Argument for vår metode *** Skilnadene mellom nord- og lulesamisk er store, på overflata. Nesten alle ord er ulike *** Eigentleg er språka svært nære, dei fleste skilnadene kjem av ulik stavemåte og bøying *** Dette er regelmessige skilnader som ein datamaskin kan finne ut av ==> * pedagogisk programvare 1.6.07-31.12.08 ** Kan overførast til lule- og sør ==> * Grunnteknologien * grammatisk analyse (morfologi, syntaks, semantikk) * nordisk samisk samarbeid ** terminologiutvikling *** alle deler alt med alle *** språk * nordisk teknologisk samarbeid ** teknologi *** samisk - norsk, men også samisk - svensk, samisk - finsk *** standardisering (felles format) - føresetnad for at alle skal dela alt med alle *** standardar er ikkje noko problem --- dei har vi mange av! Håvard Hjulstad og internasjonale ISO-standardar for terminologiarbeid