!!!Open kjeldekode og minoritetsspråk !!!Observasjonar * den viktigaste ressursen til eit språksamfunn er morsmålstalarar og språkkunnskap * språksamfunnet har ofte små eller ingen økonomiske ressursar * det å byggja ein språkteknologisk infrastruktur er komplekst og dyrt !!!Alternativ for utviklingsarbeid med språkteknologi * anten: samarbeida med eit kommersielt firma, og la dei levera infrastrukturen * eller: byggja infrastrukturen sjølv som open kjeldekode * eller: byggja på arbeidet til andre * oftast blir det vel ein kombinasjon av desse tre !!!Risiko med samarbeid med firma * mange års arbeid kan forsvinna opp i røyk dersom firmaet går konkurs eller blir kjøpt opp * arbeidet med språket ditt er avhengig av godviljen til firmaet * det å senda ut oppdateringar og rettingar er det firmaet som bestemmer, ikkje du * du bestemmer ikkje over dine eigne språkressursar !!!Risiko med open kjeldekode * andre kan bruka arbeidet ditt (men det kjem jo òg språksamfunnet til gode) * ein må anten gjera alt sjølv eller ha eit større miljø å støtta seg på * det kan fort bli for stort eit prosjekt !!!Målsetjing: å sjølv ha kontroll * ein må anten eiga eller kontrollera heile kjeda frå språkressursar til ferdige produkt !!!Kostnader * samarbeid med firma kostar * open kjeldekode er pr. definisjon fritt tilgjengeleg - men nokon må sjølvsagt betala arbeidet * dei samiske prosjekta er fullfinansierte av staten * dei ferdige produkta er gratis tilgjengelege for alle brukarar * denne modellen er i praksis den einaste fungerande for minoritetsspråk * det finst ikkje ein stor nok marknad for å utvikla slike verkty på kommersiell grunn !!!Språkressursar * ordlister og ordsamlingar * grammatikkreglar * tekstsamlingar !!ordlister og grammatikkreglar * i det samiske prosjektet er alt dette open kjeldekode * kven som helst kan ta desse og laga eigne verkty * dette er til beste for det samiske samfunnet - det arbeidet vi har lagt ned i å byggja opp ressursane kan andre bruka for å laga ting vi ikkje har tid eller ressursar til, og det samiske samfunnet får fleire hjelpemiddel !!Tekstsamlingar * det finst to slags tekstar: frie og ikkje-frie * dei ikkje-frie tekstane er oftast tekst skrive av ein eller nokre få privatpersonar * det er viktig at ein nærmar seg slike forfattarar med respekt for arbeidet deira * samtidig ser dei fleste forfattarar nytta med dei hjelpemidla vi lagar, og vil hjelpa oss * vi har samla inn tekstar på vegne av det norske Sametinget * det er altså Sametinget som eig sjølve samlinga, men forfattarane som eig tekstane * vi har fått lov å bruka tekstane til språkforsking og utvikling, og lover at dei ikkje blir missbrukte !!!Teknisk uavhengigheit * Mest mogleg av den teknologien vi bruker skal vera open kjeldekode * på det viset kan vi laga verktya våre utan å vera avhengige av dei som laga teknologien * vi er enno ikkje så uavhengige av enkeltfirma som vi vil vera, men vi er sakte på veg tid !!Teknologiar * morfologisk analyse: Xerox vs HFST (Helsingfors univ.) * syntaktisk analyse: CG3 (Syddansk univ.) * retteprogram: firma, men i framtida basert på HFST * ordbøker: vi lagar for både lukka og open kjeldekode !!!Oppsummering * Vi har ein infrastruktur vi har laga sjølv, som er språkuavhengig, og som er open kjeldekode. * Dei tekniske sidene blir handtert uavhengig av språk, slik at lingvistane og språkarbeidarane kan konsentrera seg på språket, og ikkje så mykje på det tekniske * vi prøver å byggja opp ein infrastruktur som gjev språkmiljøa sjølve kontroll over språkressursane, og slik sett vera uavhengig av eitt eller fleire firma