Giellateknomøte 14.10. !!!Saksliste * Programmerarstillinga * programmerer-stillinga * phd-stillinger * bidix * todo-lista * Dubletter i korpus * Detmars invitasjon til Tübingen * Bruk av arbeidstid * gtweb * Rommet * Diskusjonen om artiklar (slutten av diskusjonen) !!!Saker !! programmerer-stillinga Trond har snakka med Eystein, som delegerer intervjuansvaret til Trond. Administrasjonen kan ikke hjelpe til med det praktiske med intervjuene. Trond engasjerer en til å gjøre dette for oss. !! phd-stillinger ! programmerer phd. Vi venter på instituttet. ! lingvistisk phd Trond tar opp saka. !! bidix !ordbok til bidix Ciprian sjekka inn i går: smePOSsmnPOS finsmn/trans_dict/all_sme2smn.csv {{{ albma A rievtis A albma A vuoigâ A albma A puigâ A albma A olmâ A <=== albma A penttâ A albma A uálgis A albma A uálgispeln A albma A uálgispeeli A albma A piiŋušpeeli A albma A puigâ A albma A rievtis A albma A vuoigâ A albma A olmâ A albma A penttâ A albma A olmâ A astat V enittiđ V astat V kiergâniđ V astat V happiittiđ V astat V noddiđ V astat V ostâđ V astat V juovdâđ V astat V ostâstuđ V astat V terttiđ V astat V ostâđ V <=== astat V lijgodiđ V }}} Desse skal over i bidix-format. # Ciprian lager et skript for Levenshtein. # Ciprian viser til filene # Vi studerer filene, og # diskuterer (denne veka) !Homonymi i bidix {{{ finsmn/trans_dict$ wc -l all_sme2smn.csv 19390 all_sme2smn.csv finsmn/trans_dict$ cut -f1 all_sme2smn.csv |sort -u | wc -l 6401 finsmn/trans_dict$ cut -f3 all_sme2smn.csv |sort -u | wc -l 9455 }}} I dag har vi {{{

gárdinkärdi

gárdinmuorâkärdi

}}} Når det er flere smn for en sme: generere apertium-sme-smn.sme-smn.lrx Det er ulike modellar for å prioritere mellom ulike omsetjingar, status i fst, rekkjefølgje i ordboka, redigeringsavstand til sme, ... Vi må sjå på dei når vi kjem så langt. !! Automatarbeid, smn Mål: Utnytte informasjonen i kolonnene i smn-ordbøkene # Viss formene i kolonne y er bøyingsform av lemmaet i kolonne x er alt bra. # Viss ikkje sjekkar vi. Verb + bøyingsformer er: {{{ cat smnfin/inc/2015/Saami-suoma_ERRATA_03072015.csv |grep 'đ '|cut -f1 }}} Script: For ord nr 2, 3 på kvar linje, har dei lemma = ord 1? Desse to filene har same innhald, og er dei som er i best stand. {{{ aLanâddâđ aLanâd aLaniđ allaan a'ldadâllâđ a'ldadâlâm aldaniđ a'ldediđ aldeed alediđ a'lgâttiđ aalgât almaaštâllâđ almaaštâlâm }}} # smnfin/inc/2015/Saami-suoma_ERRATA_03072015.csv # smnfin/src/Saami-suoma_ERRATA_03072015_smnfin.xml {{{ cat finsmn/src/all_finsmn.xml |grep 'wf=' párustiđ rohhoođ harijdiđ korâstâllâđ kye'cistiđ iär'dudiđ härdiđ ha'rdâččiđ kye'cistiđ }}} I beste fall er dei to identisk, som her: {{{ smnfin: addiittâllâđ addiittâlâm addiittâl finsmn: addiittâllâđ }}} Døme på verb med fleire enn ei wf: {{{ "moostâm masta">mostâđ "ibárdâs paijeel">moonnâđ "iä'náduum iä'náduVá">iä'náduđ }}} Døme på verb med berre ei wf: {{{ "ramâččâdâm">ramâččâttâđ "kobdánâd">kobdánâddâđ "kobdoot">ko'bdottiđ "uulât">ulâttiđ "olám">olleeđ "keelijd">kelijdiđ cat finsmn/src/all_finsmn.xml |grep 'wf='|grep 'đ'|sed 's/wf=/™/'|cut -d"™" -f2|grep ' ' }}} Men i finsmn er einskildformer vs. fleirordsuttrykk disambiguert. Lene og Trond ser på dette, med utgangspunkt i finsmn. ! todo-lista Trond og Ciprian ser på det. !! Dubletter i korpus Ciprian har prosessert data. Vi har dublettpar av to typer: (1) filer men nesten samme naven {{{ 2015-10-13/sme/news/minaigi/2000/75-103/nmk-buljoglad.txt.xml 2015-10-13/sme/news/minaigi/2000/75-103/_nmk-buljoglad.txt.xml 2015-10-13/sme/news/minaigi/2000/75-103/od-1999.txt.xml 2015-10-13/sme/news/minaigi/2000/75-103/_od-1999.txt.xml 2015-10-13/sme/news/minaigi/2000/75-103/od-ingaguttorm.txt.xml 2015-10-13/sme/news/minaigi/2000/75-103/_od-ingaguttorm.txt.xml ... }}} (2) filer med uliker navn (se BZ bug #2092) # Same fil med ulike namn # Same fil med like namn med ulike konvensjonar # Nesten same fil med ulike namn # Nesten same fil med like namn med ulike konvensjonar Tomi hadde eit skript for å sjekke dublettar i korpus. Vi tar initiativ til eit møte med Divvun om dette. Det er også andre dublettar: [Bug om dubletter i smn|http://giellatekno.uit.no/bugzilla/show_bug.cgi?id=2081] !! Detmars invitasjon til Tübingen November-desember? Skrive til Detmar og: framlegg om brukarloggar Brukarloggar, ulike innfallsvinklar Førebu oss på ei breitt perspektiv: * dei ulike nettenestene * ulike sider ved dei * kva er det vi ikkje loggar, men som vi burde ha logga? Fortelje om oss sjølv-foredrag (samiske språk, samisk språkteknologi) !! Bruk av arbeidstid Når det gjelder engasjementer og samarbeid med andre * klar delegering av opplæring/oppfølging * krav om bruk av dokumentasjon og egne notater * vurdere arbeidsfelt mot ** forkunnskaper og tilstedeværelse ** tidsbruk til opplæring og oppfølging * begrense tidsbruk i forhold til samarbeidspartnere, tidsbruk skal knyttes opp mot felles publikasjoner ! Prioriterte område * MT * leksikografi * modellering av morfologi <= vekta automater * ICALL !! Rommet Sjur har kontakt med Kyrre, som diskuterer eit konkret tilbod med oss denne veka. Deretter diskuterer vi rom + framtidsperspektiv. !! gtweb ... vart oppdatert denne veka. Det avslørte at [don't panic-sida|/infra/DontPanic.html] ikkje var eksplisitt nok. Vi har etter det oppdatert dokumentasjonen, og den er betre. __Tiltak:__ Lene går gjennom dokumentasjonen og kommenterer. !! Diskusjonen om artiklar (slutten av diskusjonen) * smesma-artikkel NEJALT - intern deadline 27.10 - * Umeå: sirkumpolar (sjå førre møte) * Umeå: Trond: Morfa * Tromsø1 Sami symposium (2-3.2.16) - 11.11.2015 abstrakt http://site.uit.no/samesymposia/ * smesmn MT: Hvor vanskelig er maskinoversetting fra nordsamisk til inarisamisk? * Tromsø2 (4.2.16) - 15.11. Formal approaches to Saami linguistics (inarisamisk morfofonologi?) * Uleåborg (vente for å få med bidix og MT) * SDÁ som kanal?