!!!Korpusmøte 5.10.2017 Til stades: Børre, Ciprian, Lene, Sjur !!!Saker * nettinnsamling (tråling) * anna manuell innsamling * leverandørinnsamling Overgripande tema: kva er det som hindrar arbeidet? !!!Nettinnsamling (tråling) Vi har fleire innsamlarar, men berre nrk sin fungerer. * html går stort sett bra * ikke-html-dokumenter frå tråling er vanskeleg å kategorisera automatisk Viktige steder: * samediggi.no (pressemeldinger på 2-3 språk) * nsr.no (flere samiske språk) * samas.no (Samisk høgskole) * [https://giellalt.uit.no/ling/SaamiTextOnline.html] Legge dokumenter i en pøl: * Duplikatsjekk ** md5-sum på pdf, doc, epub ** url, oftest på crawlere ** på innhold *** https://giellalt.uit.no/ling/CorpusTools.html#duperemover *** https://giellalt.uit.no/ling/CorpusTools.html#dupefinder En strategi: Laste ned alt fra nettsteder man mistenker har samisk tekst. Legge inn samiske tekster inn i korpus og manuelt legge til paralleller på andre språk. Finner man systematisk sammenheng mellom paralleller, legg slikt inn automatisk. !!!Anna manuell innsamling Opprette ei liste (hvor?) hvor alle i Giellatekno/Divvun skriver info når de kommer over (ny) samisk tekst på internett: # dato # språk-kode # info om parallellitet (m, p:se:url) # eget navn # url (bare til nettstedet) __Børre__ * lager denne fila * automatiserer det å hente dokumenter fra disse url'ene !!!Leverandørinnsamling Dvs. innsamling som krev avtale med underskrift. Vi treng ein person som gjer dette på full tid over ein periode. Børre pratar med aktuelle kandidatar.