Giellateknomøte 14.9. 2016 Til stades: Ciprian, Lene, Marja-Liisa (på dei tre siste sakene), Tiina, Trond !!!Saker * Møterommet * Oahpa-veka * Korpusarbeid og Korp * Rutine for janmleg køyring av analyser * Clarino * MT-møtet i Helsingfors * Brasil * Ressursar til MT-prosjektet * Andre saker !!Møterommet * Førebels liste nesten i orden. * Manglar: Skøyteledning til prosjektør (__Trond__ spør FL) * Kyrre og besøk til Handelshøgskolen el.l. (__Trond__) * Tidspunkt: Ikkje under ume-førelesinga, ikkje neste veke. !!Oahpa-veka __Lene__ tar kontakt med Reidun for å ordne overnatting for Ryan og Heli Vi alle setter av tid for å forberede workshopen (Heimelekse: sjå på sida til workshopen) [http://giellatekno.uit.no/ped/common/NotesForNewOahpaCode.html] Ciprian er på seminar onsdag-fredag. Det bør settes av tid en kveld for å diskutere dokumentasjon av NDS: Trond, Ciprian og Ryan. Dokumentasjonen som finnes, må leses på forhånd. Ansvar: __Trond__ (brev til Ryan) Order rom til Oahpa-veka. TODO: __Trond__ !!Korpusarbeid og Korp Saker som ikke er løst i Korp-grensesnittet vårt: * lemmasøk (for extended search) * lemgram (som gir brukeren muligheta til å velge lemma etter å ha skrevet inn en ordform) * søk på syntaktiske tagger (for extended search) * forbedring av grensesnittet, hvis mulig? * brukerdokumentasjon: legge inn eksempel på relevante søk Testing av den nye preprocesseren og den gamle og deretter diffe: biggies/gt/sme/corp/sme-goldcorpus.txt New preprocessor (standing in sme): {{{ ... | hfst-tokenize tools/preprocess/tokeniser-disamb-gt-desc.pmhfst | ... ... | preprocess --abbr=tools/preprocess/abbr.txt }}} Postprocessing {{{ hfst-lookup --with-some-cg-output-flag sme.hfst | ... }}} __Trond__ discusses this with Sjur: # check gold corpus # check analysis on # Missing lists for sme, sma, smj !!Nye tekstar [http://www.riista.fi] !!Clarino Vi diskuterte dette. __Trond__ og __Ciprian__ følgjer opp. !!Brasil Trond skriv ein kort presentasjon av Giellatekno og Divvun !!Rutine for janmleg køyring av MT-oversettinger Compiling: Compile sme, smX, apertium-sme-smX. {{{ giella-core/scripts sh make-sme-smn.sh sh make-sme-smj.sh sh make-sme-sma.sh wercheck_mt-otpt.py (wer FALSE) python wercheck_mt-otpt.py -d tmx_data/ python check_mt-otpt.py -d pseudo_tmx_data/ }}} Run them every night, put them in an apertium directory, with link from the MT pages * Put them in the svn - where? * which svn: apertium or gt? {{{ apertium-sme-smj$ cat tmx_data/* | wc -l 10564 apertium-sme-sma$ cat tmx_data/* | wc -l 11499 apertium-sme-smn$ cat tmx_data/* | wc -l 7630 apertium-sme-smn$ cat fi.samediggi/* | wc -l 113841 }}} We will have to do that in a way that * makes the text accessible to the linguists * without spending too Finding unused texts and parallel texts * [http://www.riista.fi] (Finnish - North Saami - Swedish) * Programs for political parties (offer the tool to the parties) ** Also consider a party programs' corpus * Textbooks for schools __Trond and Ciprian__ to look at the technical issue with storage, and __Ciprian__ implement afterwards !!MT-møtet i Helsingfors Trond orienterte om .... i Helsinki 12. sept. !!Ressursar til MT-prosjektet * Diskutere med Laura om tidsdisponering * Korpusarbeid * Andre prosjekt * Lingvistar, Petter* * Francis, Kevin __Trond__ tar med innspel til møte med instituttet. !!Neste møte onsdag 28. sept. 2016 (Lene vil sannsynligvis være bortreist 29-30.9)