Sjur og Trond-møte 15.9. 2017 !!!Saksliste * Grammatikkontroll-dokumentasjon * TTS * Möterommet * Korpusinnsamling- og möte * Neste divvunveke * Bz !!!Grammatikkontroll-dokumentasjon * installer divvun-gramcheck via github (problem, berre delvis løyst i lag med Kevin): {{git pull && scripts/get-pugixml-and-build && sudo make instal}} * konfigurer med linja i grammarchecker.cg3 * kompiler * korleis installere cg-mode i emacs og teste den Prosjektdokumentasjon i {{techdoc/proof/gramcheck/}}, jf nettsida: [https://giellalt.uit.no/proof/gramcheck/GrammarCheckerDocumentation.html]. __Trond__ legg inn notatar her langs vegen, __Sjur__ dokumenterer når støvet har lagt seg. Vi vil generalisere det grafiske testgrensesnittet til fleire språk. !!!TTS !!TTS på sidene våre * vi vil ha TTS på sidene våre (jf. MT på giellatekno.uit.no) * TTS-lim-inn-tekst (BÁ har skrivekurs) - finst på Acapella sine sider, men: ** berre den eine røysta tilgjengeleg ** kan ikkje regulera lesefart ** vi må sjølv kunna demonstrera vårt eige produkt * Framover: TTS i NDS og TTS i icall (vi er ikkje der enno) !!Installering * det var problematisk med installering på studentmaskiner (lyktest ikkje sjølv med Thomas og Børre) __Trond__ skriv e-post til BÁ og Sjur. !!Android og iPhone Kan inkludera stemmene våre i appar, kan ikkje brukast i Siri osb. Det er mogleg at Android er meir open enn iOS, og at det er mogleg å få stemmane inn i heile systemet. Det må undersøkjast. Jf. ordboksapp frå oss. !!!Møterommet Korleis kan vi få saka vidare? # __Sjur__ reinteiknar notatane våre + forklaringar # __Trond__ tar det vidare på universitetet Sjur har eit utkast om 14 dagar. !!!Korpusinnsamling og -møte Liste over ting å følgje opp: * tråling (Børre) + også forhandle om å få .doc i staden for .pdf * pdf-henting (Giellatekno) * Sametinget og kontraktar * konvertering (oppfølgjingsmøte om aktuelle problem) * parallellisering * språkattkjenning ** Vi treng å evaluere (ny) programvare, ** Alternativ til text_cat: jf. lysark frå Dublin + Jauhiainen x2 ** Trond diskuterer dette med Ciprian __Trond__ diskuterer med Gt, __Sjur__ med Divvun, vi tar møte over nettet med relevante personar for dei problemstillingane der vi må snakke saman (konvertering (.xsl), innsamling av .doc) !!!Neste divvunveke * Første veka i oktober (2.10.-6.10) * Neste divvunveke ssv. 44 eller 45. ** __Trond__ diskuterer med ungararane om Divvun-evaluering, om FinUgReVita-folket kan kome hit. !!!Bz Vi følgjer opp dei opne Bz-ane. Sjur har ofte skrive ''test og sei i frå''. Det bør vi. !!!Andre saker !!Eenaresamisk stavekontrolltesting Det er tre alternativ for modularisert testing av stavekontrollen med det grafiske testoppsettet i devtools. Her kjem ei drøfting: !multiple byggekatalogar {{{ smn/src smn/src/devtools/ smn/bygg/stavekontroll/ (a) <--- den vanlege smn/bygg/stavekontroll-modifisert/ (b) <-- ein variant ... ad lib smn/bygg/stavekontroll-modifisert_med_dato/ (c) <-- ein variant ... ad lib smn/bygg/mt (ikkje poeng her) lik kjelde, ulik config }}} Skilnaden ligg ikkje i konfigureringa, men i kjeldefilene. I dette tilfellet: * tools/speller/fstbased/desktop/hfst(a) * tools/speller/fstbased/desktop/hfst(b) (t.d. __utan__ framleggstilpasnin) Denne passar best der skilnaden er i config-oppsettet, og ikkje der skilnaden er i kjeldefilene. !Multiple smn-katalogar Sjekke ut fleire smn-katalogar: * smn_a * smn_b Dette kan ikkje sjekke inn ulike kjeldefiler (dei vil overstyre kvarandre), men er enklare enn neste variant. !Ulike greiner i $HOME: {{svn co http://gtsvn.uit.no/langtech/branches/langs/smn branches/langs/smn_a}} Denne er best der skilnaden er i kjeldefilene, her kan eg ha fleire parallelle kjeldefiler, og vil sjekka inn dei endringane ein gjer. __Trond__ prøver seg fram. !!Munchs skrik Jf. [http://giellatekno.uit.no/bugzilla/show_bug.cgi?id=2401] Denne har vorte liggande. Trond har 3 framlegg (jf. buggen), __Sjur__ kjem med eit fjerde, og skriv i Bz. !!Kompilering av sme Dette er ei feilmelding, som har vore der ein del dagar Resten av møtereferatet er debugging av ein feil, som vi fann, så det er eigentleg berre å slutte å lese her. {{{ HINTRSCT generator-raw-gt-desc.tmp1.hfst /usr/local/bin/hfst-compose-intersect: warning: Found output multi-char symbols ("any") in transducer in file which are not found on the input tapes of transducers in file phonology/sme-phon.rev.hfst. }}} Den liknar på tilsvarande feil i Apertium. Her er det ein reell feil. Spörmsål: * Har vi det berre for sme (svar: vi har den ikkje i sma) * Har vi noko symptom ut over feilmeldinga? * Har vi ei tilsvarande feilmelding for xfst? * Får brukarar med eldre hfst-kompilator same feil? * Korleis ser symbolet "any" ut? * Kva gjev kommandoen "print symbols" hfst: {{{ arc symbols actually seen in transducer: ... £, §, ©, «, «7, ­, ®, °, ±, ², ³, ´, ¶, ·, ¹, », »7, ¼, ½, ¾, ¿, Á, Ä, Å, Æ, Ç, É, Í, Ò, Ó, Ö, Ø, Ü, Þ, à, á, â, ã, ä, å, æ, ç, è, é, ê, ë, í, î, ï, ð, ñ, ò, ó, ô, õ, ö, ø, ù, ú, û, ü, ý, Č, č, Đ, đ, ł, Ŋ, ŋ, ō, Š, š, Ŧ, ŧ, Ž, ž, ́, ̈, ̌, ·, ‐, ‒, –, —, ―, ‘, ’, “, ”, „, •, …, ‹, ›, €, √, ≈, ◊, ●, ❡, 😱 }}} root.lexc 14.9.: {{{ tf-hsl-m0016:sme ttr000$ grep any src/morphology/root.lexc ! (at your option) any later version. The GNU General Public License !! be used alone, but can appear in any position !! If unmarked, any position goes. !! # any untagged word is pronounced with SME orthographic conventions }}} xfst 14.9. og 15.9.: * -rw-r--r-- 1 ttr000 1907360568 4147443 14 sep 13:09 src/analyser-gt-desc.xfst (ingen any i sigma) * -rw-r--r-- 1 ttr000 1907360568 4209186 15 sep 12:20 src/analyser-gt-desc.xfst (any i sigm) 14.9. {{{ Sigma: A Á B C Č D Ď E F G H I J K L M N O P Q R S Š T U V W X Y Z Ž a á b c č d e f g h i j k l m n ń ñ o p q r s š t u v w x y z ž " " ! %" # $ "%" & ' ( ) * + +A +ABBR +ACR +Acc +Actio +Adv }}} 15.9. {{{ xfst[1]: print sigma Sigma: A Á B C Č D Ď E F G H I J K L M N O P Q R S Š T U V W X Y Z Ž a any á b c č d e f g h i j k l m n ń ñ o p q r s š t u v w x y z }}} Med tidsvindauget på plass (23 timar) fann Sjur feilen, og den skuldige (seg sjølv :-) ): {{{ Modified: trunk/langs/sme/src/morphology/root.lexc =================================================================== --- trunk/langs/sme/src/morphology/root.lexc 2017-09-14 14:57:10 UTC (rev 157050) +++ trunk/langs/sme/src/morphology/root.lexc 2017-09-14 16:59:44 UTC (rev 157051) @@ -326,6 +326,8 @@ +Cmp/Hyph !!≈ * __@CODE@__ - on dynamic compounds that have a hyphen +Cmp/NoHyph !!≈ * __@CODE@__ - On compounds that COULD have had a hyphen (and usually have), but doesn't +Cmp/SoftHyph !!≈ * __@CODE@__ - Tags compounds containing SOFT HYPHENS (U+00AD) + +Cmp/Cit !!≈ * __@CODE@__ - Tags citation compounds, which can in principle + cover any word. Requires a hyphen. }}}