T&S-møte 10.3.

Saker:
* Abbr
* Diskusjonen førre veka med Ciprian og Lene
* prosjekt framover - status og oversikt

!!!Abbr

Støtte for alle språk no - men funkar ikkje (funkar berre for sme).

Det burde vera nok med (for xerox-basert abbr-generering):

{{{
./configure
make
}}}

Funkar berre for {{sme}}, hfst funkar for {{sma}}, ingenting for {{smj}}. Ei
mogleg feilkjelde er at abbr.txt ligg i svn for {{sma}} og {{smj}}.

{{abbr.txt}} blir lagt i {{tools/preprocess/abbr.txt}}.

Trond har same problem som Sjur (testa med Hfst, ikkje Xerox).


!!Alternativ til abbr og preprocess

Vi vil over til fst-basert tokenisering og analyse. Det er no mogleg, men må
testast og rettast. Kommando for ny preprosessering+analyse:

{{{
echo "text | hfst-proc2 --xerox \
tools/preprocess/tokeniser-disamb-gt-desc.pmhfst | cg-conv | l
}}}

Resultat med ulike opsjonar:

Direkte til CG-format (inneheld + og er dermed feil):
{{{
 echo "don" | hfst-proc2 --cg tools/preprocess/tokeniser-disamb-gt-desc.pmhfst 
"<don>"
	"dohte" Pron Dem Sg Ill Attr
	"dohte" Pron Dem Sg Gen
}}}

Xerox-analyseformat:
{{{
echo "datne leah dr. Bergsland." \
| hfst-proc2 --xerox tools/preprocess/tokeniser-disamb-gt-desc.pmhfst \
| cg-conv \
| vislcg3 -g src/syntax/disambiguation.cg3 

"<datne>"
	"datne" Pron Pers Sg2 Nom
"<leah>"
	"lea" V Ind Prs Sg2 @+FMAINV
"<dr.>"
	"dr" N ABBR Attr
"<Bergsland>"
	"Bergsland" N Prop Sem/Plc Sg Nom
"<.>"
	"." CLB
}}}

Diskusjonspunkt (neste veke?):
* handteringa av samansette ord (lemmaform)
* handteringa av avleiinga (stjerne vs underlesingar)

!!Arbeidet med fst-basert tokenisering

Arbeidet må ordnast stegvis, og testast for kvart steg:

!Steg 1)
{{{
cat tekst | preprocess --abbr=tools/preprocess/abbr.txt 
cat tekst | hfst-proc2 tools/preprocess/tokeniser-disamb-gt-desc.pmhfst | grep -v '^$'
}}}

!Steg 2)
{{{
 hfst-proc2 tools/preprocess/tokeniser-disamb-gt-desc.pmhfst 
 analyser-disamb-gt-desc.*fst
}}}

!Steg 3)

Dette blir eit arbeidspunkt: 
Viss vi skal unngå lookup2cg må det språkspesifikke innhaldet i den fila
flyttast inn i fst-en.

{{{
 cg-conv
 lookup2cg
}}} 

!Steg 4)

Det kan henda at nokre endringar i andre komponentar krev endringar i
disambigueringsfila. Dette må i så fall testast òg.

Gullkorpus for {{sme}} ligg i {{test/}} (spør Lene)

Møte neste veke om arbeidspunkta: tysdag kl 9.30 (forslag, sjekk med andre).
Deltakarar: Lene, Linda, Sjur, Trond.

!!!Diskusjonen førre veka med Ciprian og Lene

* ciprian har ikkje (nok) tid til ny infra
* trond gjorde ting utan å sjekka alle konsekvensar -> jobben vart halvgjort

Vi analyserte dei noverande skripta, Trond deltek i diskusjonen pr e-post.

!!!prosjekt framover - status og oversikt

Vi kjem attende til denne saka.