Denne fila dokumenterer leksikonformatet i fila [sme.nob.dict|http://gtsvn.uit.no/langtech/trunk/langs/sme/tools/mt/cgbased/lex/sme.nob.dict] !!!Mekanisme: Elsewhere for 4 alternativ: lemma 4 1 2 3 Altså: Default er 4, frå og med andre posisjon og mot høgre. !!!Ting å hugse på: * formalismen er lavet til dependens-træer (D=daughter GD=granddaughter, H=head, GM=grandmother), og de er ikke brugt i cglex. I stedet er der *-kontekster og BARRIER i cglex. ** Jeg kan muligvis tilføje * i formalismen, men hvis det kombinere med LINK og BARRIER bliver det svært. ** Løsningen må, for mig at se, snarere være at omskrive disse relativ få steder til dependens, fx D=( @OBJ) for et humant objekt i et verbumsopslag, i stedet for *1 ( @OBJ BARRIER CLB OR V). ** Kan I prøve at se, om ogi hvilken grad det er muligt, i sme.nob.dict filen? Ja, det ser ut til å være en rimelig konklusjon. Poenget er jo å utnytte dependensen, og vi skal se på muligheter for omskriving. Trond ser på det. Vedlagt er en liste af de pardefs der forekom i cgdix i forbindelse med oversættelsesopslag (replace_patternsE). Min idé er at erstatte disse med en replace/insert-opskrift i sme.nob.dict: [from->to], og der kan være flere end én: [sg_m_RL_f__n] [pl->sg][n->n±m] '±' bliver til ' ' (space) i output, tomrum er bare et beskyttet tegn i .dict-formatet. Af samme grund er der '=' alle de steder i ord og lemmata, hvor i har mellemrum inde i ordet. Kan I færdiggøre og/eller kommentere omskrivningerne i pardef-filen? Ja, Lene skal gjøre dette. Der er nogle enkelte uregelmæssigheder, jeg har udskrevet i toppen af .dict filen, hvor en cglex-regel syntes at gå efter en oversættelse, der slet ikke var i cgdix. Muligvis pga af et matching-problem i mit script. Men der er tale om ret få tilfælde, som i måske kan klare ved inspektion i filen. Ja, det er feil (uoverenstemmelse mellom .lex og .dix. fordi det har vært gjort endringer i dix som ikke er fulgt opp i lex. Disse tilfellene kan vi bare stryke. MANGLENDE POS: En sidste ting: Normalt har jeg altid en POS for et .dict opslag (som _POS efter lemma), men cgdix havde entries uden POS, som så er blevet til _X. Er det korrekt gættet, at sme-input alligevel HAR en POS? Fordi så kan den evt. benyttes, eller også må MT-kernen slå op i dict med _X, når den ikke kan finde en "tilladt" ordklasse i input (N, A, ADV, V, PRON Det er riktig at vi ikke alltid har ført det opp i ordpar entrynen i dix. Det er flere grunner til dette: 1) noen tilhører loops for å lage tallord, ala njeallječuođinjeallje = fire-hundre-fire (= 404), og da skal PoS selvfølgelig bare komme til slutt. 2) noen får PoS i pardefs, og kunne like gjerne hatt det i selve entryen, f.eks. N ABBR - N ACR. Bør vi endre dette før ny dict-fil lages? 3) noen får flere PoS, f.eks. lemma 'X' får SL:pr og post => TL: pr (sme har mange ambiposisjoner), eller også lemma 'X' får SL:pr og post og adv => TL: pr og adv Disse liker jeg ikke helt fordi det er ikke alltid vi vil ha samme oversettelse til nob, og jeg kan omgjøre disse til ordpar i dix før ny dict-fil lages. Lene tar seg av dette. Til brev fredag 14.08 Lige for at sige, at det jo ikke kan "testes" i egentlig forstand, fordi der ikke er en sme2nor kerne endnu, der skal læse og bruge .dict filen. Hva inngår i en sme2nob-kjerne, og hva skal til for å lage den? Så det jeg have feedback på, er mest, om I synes, det er realistisk, at have alle semantiske disambigueringsregler med i .dict-filen. Det er i de aller fleste tilfelle realistisk med .dict. Spørsmålet er så om vi trenger formalismen fra .lex (altså ordinær CG) i tillegg til .dict. Det vet vi ikke enda, og det er også avhengig av dine *1 og *-1 -tilpasninger \ (nedenfor). Med mapping av semantiske motiverte tagger, slik som du har skissert, burde fungere for de fleste reglene. I alle fall er vel mekanismen modulær nok til bare å legge til en .lexc etter .dict i pipeline? *1 og *-1 har jeg forresten også fået til at virke nu (dog uden BARRIER). Fint. Men under alle omstændigheder tror jeg, at meget at det kunne mere præcist formuleres som dependens: D=(....) Ja, det ser ut til å være en rimelig konklusjon. Poenget er jo å utnytte dependensen, og vi skal se på muligheter for omskriving. Trond ser på det. Vi ser på .dict og finner disse: * B = brother * D = daughter * GD = granddaughter, * GM = grandmother * H = head, (mother) * P-1 = en posisjon til venstre * P1 = en posisjon til høyre * S = self Er det noen dependensrelasjoner vi mangler? Finnes det en urmoder (oldemor)?