Dokumeanta čilge mo galgá bargat parallelliseremiin ja sirdit fiillaid prestable-katalogii.
!!!Katalogat
Proseassa: Vuos konverteret, ja dan maŋŋil parallelliseret.
* __orig__: originálafiila (pdf, txt dahje html) ja meta-fiila (xsl)
* __converted__: originálafiillat konverterejuvvojit xml-formáhtan.
Dáid fiillaid ii galgga divvut, muhto sáhttá rahpat daid jus háliida
geahččat mo konverteren lea lihkkostuvvan, omd. mo prográmma dovdá gielaid.
Jus fiillat eai leat paralleallat, de ii-sámi fiilla galgá sihkkojuvvot, ja maiddái
dieđuid paralleallafiillaid birra sámi-fiillain.
* __prestable__: dárkkistuvvon parallelliserejuvvon fiillat. Mii háliidit divvut
orig-máhpas nu ollu go vejolaš nu ahte tmx-fiillat automáhtalaččat
šaddet buorit.
!!Gohččumat
Dihtogielalaš gohččumat geavahit nob2sma ovdamearkan
!Viežžat corpustools ođđaseamos veršuvnna
Go leat main/tools/CorpusTools/
{{{
python setup.py install --user --install-scripts=$HOME/bin
}}}
!Kompileret tokeniser gielaide maid dárbbašat
sihke langs/nob- ja langs/sma-máhpas:
{{{
./autogen.sh
./configure --prefix=$HOME/.local --without-xfst --with-hfst --enable-tokenisers --enable-reversed-intersect --enable-alignment
make -j
make install
}}}
!Gávdnojitgo paralleallafiillat dihto giellabáras dihto máhpas?
Doaibmá freecorpusis/ ja boundcorpus/ -máhpain:
{{{
grep -rl '"sma" location="..*"' --include=*.xsl orig/nob/science/
}}}
!Konverteret buot fiillaid dihto máhpas
convert2xml orig/nob/science/
convert2xml orig/sma/science/
!Parallelliseret buot fiillaid dihto máhpas
parallelize -l2 sma converted/nob/science/
!Reparallelliseret dihto fiilla
Go leat rievdadan xsl-fiillas, de dát gohččun sihke konvertere ja parallellisere ođđasit:
reparallelize FIILANAMMA.tmxhtml
!!!Bargovuohki
# Iskka tmx-fiilla __tmx__-katalogas (mii ii leat svn:s)
# Divo xsl-fiilla __orig__-katalogas
# Vejolaččat raba fiilla __converted__-katalogas geahččat omd. gielladovdama dahje eará mii ii leat doaibman nugo galggašii, muhto ále divo dán fiillas.
# Parallellisere ođđasit: {{reparallelize tmxhtml}}
# Go leat duhtavaš, dahje don it sáhte fikset eanet xsl-fiillas, de sirddát fiilla omd. prestable/tmx/nob2sme/ ja šekket sisa (vuos svn add).
Čále logas leago parallelliseren OK vai ii.
# Jus parallelliseren ii leat OK, de sáhtát divvut prestable-fiilla, ja de šekket ođđašit sisa kommentáraiguin (muital maid leat bargan).
!!Iskka tmx-fiilla tmx-katalogas
Mana buot omd. nob2sma-katalogaid alfabehtalaččat
čađa (vuos ''freecorpus/tmx/nob2sma/admin/depts/other_files''
ja dan maŋŋel čuovvovaš kataloga (''udir.no'') jna.:
Lea vejolaš rahpat buot fiillaid oktanaga kommandolinjjás: {{open *.tmx}}
dahje dušše oasi, jos leat hui ollu fiillat: {{open a*.tmx}} jna.
Jos .tmx-fiillas ii leat parallealla sisdoallu:
* raba fiillaid orig-máhpas, oaidnit sisdoalu:
** html {{open fiila.html}}, dahje
** pdf {{open fiila.pdf}} dahje
** txt {{open fiila.txt}}
* {{see fiila.html.xsl}} redigeret xsl-fiilla.
* vej. {{see fiila.html}} redigeret html-fiilla.
!!Divo xsl-fiilla orig-katalogas
Mo rievddadit xsl-fiilla jos paralleallafiillas lea feaila:
* jos paralleallafiila ii leatge parallealla, de váldde liŋkka eret
** oza ''"parallels"''
* jos multilingual/monolingual ii leat riekta, de divo
** oza ''"monolingual"'' (1 mearkkaša ahte lea monolingual)
** divo, jus dárbu:
** divo, jus dárbu:
** ''mlangs'' galget dušše gielat, mat leat dokumeanttas
** ''mlangs'' galgá leat guorus jus monolingual
* lasit almmuhanjagi (jus ii leat), jus lea vejolaš dan oaidnit
** oza ''"year"''
* geavat iešguđetlágan skip-funkšuvnnaid (Reetta diehtá)
* čuokkis gos galgá leat rihkku mii fikset .xsl-fiillas
!!Divo html-konverteren corpustools/htmlcontentconversion.py
!!Divo html-fiilla orig-katalogas
* Raba geahččat sisdoalu: {{open fiila.html}}
* Raba divvut: {{see fiila.html}}
* Raba geahččat konverterema (omd. gielladovdama): converted-máhpas {{see fiila.html.xml}}. Dán fiilla it galgga divvut, danne go dat genererejuvvo
!Maid sáhtát divvut orig-fiillas?
Nu unnán go vejolaš. Jos lea vejolaš fikset ášši .xsl-fiillas, de daga dan.
Jos lea jierpmálaš divvut prestable-tmx-fiillas, de daga dan.
__Metateaksta__
Sáhtát orig-fiillas sihkkut metateavstta, mii bilida parallelliserema dahje gielladovdama, omd.
* Powered by ..., ja dalle ii galgga leat ''eng'' xsl-fiillas
Fuom, ahte "buhtis" metateaksta (taggaid haga) lea álkit sihkkut .xsl-fiillas.
__html-taggat__
Jos parallelliseren manná endorii html-taggaid dihte, lea 4 molssueavttu
Nu
Muhto jos lea álkibut divvut tmx-teavstta, de daga na:
# svn mv prestable/../fiila.tmx stable/../fiila.tmx + svn ci
# rievdat -nodaid
# sjekke sisa divvojuvvon veršuvnna
Tagga (+ attribuhtta) lea vejolaš váldit eret das:
{{$GTHOME/tools/CorpusTools/corpustools/htmlcontentconverter.py}}
Prinsihpas lea maid vejolaš dahkat dan juohke fiillas, .xsl:as:
{{{
}}}
muhto dat ii velge doaimma.
!!Parallellisere ođđasit
!jus lea rievdadan xsl-fiilla de
* vuos {{realign --convert fiila.tmx}}
* ja dan maŋŋel {{realign fiila.tmx}}
!Jos lea buorre boađus:
Šekke sisa ođđa veršuvnnaid, sihke orig, convert ja prestable, ja merke OK bargolistui.
!Jos lea measta riekta:
Šekke sisa ođđa veršuvnnaid, sihke orig, convert ja prestable, ja
čále kommentára bargolistui.
!Jos ii veahket,
Čále kommentára bargolistui, ja sihko tmx-fiilla ja dan html-veršuvnna prestable-katalogas, e.g.
{{{
svn rm prestable/tmx/nob2sma/facta/fiila.tmx
svn rm prestable/tmx/nob2sma/facta/fiila.tmx.html
svn ci -m "ii lean parallealla" prestable/tmx/nob2sma/facta/fiila.tmx prestable/tmx/nob2sma/facta/fiila.tmx.html
}}}
Lea vejolaš
* váldit eret teavstta nob-fiillas
* váldit nob-teavstta eret smX-fiillas
** muhto buoret lea dahkat dan tmx-fiillas prestable-katalogas stable-katalogii.
!!Konverterenprográmma buggat
Čále listui ahte lea bugga, ja makkár dat lea, omd BUG-punktum dahje BUG-mellomtittel dahje BUG-språkgjenkjenning
omd mo listu sáhttá leat (go kommentára lea linnjá álggus, de lea álki sorteret:
{{{
OK : prestable/tmx/nob2sma/facta/gielemnastedh.no/apen-barnehagedag.html.tmx.html
Sihkkon : prestable/tmx/nob2sma/bible/osko/index.php_kat_id=102_art_id=88.html.tmx.html
To_be_fixed BUGpunktum (dahton loahpas) : prestable/tmx/nob2sma/admin/sd/samediggi.no/sametinget-inviterer-til-duodjikonferanse-27.-28.-januar-2016.html.tmx.html
}}}