Dokumeanta čilge mo galgá bargat parallelliseremiin ja sirdit fiillaid prestable-katalogii. !!!Katalogat Proseassa: Vuos konverteret, ja dan maŋŋil parallelliseret. * __orig__: originálafiila (pdf, txt dahje html) ja meta-fiila (xsl) * __converted__: originálafiillat konverterejuvvojit xml-formáhtan. Dáid fiillaid ii galgga divvut, muhto sáhttá rahpat daid jus háliida geahččat mo konverteren lea lihkkostuvvan, omd. mo prográmma dovdá gielaid. Jus fiillat eai leat paralleallat, de ii-sámi fiilla galgá sihkkojuvvot, ja maiddái dieđuid paralleallafiillaid birra sámi-fiillain. * __prestable__: dárkkistuvvon parallelliserejuvvon fiillat. Mii háliidit divvut orig-máhpas nu ollu go vejolaš nu ahte tmx-fiillat automáhtalaččat šaddet buorit. !!Gohččumat Dihtogielalaš gohččumat geavahit nob2sma ovdamearkan !Viežžat corpustools ođđaseamos veršuvnna Go leat main/tools/CorpusTools/ {{{ python setup.py install --user --install-scripts=$HOME/bin }}} !Kompileret tokeniser gielaide maid dárbbašat sihke langs/nob- ja langs/sma-máhpas: {{{ ./autogen.sh ./configure --prefix=$HOME/.local --without-xfst --with-hfst --enable-tokenisers --enable-reversed-intersect --enable-alignment make -j make install }}} !Gávdnojitgo paralleallafiillat dihto giellabáras dihto máhpas? Doaibmá freecorpusis/ ja boundcorpus/ -máhpain: {{{ grep -rl '"sma" location="..*"' --include=*.xsl orig/nob/science/ }}} !Konverteret buot fiillaid dihto máhpas convert2xml orig/nob/science/ convert2xml orig/sma/science/ !Parallelliseret buot fiillaid dihto máhpas parallelize -l2 sma converted/nob/science/ !Reparallelliseret dihto fiilla Go leat rievdadan xsl-fiillas, de dát gohččun sihke konvertere ja parallellisere ođđasit: reparallelize FIILANAMMA.tmxhtml !!!Bargovuohki # Iskka tmx-fiilla __tmx__-katalogas (mii ii leat svn:s) # Divo xsl-fiilla __orig__-katalogas # Vejolaččat raba fiilla __converted__-katalogas geahččat omd. gielladovdama dahje eará mii ii leat doaibman nugo galggašii, muhto ále divo dán fiillas. # Parallellisere ođđasit: {{reparallelize tmxhtml}} # Go leat duhtavaš, dahje don it sáhte fikset eanet xsl-fiillas, de sirddát fiilla omd. prestable/tmx/nob2sme/ ja šekket sisa (vuos svn add). Čále logas leago parallelliseren OK vai ii. # Jus parallelliseren ii leat OK, de sáhtát divvut prestable-fiilla, ja de šekket ođđašit sisa kommentáraiguin (muital maid leat bargan). !!Iskka tmx-fiilla tmx-katalogas Mana buot omd. nob2sma-katalogaid alfabehtalaččat čađa (vuos ''freecorpus/tmx/nob2sma/admin/depts/other_files'' ja dan maŋŋel čuovvovaš kataloga (''udir.no'') jna.: Lea vejolaš rahpat buot fiillaid oktanaga kommandolinjjás: {{open *.tmx}} dahje dušše oasi, jos leat hui ollu fiillat: {{open a*.tmx}} jna. Jos .tmx-fiillas ii leat parallealla sisdoallu: * raba fiillaid orig-máhpas, oaidnit sisdoalu: ** html {{open fiila.html}}, dahje ** pdf {{open fiila.pdf}} dahje ** txt {{open fiila.txt}} * {{see fiila.html.xsl}} redigeret xsl-fiilla. * vej. {{see fiila.html}} redigeret html-fiilla. !!Divo xsl-fiilla orig-katalogas Mo rievddadit xsl-fiilla jos paralleallafiillas lea feaila: * jos paralleallafiila ii leatge parallealla, de váldde liŋkka eret ** oza ''"parallels"'' * jos multilingual/monolingual ii leat riekta, de divo ** oza ''"monolingual"'' (1 mearkkaša ahte lea monolingual) ** divo, jus dárbu: ** divo, jus dárbu: ** ''mlangs'' galget dušše gielat, mat leat dokumeanttas ** ''mlangs'' galgá leat guorus jus monolingual * lasit almmuhanjagi (jus ii leat), jus lea vejolaš dan oaidnit ** oza ''"year"'' * geavat iešguđetlágan skip-funkšuvnnaid (Reetta diehtá) * čuokkis gos galgá leat rihkku mii fikset .xsl-fiillas !!Divo html-konverteren corpustools/htmlcontentconversion.py !!Divo html-fiilla orig-katalogas * Raba geahččat sisdoalu: {{open fiila.html}} * Raba divvut: {{see fiila.html}} * Raba geahččat konverterema (omd. gielladovdama): converted-máhpas {{see fiila.html.xml}}. Dán fiilla it galgga divvut, danne go dat genererejuvvo !Maid sáhtát divvut orig-fiillas? Nu unnán go vejolaš. Jos lea vejolaš fikset ášši .xsl-fiillas, de daga dan. Jos lea jierpmálaš divvut prestable-tmx-fiillas, de daga dan. __Metateaksta__ Sáhtát orig-fiillas sihkkut metateavstta, mii bilida parallelliserema dahje gielladovdama, omd. * Powered by ..., ja dalle ii galgga leat ''eng'' xsl-fiillas Fuom, ahte "buhtis" metateaksta (taggaid haga) lea álkit sihkkut .xsl-fiillas. __html-taggat__ Jos parallelliseren manná endorii html-taggaid dihte, lea 4 molssueavttu Nu Muhto jos lea álkibut divvut tmx-teavstta, de daga na: # svn mv prestable/../fiila.tmx stable/../fiila.tmx + svn ci # rievdat -nodaid # sjekke sisa divvojuvvon veršuvnna Tagga (+ attribuhtta) lea vejolaš váldit eret das: {{$GTHOME/tools/CorpusTools/corpustools/htmlcontentconverter.py}} Prinsihpas lea maid vejolaš dahkat dan juohke fiillas, .xsl:as: {{{ }}} muhto dat ii velge doaimma. !!Parallellisere ođđasit !jus lea rievdadan xsl-fiilla de * vuos {{realign --convert fiila.tmx}} * ja dan maŋŋel {{realign fiila.tmx}} !Jos lea buorre boađus: Šekke sisa ođđa veršuvnnaid, sihke orig, convert ja prestable, ja merke OK bargolistui. !Jos lea measta riekta: Šekke sisa ođđa veršuvnnaid, sihke orig, convert ja prestable, ja čále kommentára bargolistui. !Jos ii veahket, Čále kommentára bargolistui, ja sihko tmx-fiilla ja dan html-veršuvnna prestable-katalogas, e.g. {{{ svn rm prestable/tmx/nob2sma/facta/fiila.tmx svn rm prestable/tmx/nob2sma/facta/fiila.tmx.html svn ci -m "ii lean parallealla" prestable/tmx/nob2sma/facta/fiila.tmx prestable/tmx/nob2sma/facta/fiila.tmx.html }}} Lea vejolaš * váldit eret teavstta nob-fiillas * váldit nob-teavstta eret smX-fiillas ** muhto buoret lea dahkat dan tmx-fiillas prestable-katalogas stable-katalogii. !!Konverterenprográmma buggat Čále listui ahte lea bugga, ja makkár dat lea, omd BUG-punktum dahje BUG-mellomtittel dahje BUG-språkgjenkjenning omd mo listu sáhttá leat (go kommentára lea linnjá álggus, de lea álki sorteret: {{{ OK : prestable/tmx/nob2sma/facta/gielemnastedh.no/apen-barnehagedag.html.tmx.html Sihkkon : prestable/tmx/nob2sma/bible/osko/index.php_kat_id=102_art_id=88.html.tmx.html To_be_fixed BUGpunktum (dahton loahpas) : prestable/tmx/nob2sma/admin/sd/samediggi.no/sametinget-inviterer-til-duodjikonferanse-27.-28.-januar-2016.html.tmx.html }}}