Neural Network 15.01.2021 14:40-15:20 main/techdoc/proof/gramcheck/meetings * text2chars.py: use the following for train and valid: python3 text2chars.py data/src-gtfree-train.text data/tgt-gtfree-train.text * compoundsplitgt.py use the following for train and valid: python3 compoundsplitgt.py data/src-gtfree-train.text (it doesn't write on file -- TODO save output to some file) * replace "- " with " " * skip PROPN from splitting * detitlecase before generation * try prefer nom over gen * split fullstop at the end of the words avvir. no: Sámi Radios ovttasbargu #should split Sámi Radios ovttasbargu #should split ================================================================================ Silje Malene Varsi on 31 March, 2009 05:06:00 NRK Sámi Radio lea álggahan ovttasbarggu #should split máilmmi eami álbmot #good TV- stašuvnnaiguin #take away hyphen ja sii leat čoahkkinastán NRK Sámi Radios Káráš jogas #propernoun vuossárgga ja maŋŋebárgga dán vahku. World Indigenous Television Broadcasters Network nu go gohčoduvvo dat eami álbmot #good TV- stašuvnnaid #take away hyphen ovttasbargu #should split. TV- stašuvnnat #take away hyphen NRK Sámi Radios lea ovttasbargu #should split dáid TV- stašuvnnaiguin #take away hyphen Maori Television, Taiwan Indigenous TV, National Indigenous TV (Australia), S4C (Wales), TG4 (Irland), BBC Alba (Skottland), APTN (Canada) ja SABC (Mátta Afrihká). Ráđđečoahkkinis #should split Káráš jogas oassálaste golbma eami álbmot #good TV-stašuvnnat #should split , Aotearoa (New Zealand), Taiwanas ja Irlánddas. Dát lei dat nubbi ráđđi čoahkkin #good mii eami álbmot #good TV- stašuvnnaiguin lei. NRK Sámi Radios oassálastte sámeradiošeaffa, ođasredakteavra ja prošjeaktaredakteavra ráđđečoahkkinis. Stivrra njunuš olmmái World Indigenous Television Broadcasters Networkas lea Jim Mathers ja son lea hálddašeaddji redaktevra Maori Television New Zealandas. - TV- stašuvnnaid fierpmádat rahpá ođđa vejolašvuođaid ovttasbarggu #should split miellahtu áibmomediain #should split áibmomediain áibmomediain áibmu+N+Cmp/SgNom+Cmp#media+N+Pl+Loc 0,000000 áibmomediain áibmu+N+Cmp/SgNom+Cmp#media+N+Sg+Com 0,000000 áibmomediain áibmu+N+Cmp/SgNom+Cmp#media+N+Err/Orth+Err/Orth+Pl+Loc 0,000000 áibmomediain áibmu+N+Cmp/SgNom+Cmp#media+N+Err/Orth+Err/Orth+Sg+Com 0,000000 áibmomediain áibmomedia+N+Pl+Loc 0,000000 áibmomediain áibmomedia+N+Sg+Com 0,000000 . Dat boahtá čoakkildit daid guđelágan eami álbmot #good TV- stašuvnnaid ja addá vejolašvuođa ovddideapmái, lohká Jim Mathers World Indigenous Television Broadcasters Networka neahttasiidui #should split . ráđđi čoahkkin #good Ráđđečoahkkinis sii áigut ráđđidit áššiid nu go álggahit vahkolaš eamiálbmotmagasiidna #should split , šiehtadit prográmmalonuhusa #should split , lonuhus mielbargiiguin #should split -- lexicalized only ja gelbbolašvuođa gažaldagaid. Prošeakta Dan vuosttaš konkrehtalaš doaimma maid eami álbmot #good álbmumediat #should split dahkat lea oktasaš eami álbmoga #good but should split twice eamiálbmot prográmma #good, but should split twice TV:i. Dát prošeakta boahtá boahtit johtui čakčat dahje álgo 2010:s. oktasaš eamiálbmotprográmma TV:i. > eamiálbmotprográmma eamiálbmotprográmma eamiálbmot+N+Cmp/SgGen+Cmp#prográmma+N+G3+Sg+Acc 0,000000 eamiálbmotprográmma eamiálbmot+N+Cmp/SgGen+Cmp#prográmma+N+G3+Sg+Gen+Allegro 0,000000 eamiálbmotprográmma eamiálbmot+N+Cmp/SgGen+Cmp#prográmma+N+G3+Sg+Gen 0,000000 eamiálbmotprográmma eamiálbmot+N+Cmp/SgGen+Cmp#prográmma+N+G3+Sg+Nom 0,000000 eamiálbmotprográmma eamiálbmot+N+Cmp/SgNom+Cmp#prográmma+N+G3+Sg+Acc 0,000000 eamiálbmotprográmma eamiálbmot+N+Cmp/SgNom+Cmp#prográmma+N+G3+Sg+Gen+Allegro 0,000000 eamiálbmotprográmma eamiálbmot+N+Cmp/SgNom+Cmp#prográmma+N+G3+Sg+Gen 0,000000 eamiálbmotprográmma eamiálbmot+N+Cmp/SgNom+Cmp#prográmma+N+G3+Sg+Nom 0,000000 eamiálbmotprográmma eamiálbmotprográmma+N+G3+Sg+Acc 0,000000 eamiálbmotprográmma eamiálbmotprográmma+N+G3+Sg+Gen+Allegro 0,000000 eamiálbmotprográmma eamiálbmotprográmma+N+G3+Sg+Gen 0,000000 eamiálbmotprográmma eamiálbmotprográmma+N+G3+Sg+Nom 0,000000 eamiálbmotprográmma eapmi+N+Cmp/SgGen+Cmp#álbmot+N+Cmp/SgGen+Cmp#prográmma+N+G3+Sg+Acc 0,000000 eamiálbmotprográmma eapmi+N+Cmp/SgGen+Cmp#álbmot+N+Cmp/SgGen+Cmp#prográmma+N+G3+Sg+Gen+Allegro 0,000000 eamiálbmotprográmma eapmi+N+Cmp/SgGen+Cmp#álbmot+N+Cmp/SgGen+Cmp#prográmma+N+G3+Sg+Gen 0,000000 eamiálbmotprográmma eapmi+N+Cmp/SgGen+Cmp#álbmot+N+Cmp/SgGen+Cmp#prográmma+N+G3+Sg+Nom 0,000000 eamiálbmotprográmma eapmi+N+Cmp/SgGen+Cmp#álbmot+N+Cmp/SgNom+Cmp#prográmma+N+G3+Sg+Acc 0,000000 eamiálbmotprográmma eapmi+N+Cmp/SgGen+Cmp#álbmot+N+Cmp/SgNom+Cmp#prográmma+N+G3+Sg+Gen+Allegro 0,000000 eamiálbmotprográmma eapmi+N+Cmp/SgGen+Cmp#álbmot+N+Cmp/SgNom+Cmp#prográmma+N+G3+Sg+Gen 0,000000 eamiálbmotprográmma eapmi+N+Cmp/SgGen+Cmp#álbmot+N+Cmp/SgNom+Cmp#prográmma+N+G3+Sg+Nom 0,000000 eamiálbmotprográmma eami+A+Cmp#álbmot+N+Cmp/SgGen+Cmp#prográmma+N+G3+Sg+Acc 0,000000 eamiálbmotprográmma eami+A+Cmp#álbmot+N+Cmp/SgGen+Cmp#prográmma+N+G3+Sg+Gen+Allegro 0,000000 eamiálbmotprográmma eami+A+Cmp#álbmot+N+Cmp/SgGen+Cmp#prográmma+N+G3+Sg+Gen 0,000000 eamiálbmotprográmma eami+A+Cmp#álbmot+N+Cmp/SgGen+Cmp#prográmma+N+G3+Sg+Nom 0,000000 eamiálbmotprográmma eami+A+Cmp#álbmot+N+Cmp/SgNom+Cmp#prográmma+N+G3+Sg+Acc 0,000000 eamiálbmotprográmma eami+A+Cmp#álbmot+N+Cmp/SgNom+Cmp#prográmma+N+G3+Sg+Gen+Allegro 0,000000 eamiálbmotprográmma eami+A+Cmp#álbmot+N+Cmp/SgNom+Cmp#prográmma+N+G3+Sg+Gen 0,000000 eamiálbmotprográmma eami+A+Cmp#álbmot+N+Cmp/SgNom+Cmp#prográmma+N+G3+Sg+Nom 0,000000 Roavvenjárgii roavvi+N+Cmp/SgNom+Cmp#njárga+N+Sg+Ill 0,000000 -- brent mark med ungskog nes Roavvenjárgii Roavvenjárga+N+Prop+Sem/Plc+Sg+Ill 0,000000 Roavvenjárgii Roavvi+N+Prop+Sem/Plc+Cmp/SgNom+Cmp/NoHyph+Cmp#njárga+N+Sg+Ill 0,000000 Roavvenjárgii ro+N+Prop+Sem/Org+ACR+Err/Orth+Cmp#avvi+N+Cmp/SgNom+Cmp#njárga+N+Sg+Ill 0,000000 Roavvenjárgii roavis+A+Err/Orth+Cmp/Attr+Cmp#njárga+N+Sg+Ill 0,000000 avvir. no: Juovla stállun #good ro avvi njárgii # Juovla stállun ro avvi njárgii #looked like this: Juovlastállun Roavvenjárgii ================================================================================ Astrid on 31 March, 2009 06:03:00 Kjell Østmo (58), oahpaheaddji Sámi joatkka skuvllas #good Kárášjogas, dolle duorastaga maŋŋá oahpaheaddji barggu ro avvi njárgii #desaster bargat juovla stállun #good Santa Claus’ Village báikkis beassážiid. – Dál bođii buorre fálaldat moadde vahko áigge Roavvenjárggas, juovla nigá fitnodat buvddas, bargat juovlastállun #should split it . Sii dárbbašit juovla stálu #good polára gearddu #good buvdii. Vaikko muhtimat sáhttet gohččodit mu kultuvrra fuorrá Sámis, de ferten dasa vástidit ahte in leat áidna kultuvrra fuorrá. Manin mu, na jus geahčadat gova, de fuomášat manin, reašká Kjell Østby čurges skávžžá duohken. Máilmmi buorre bálká Santa Claus’ Village almmái, Pohjantähti nammasaš láttán, finai moadde vahku dás ovdalis fállamin Kjell Østmoi barggu juovlanigán. #should split – Mun imaštin manin munnje fállá barggu. Jurddašin lei go son nu ahte go mannán geasi fitnen iežan olgu riikka gussiiguin oktan sin mánáiguin juovla nigá #good báikkis. Oidnen muhtin láttán barggai juovla nigán doppe, joatká Østmo. Son muitala ahte Pohjantähti almmái mohkohalai go jearai manin dárbbašit juovlastálu. Dađistaga go Østmo jearai manin, loktii bálkáfálaldaga. #should split – Lea diet gákti miella čájeheapmi ro avvi njárggas golggoha mánus diibmá. Dál balan heajus sátni sáhttá dagahit ahte mun ferten buvdda giddet jus in bargga mainna dáinna áššiin. Danin leange ohcan heivvolaš sápmelačča dán virgái. Fuomášin Kjell Østmo sulastii juovla nigá #good gova bures go geahčadin govaid maid fitnodat govvejeaddji leat váldán maŋimuš jagi go olbmot háliidit mátki muittu #original mátkemuittu - good juovla nigás ja sis, vuige Santa Claus giláš almmái. Østmo muitala son čárvii čalmmiid go oaččui máilmme buorre bálká, ja bargu áigge fálaldaga ja logai juo. Mánáide hárjánan Kjell Østmo muitala son lea eallin agi nuoraiguin hárjánan bargat ja eaige mánát leat sutnje apmasat. – Ledjen 40 jagi go adopterejin nieiddaža nu ahte veaháš gal lean nuorat mánáide ge hárjánan, lohká son ja njávkkasta čurges skávžžá. Son muitala son lea šaddadan skávžžá nuorravuođa rájes ja dat lea áiggi mielde čurggodan – Šaddá hui miellagiddevaš, joatká Østmo ja muitala soai leaba nieiddain šiehtadan masa tienas galgá mannat. Giellačeahppái dárbu Santa Claus dahje juovla nigá giláš almmái muitala sii dárbbašit giellačeahpes juovla nigá gii sáhtášii mánáiguin háleštit iešguđet gillii ja Østmo deavdá sin giellagáibádusaid. #should split – Dál beasan fas ođasmahttit tuiska- ja fránskka giela #good maid in lea 30 jahkái hállan, ja ruoššagiela. #should split Espánnja giela #good buoret oahppat. Máhtán eŋgelas giela ja smávva gielaid nugo dáro- ja ruoŧa giela ja máilmmi gielaid #good nugo sámegiela. #should split Láttán deattuhii sámegiel gelbbolašvuođa. Ádden dan mađe suoma giela #good ahte guokte vuola fidnen, muhto in golbma, lohká Kjell Østmo loahpas.