LibreTranslate itzultzaile automatiko libreari euskara irakatsi diogu
LibreTranslate doakoa eta kode irekiko itzulpen zerbitzua da eta hainbat hizkuntzen artean testuak automatikoki itzultzeko aukera eskaintzen du.
Aldi berean, ez da kanpoko API edo zerbitzari komertzialetan oinarritzen, erraz erabil daitekeen interfazea eskaintzen du eta norberaren zerbitzari batean jar daiteke martxan, pribatutasuna eta datuen kontrola bermatuz. Hizkuntza aniztasuna sustatzea eta teknologia irekia bultzatzea ditu helburu nagusi eta software librearen komunitatearen laguntza eta garapena duenez, edonork beren proiektuetan integratu dezake doan eta lizentzia libreenpean.
Beraz, euskara bezalako hizkuntza minorizatuentzat berebiziko tresna bat da. Librezale edo Game Erauntsia bezalako proiektuetan, non software librea edota bideojokoak musutruk itzultzen diren komunitate hauetan, itzulpen iradokizun onak egiten dituen tresna libre eta doako bat eskura izatea aspalditik buruan nebilkien ideia bat zen. Badira gure inguruan hainbat enpresek eta erakundek sortutako itzultzaile oso onak, baina, guztiz librea den tresna bat eskura izatea ezinbestekoa iruditzen zitzaidan.
Aukera mordo bat sortzen dituelako, eta bide ematen dielako baita ziurrenik ere (datu libreetan oinarritzen baita) bestelako enpresei ere tresna berri eta hobeagoak sortzeko. Beraz, zuzenean LibreTranslate komunitatean ikertu eta honelako modelo bat sortzeko zer egin behar zen ikasi, eta nire kabuz bat sortu nuen. Dokumentazioan aipatzen zuen moduan, modeloa entrenatzerako orduan, Opus project delako korpusean dauden datu libreak erabiltzen ditu defektuz eta ingelesetik euskararako ereduarekin hastea iruditu zitzaidan onena.
Bi arrazoi nituen horretarako:
- Aurkitu nuen Corpusik handiena zen (~12 milioi esaldi)
- LibreTranslate tresnak ingelesa erabiltzen du "komodin" moduan gainerako hizkuntzen arteko itzulpen gurutzatuak egiteko. Hau da, Galizieratik euskararako testu bat itzuli behar badu, GL -> EN -> EU itzulpen fluxu bat egiten du. Galizieratik ingelesera, eta ingelesetik euskarara, zuzenean itzuli beharrean.
Horrela, EN -> EU eta EU -> EN modeloak lortuz gero, LibreTranslatek eskura zituen gainerako hizkuntzetarako itzulpenak ere eskuragarri izango zituen edonork, naiz eta adituek dioten moduan, modu honetako itzulpenak kalitate eskasagokoak izan. Zerbait eskura izatea zen kontua, eta software libreko tresna honetan ere euskara presente egotea!
Opus Project-ek eskeinitako ~12 milioi esaldi pare (ingelesetik euskarara), 10€ bat euro, 12 ordu eta 100 bat GB behar izan nituen entrenamendu osoa gauzatzeko. Noski, horretarako prestatutako makina bat alokatu behar izan nuen, edozein makinak ez baitu balio (besteak beste NVIDIA markako GPU ahaltsu bat behar izan nuen). Dokumentazioan bertan zetorren lotura bat erabili nuen https://vast.ai/ zerbitzuko makina alokatzeko, horrela argostranslate itzultzaile modelo hauek sortzeko proiektuak berak ere komisio portzentaia bat jasotzen baizuen.
Nire sorpresarako baina nire modeloa garatzaileen eskura jarri eta publitzerakoan zera jakin nuen, LibreTranslateko garatzaileak ere euskarazko lehen modelo hori sortzen ari zirela! Proiektuko foroan gure modeloek itzulitako hainbat testu partekatu ostean, garatzailea berak sortutako modeloa hobea zela ondorioztatu nuen eta berori txertatzea erabaki genuen. Ondoren, EU -> EN modeloa ere garatzaileek sortu eta LibreTranslaten hizkuntzen zerrendan argitaratu zuten.
Bitartean, LibreTranslate nire etxeko ordenagailuan muntatu eta martxan jarrita eta nik neuk sortutako ingelesa-euskara modeloaren laguntzaz LibreTranslate beraren interfazea euskaratu nuen! Horixe baita software librea, eskaintzen dituen aukerak infinituak dira!
Bada, une honetan, eta Galizieraren aurretik beste 92 hizkuntzekin batera eskuragarri duzue itzultzaile zerbitzu libre hau. Dagoeneko eskuragarri duzue https://libretranslate.com webgune ofizialean, proba txikiak egin nahi badituzue. Erabilera intentsiboagoa egiteko baina, GAKO bat eskatu beharko duzue. Alternatiba moduan hala ere, norberak honelako zerbitzari bat martxan jar dezake doan. Nik dagoeneko badaukat nirea ;)
Erabilera ezberdinak
Tresna honek API ireki bat eskeintzen duenez, ezagunak eta libreak zaizkigun beste hainbat zerbitzutara lotu dezakegu. Niretzat erabilgarrienetariko bat, Weblate modu kolaboratiboan eta online itzulpenak egiteko software libreko tresnari lotzea da. Modu honetan, demagun aplikazio bat itzultzerakoan, LibreTranslate itzultzaile automatikotik zuzenean pasa eta iradokizunak egingo baidizkigu. Beheko adibidea, NINA astrografiako nire programa gogokoenaren itzulpen faseko zati bat, LibreTranslateko iradokizunekin:
Mastodon zerbitzariarekin lotzeko aukera ere ematen du, horrela adibidez, mastodon.eus-en konfiguratuko bagenu, beste hizkuntzetako instantzietako bidalketak itzuli eta errazago jarraitzeko aukera izango genuke. Irudian, LibreTranslate lotuta duen adibide bat, non, bidalketa bakoitzean "Translate" edo "Itzuli" aukera agertzen den bidalketa hori momentuan itzuli ahal izateko.
Hemendik aurrera zer
Hurrengo lana, datu multzo libre gehiago lortzea izango da nire ustez. Zertarako? Bada orain LibreTranslaten dagoen eredua hobetzeko eta baita gure inguruan ditugun euskal enpresa ezberdinen hizkuntz teknologiak ere hobetzeko. Izan ere, Euskarabildua jardunaldietan aitortu duten moduan, oso erabilgarri egin zaie bere garaian Common Voice proiektua eta ziurrenik (ia segurtasun osoz diot) Opus project moduko corpus libreak ere erabiltzen dituztela beren modeloak entrenatzeko. Uste dut orohar, euskal komunitate osoa izango dela onuradun, zeren, urteek berresten duten bezala; arlo digitalean euskarak aurrerapauso handiak eman baditu, software eta eduki libreengatik izan da.
Beraz, honi buruz pentsatzen jardun nuen eta konturatu naiz badaudela hainbat eta hainbat eduki eta software lizentzia libredun dagoeneko itzulita esplotatu daitezkeenak. Gertutik bizi dudalako Game Erauntsiaren adibidea jarriko dut. Izan ere, bideojokoen euskal komunitate honek hainbat eta hainbat joko ditu euskaratuta, tartean software librekoak. Eta nola ez, corpus hau leku zentralizatu batean (Weblate softwarearen bitartez) gordetzen saiatu da elkartea. Besteak beste, itzulpen memoriak edukitzeko.
Bada, hau jakinda, itzulpen fitxategi horiek LibreTranslateko modelo bat entrenatzeko behar den dataset edo datu multzo bat osatzeko po2dataset izeneko tresna bat programatu dut. Hemen dago LibreTranslateko foroan ere eztabaida irekita, interesa duenarentzat.
Tresna hau erabil daiteke lizentzia librea duten bideojokoen testuak erauzi eta bideojokoei buruzko euskarazko datu multzo bat sortzeko eta hurrengo nire helburua hauxe izango da.
Librezale izan daiteke baita honen antzeko lana baina softwarearekin egin duena, eta iturri oso ona litzateke software terminologia barneratua duen euskal datu multzo libre bat sortzeko... Beno, hemendik deia Librezaleko lagunei... nik harria jaurti dut.
AH! Eta behin eskatzen hasita... nork jarriko du LibreTranslate-en euskal komunitatearentzat zerbitzari dedikatu bat? Euskal komunitate osoan egongo da norbait ardura hau har dezakeena ezta? Ni, laguntzeko prest ;)
Besterik gabe bada, bidaia honek etorkizun oparoa izan dezala amestuz joango naiz gaur lotara eta software eta eduki librea direla bidea, inoiz baino konbentzimendu handiagoz pentsatuz.
Iruzkinak
Utzi iruzkina: