Maider eta Antton: Euskarazko TTS ahotsak Piper motorrerako egokitu ditut
Azkenaldian adimen artifizialeko eredu lokalekin nabil lanean edo hobe esan, etxean probak egiten nire etxeko "laborategi" informatikoan. Hainbat kezka eta jakin min ditut buruan AAri dagokionez (ez naiz orain denak esaten hasiko) eta horietako bat euskarazko TTS (Text To Speech) libreen beharra izan da aspalditik. Testutik euskarazko audiora pasatzen duen teknologia badugu, baina ez zegoen orain arte software librean txertatzeko modurik. Gainera, erabiltzen ditudan software libreko hainbat proiektutan TTS teknologia hau eskuragarri dago dagoeneko; Piper da horren adibideetako bat. Nola hitz egingo dut nik nire etxe domotikoarekin? Nola etorkizun batean kotxea edo bestelako IoT (Internet of Things) teknologiekin?
Piper aspalditik ezagutzen nuen, Home Assistant domotika aplikazioan erabiltzen nuelako, baina beti izan dut arantza bera: ez zegoen euskarazko ahotsik! Oro har, euskarazko TTS ahots libreen falta nabaria da; Aholabek argitaratutako bertsio zaharren bat publiko dagoen arren, teknologia hori guztiz zaharkituta geratu da eta ezinezkoa egiten zitzaidan Piper moduko tresna modernoetan integratzea. Zerbait berria behar nuen, ezinbestean.
Bilaketa horretan nenbilela, HuggingFace plataforman Antton eta Maider ahotsak aurkitu nituen duela aste batzuk, HiTZ zentroak eta Aholab ikerkuntza taldeak (EHU) IKER-GAITU eta ILENIA proiektuen baitan garatutakoak. Prentsa ohar ofizialik oraindik ikusi ez nuen arren, kalitate handiko eredu neuronalak zirela konturatu nintzen berehala (hona hemen orain, prentsa ohar ofiziala).
Hala ere, muga tekniko bat ikusi nien: jatorrizko bertsioak fitxategi binario baten bidez exekutatu behar ziren. Horrek asko zailtzen zuen sistema eragile desberdinetan modu arinean integratzea. Bi aldiz pentsatu gabe, ahots hauek Piper formatura egokitzeari ekin nion. Itzune taldean ere eztabaidatu genuen proiektua eta, taldearen babes eta animoekin, integrazioa errazteko prozesuari ekin nion. Prozesua sinplea baina luzea zen:
-
Lehenik Mozilla Common Voice proiekturako prestatu zen domeinu publikoko 100.000 esaldiko testu fitxategia eskuratu eta moldatu nuen. Testu hauek, ahots berriak sortzeko eta entrenatzeko beharrezko izango nituen audio esaldiak sortzeko oinarria izango ziren.
-
Ondoren, HiTZen ahotsak erabiliz, ahots bakoitzarentzat ia 100.000 audio esaldi sortu nituen. Funtsean, entrenamendurako datu sortak. Lan neketsua izan zen; ahots bakoitzeko 2 egun pasatxo behar izan nituen audio guztiak sortzeko. Datu-sorta hauek publiko utzi ditut guztiontzat: itzune/maider-dataset eta itzune/antton-dataset.
-
Azkenik, esaldi sintetiko horiek erabiliz eta ia 3 eguneko entrenamenduaren ostean, HiTZ zentroak sortutako ahotsak berreraiki nituen (ahots originalen klon batzuk dira), baina oraingoan Piper motorrerako guztiz baliagarriak diren VITS arkitekturan eta ONNX formatuan.

Emaitzarekin oso pozik nago: orain edonork erabil ditzake Maiderren eta Anttonen ahotsak bere ordenagailuan era lokalean, Interneteko konexiorik gabe eta oso azkar, komando-lerrotik zein Python API bidez. Urrats garrantzitsua iruditzen zait euskarazko teknologia irisgarriagoa izan dadin edozein software garapenetan, exekutagarri itxi baten menpe egon gabe.
Ereduak, fitxategiak eta erabiltzeko argibide guztiak Itzune taldearen Hugging Face kontuan argitaratu ditut:
- Maider: itzune/maider-tts
- Antton: itzune/antton-tts
Bide batez, Piper software librean ere ofizialki txetatzeko lanak hartu ditut eta oraindik integratu ez badituzte ere, laster egitea espero dut: https://github.com/OHF-Voice/piper1-gpl/issues/151
Espero dut ekarpen honek HiTZen eta Aholaben lan bikainari erabilgarritasun praktikoagoa ematen laguntzea!

Iruzkinak
Utzi iruzkina: