Siri eta Cortana ere euskaltegira bidaltzeko garaia

Juanma Gallego 2023ko aza. 11a, 06:00
'Gaitu.eus' webgunera jo behar da 'Common Voice' proiektuaren baitan grabazioak egiteko. Argazkia: ALEA

Ahots bidezko ezagutza euskaraz posible egin ahal izateko gaitu.eus ekimena abiatu dute. Ahalik eta euskaldun gehienen grabazioak bildu nahi dituzte, gailu teknologikoekiko elkarrekintzak ahalbidetzeko. Grabazioak egiteaz gain, grabazio horiek balidatuko dituen jendearen bila ari dira. 

"Oye, Siri. Zer da Arabako ALEA?". No sé qué responder a eso. Eskerrak oraingo honetan makina ez den haserretu. Eta arrazoirik ez luke faltan, testu bidez jasotakoaren arabera, ulertu duelako Siri, cerda, arabaco. Bigarren saiakeran ere ahalegindu da gizajoa, eta, oraingoan bederen, ez du mezua iraintzat hartu. Fin eta zintzo erantzun du ispilu beltzaren barruan sartuta dagoen jeinu magikoak. No tienes recordatorios sobre barbacoa.

Argi dago, Siri andrea, gure artekoak ez duela etorkizun askorik. Ez euskaraz, behintzat.

"Tren hau galtzen baldin badugu, euskara atzean geratuko da". Oraingoan hizketan dabilena ez da silizioan oinarritutako tramankulu bat, karbonoan oinarritutako adimen natural bat baizik. "Jende gazteak dagoeneko badauka teknologiarekin halako ideia bat buruan txertatuta", jarraitu du Librezale elkarteko eta Iametzako kide Asier Iturraldek. "Teknologiari gazteleraz, frantsesez edo ingelesez egin behar zaiolako ideia. Horrela jarraituz gero, teknologiarako balio ez duen hizkuntza zaharkitutzat hartuko da euskara".

Hau ez da, gainera, euskararen arazo soila, gainerako hizkuntza gutxitu gehienena baizik. "Dozena bat hizkuntzatan egon ohi dira erabilgarri, baina milaka hizkuntza daude munduan. Gehienetan mendebaldeko hizkuntza nagusiak dira aintzat hartzen dituztenak. Hiztun asko izan arren, munduko gainerako hizkuntza gehienak alde batera uzten dituzte".

Honi irtenbidea eman nahian, Gaitu.eus ekimena abiatu dute. Iturraldek aipatu duenez, Gaitu-ren azpian Mozilla Fundazioaren Common Voice egitasmoa dago. Helburua da ahalik eta hizkuntza gehienetan datu sorta horiek sortzea, gero edonork erabili ahal izateko modukoak izan daitezen. Prozesua ez da batere konplikatua. Behin webgune horretara joanda, proiektuaren orrialde nagusira bideratzen dute bisitaria. Bertan, bi atal nagusi ikusiko ditu: hitz egin, eta entzun, lagundu ahotsak balioztatzen. "Lehen kasuan, bost esaldi labur agertuko dira. Grabatzeko botoia sakatu, eta esaldia ozen irakurtzea baino ez dago, bai mugikorretik edo ordenagailuaren mikrofonotik".

EKIMENAK BI ALDE DITU: ESALDIAK GRABATZEA ETA BESTEEN GRABAZIOAK BALIDATZEA

Bigarren atala balidazioarena da. "Pertsona gehienek borondate onez egiten dute ekarpena, baina badira ere troll modura aritu daitezkeenak ere, proiektua kaltetu nahian. Horiek baztertzeko, egin behar dena da besteek egindako grabazioak entzutea, eta zuzenak diren edo ez esatea. Hau da, erabaki behar dugu grabazioa bat datorren testuarekin ala ez", azaldu du Iturraldek.

Balidazioa aintzat hartzeko, gutxienez bi pertsonak ontzat eman behar dute esaldia. Horietan, aldaera fonetikoak onartzen dira. Iturraldek jarri duen adibideari jarraiki, hizkera jasoan euskaraz geologia modu leunean ahoskatzen da [/geologia/, Nazioarteko Alfabeto Fonetikoan], baina onartzen da ere modu gogorrean ahoskatuta [/xeoloxia/, fonetikoan]. Ipar Euskal Herriko hiztun batek h-a hasperendu egiten baldin badu, hori ere ondo dagoela gaineratu du. "Hizlariak hitzak aldatu baldin baditu, orduan ez dira onartuko. Kasurako, gipuzkoar batek det ahoskatzen badin badu, berriz, proiektu honetarako ez da ontzat hartu behar".

Lehenengoz, batua

Azken adibideak euskalkien gaira eramaten gaitu. Proiektuaren atzean daudenek oso argi dute momentuz bederen ahalegina batuan egin behar dela. "Berez Mozillaren proiektuak hizkuntzaren aldaerak —gure kasuan, euskalkiak— onartzen ditu, baina prozesu osoa berriz errepikatu beharko litzateke hasieratik. Lan nekeza da, eta euskara baturako ere kostatu zaigu esaldiak biltzea. Milaka esaldi bildu behar dira", azaldu du Iturraldek.

Erronkaren tamainaz jabetzeko, komeni da atzera egitea. "Hasiera batean Librezale elkartetik esaldiak eskuz biltzen hasi ginen, baina konturatu ginen lan handiegia zela. Argia-k esaldi mordo bat eman zizkigun, eta gutxieneko langara iritsi ginen. Gaitu-ren barruan EITB taldeak ere dohaintzan pila bat esaldi eman dizkigu. Baina bizkaieraz edo zubereraz egin beharko bagenu, aipatu bezala, prozesu osoa errepikatu beharko litzateke. Horregatik, hasiera batean bederen, indarra euskara batura bideratu behar dugu. Gutxienez teknologiarekin batuan hitz egin ahal izateko".

Kasu honetan, zenbaki mardulak garrantzitsuak dira, baina baita aniztasuna bermatzea ere. "Komeni da ahalik eta jende gehienak ahalik eta testu gehien irakurtzea. Pertsona bakar batek mila ordu grabatzen baldin baditu, pertsona horren neurrira erabat egindako hizketa ezagutza teknologia bat garatuko genuke, eta hori ez da nahi duguna. Hizkuntza bakoitzaren barruan ere ahots aniztasuna bermatu nahi dugu. Sillicon Valleyn normalean gizonezko zuri, ingeles hiztunak dira... aniztasun gutxi dago. Emakumeen ahotsak behar dira, kasurako". Iturralderen arabera, "Siri eta halakoek emakumezkoen ahotsak okerrago ezagutzen dituzte, gizonezkoena baino, entrenatzeko garaian historikoki batez ere gizonezkoen ahotsak erabili izan direlako".

Parte hartzea bultzatzeko kanpaina bat egin dute; tartean, telebista eta sare sozialetarako spot batekin. Argazkia: IREKIA

Dena dela, eta kontutan izanda halako gailuen garapena momentuz ekoizle handi batzuen esku dagoela, zertarako osatu halako prozesu bat? Are, zergatik eskaini behar da borondatez ezaugarri biometriko bat? Zalantza hauek argitu ditu Iturraldek. Dioenez, Elhuyar bezalako enpresek garatu ahalko dituzten produktuetan erabili ahalko litzateke grabazioen corpus hau. "Kontrara, Microsoft, Google edo Amazonen daturik ezingo lituzkete erabili, pribatuak direlako. Aintzat hartu behar da CommonVoice-ren beste ideietako bat hizketa teknologiak demokratizatzea dela, edonork tresna propioak garatu ahal izan ditzan. Creative Commons 0 lizentziapean doaz, jabari publikokoak izatearen parekoan".

Pribatutasunari buruzko kezkei dagokienez, Iturraldek uste du alde onek alderdi alde txarrak gainditzen dituztela. "Kezka hori zilegia da, eta partekatzen dugu. Baina Mozilla Fundazioak pribatutasuna bermatu du. Ez dago, ahotsaz gain, pertsonalki identifikatuko zaituen ezer. Parte hartu dezakezu modu anonimoan, inolako daturik eman gabe. Edo, nahi izanez gero, eman ahal dituzun datuak oso orokorrak dira: adin tartea, zer motatako azentua daukazun eta gizonezko, emakumezko edo bestelakoa bezala identifikatzen ote zaren. Hau da, ezin da jakin ahotsa norena den. Nik uste dut Mozilla nahiko modu txukunean ari dela gauzak egiten".

Jaurlaritzak eta beste zenbait erakundeek proiektuari eman dioten bultzada zenbakietan nabaritu dela dio Iturraldek. "Denbora gutxian, 150 bat grabazio ordutatik 250 ingurura pasa gara, baina oraindik ere astindua eman behar diogu honi", nabarmendu du.

GASTEIZKO AUZOETAN EKIMENA ZABALTZEAZ GAIN, GRABAKETA MARATOI BAT EGITEA DUTE BURUAN

Zeregin horretan, herrietako ekimenek garrantzia handia izan ohi dute. Gasteizen kasuan, GEU elkartea ari da proiektua sustatzen. "Estrategikoa iruditzen zaigu eremu digitalean ere euskararen presentzia sendotzea", azaldu du GEU elkarteko kide Azaitz Unanuek. "Hainbat eremutan hankamotz gaudela uste dugu, eta hau da horietako bat. Gainera, guk ere bat egiten dugu software librearen inguruko filosofiarekin".

Unanuek azpimarratu du ekimena horren sinplea izateak aukerak errazten dituela. "Militatzeko ahalmen mugatua duten hainbat lagunek euskararen aldeko ekintza erraza eta xumea egin ahal dute honen bitartez. Haur txikiak dituztenak, edo etxetik lasai zerbait egin nahi dutenek ez dute zertan inora joan parte hartzeko. Gainera, bost minutu baino ez dira behar esaldi asko grabatzeko". Auzoetako euskara elkarteekin ari dira ekimena zabaltzen. Kasurako, Sarburu elkartearekin batera egin dute aurrera joan den ostiralean, eta Zabalganean, Judimendin edo Abetxukun ere gauzak prestatzen ari dira. Hilaren 17an, gainera, Iturralde bera gonbidatu dute Landatxon gaiari buruzko hitzaldia eman dezan, eta aurrera begira grabazio maratoi bat egitea dute buruan.

ALBISTEAK MUGIKORREAN

ALEAren albisteak Whatsapp edo Telegram bidez jaso nahi dituzu?

WHATSAPP: Bidali ALEA hitza 645 66 86 02 telefono zenbakira.

TELEGRAM: Batu zaitez @ArabakoALEA kanalera.


ALEA da Arabako euskarazko aldizkari bakarra, eta zu bezalako irakurleen babesa behar du aurrera egiteko. Zuk ere gurekin bat egin nahi al duzu?


Izan zaitez ALEAkide