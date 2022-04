Es un consenso: el uso del catalán agoniza entre los más jóvenes y parte de ello se debe a la desigualdad que la lengua vive en internet, que favorece a las hegemónicas. La Generalitat quiere revertir esa situación y por eso el pasado mes de febrero presentó AINA, un proyecto que pretende que las máquinas puedan hablar y entender el catalán para agilizar su normalización en la era digital.

Si intentas dirigirte en catalán a Alexa, Siri o Google Assistant, sucederá que estos asistentes virtuales no te entenderán ni responderán a tu petición. Para que eso cambie primero hay que crear un corpus masivo de datos, gravar cientos de miles de palabras y frases en catalán para crear un diccionario de voces en catalán que permita a los sistemas de inteligencia artificial (IA) –desde asistentes a traductores automáticos— aprender a procesarlo y utilizarlo como hacen con otras lenguas.

La iniciativa impulsada por el Departament de Vicepresidència i Polítiques Digitals en colaboración con el Barcelona Supercomputing Center (BSC) está operativa desde el 2020 pero ahora se ha lanzado una campaña que pide a los ciudadanos “dar su voz”. En poco más de una semana la página web habilitada para recoger esas muestras de voz cuenta ya con los registros sonoros de más de 20.000 voluntarios.

Entrenar a las máquinas en catalán

Cada uno de estos registros servirá para crear una base de datos representativa del catalán que permita entrenar algortimos de Deep Learning –algo así como la red neuronal de esas máquinas— que después la industria pueda usar para desarrollar aplicaciones en catalán. "Hacemos la tarea lingüística que la empresa privada local no puede asumir por ser demasiado costosa y que las grandes compañías no hacen porque el catalán no es un mercado suficientemente atractivo para justificar esa inversión", explica Marta Villegas, líder del grupo de minería de datos del BSC y responsable del proyecto AINA.

La intención de la Generalitat es normalizar todas las variantes dialectales y registros del catalán, ya sea formal o coloquial. Hasta ahora, la mayoría de voces recogidas hasta ahora es la de hombres de entre 30 y 50 años y con un registro de catalán central. Es por ello que la campaña pide que los voluntarios sean de todo tipo de edades, géneros y procedencias.

La iniciativa ha clasificado hasta 1.770 millones de metadatos asociados a palabras en 95 millones de frases, las variables que calculan necesarias para entender las peticiones más comunes de los usuarios. Los ciudadanos que quieran contribuir voluntariamente a esa normalización digital del catalán pueden acceder a la web para grabarse repitiendo esas palabras y frases. "Cuanto mayor sea la muestra de datos lingüísticos más robusto y perfeccionado será el sistema de comprensión", explica Villegas. Desde el BSC apuntan que se desarrollará "algún prototipo" para demostrar como las máquinas también pueden aprender catalán.

La actual base de datos cuenta con 1.000 horas de registros en catalán, que la iniciativa pretende duplicar. En su misión de recolectar la mayor cantidad posible de datos en catalán, AINA también usará los archivos de la Corporació Catalana de Mitjans Audiovisuals (CCMA) o del Consell de l’Audiovisual Català (CAC), así como los cedidos por organizaciones como Softcatalà, Racó Català o Enciclopèdia.cat. Los primeros datos públicos que el BSC ha usado para alimentar su base han sido las sesiones políticas del Parlament de Catalunya.

El proyecto tiene un presupuesto de 13,5 millones de euros hasta 2024, de los cuales 250.000 se destinarán a la fase inicial. "El catalán no está cubierto por ningún asistente de voz, es algo crítico", advierte Villegas. "Si nos acostumbramos a tener que hablar con las máquinas en otro idioma habremos perdido una gran oportunidad".