fbpx

La Generalitat prepara Aina, una majordoma digital pròpia

Les grans majordomes digitals com Alexa, Assistant i Siri encara no parlen ni entenen català. Això és un problema per al nostre idioma, perquè la interacció amb els sistemes digitals s’està desplaçant dels botons i els menús cap al diàleg i la veu, i els idiomes que no tinguin una presència competitiva en el món digital semblen condemnats a extingir-se.

Sabem que les tres plataformes tenen en marxa projectes per resoldre aquesta mancança, però el Govern ha decidit no esperar. Un informe de la Direcció General de Política Lingüística recomanava fa uns mesos reclamar el català a les plataformes privades, però en paral·lel crear també un assistent públic que l’administració pugui fer servir per facilitar el diàleg amb els ciutadans.

Això és l’AIna que el Departament de Polítiques Digitals ha presentat aquest dijous. El nom inclou les sigles AI de Intel·ligència Artificial en anglès, però també és un homenatge a Aina Moll, la filòloga que va ser la primera Directora General de Política Lingüistica de la Generalitat (i promotora de la campanya El català és cosa de tots amb el personatge Norma que il·lustra aquesta nota). El projecte es porta a terme amb el departament de mineria de dades del Centre de Supercomputació de Barcelona (BSC), dirigida per Marta Villegas. El BSC ja coordina des de 2017 el pla estatal de tecnologies de la llengua.

Amb el pressupost inicial de 250.000 euros de la Generalitat s’ha començat bolcant l’apartat de català del projecte multilingüe francès OSCAR, que conté 1.400 milions de paraules capturades amb CommonCrawl de la web oberta i que un cop netejat i eliminades les duplicitats, s’ha quedat en 700 milions. El BSC hi ha afegit l’arxiu de l’Agència Catalana de Notícies (ACN), el contingut de la Viquipèdia, el del Diari Oficial de la Generalitat (DOGC) i el de les 500 webs del domini .cat amb més transit, que han aportat uns altres 700 milions de paraules, 40 milions dels quals corresponen a les webs de la mateixa Generalitat. En total, el corpus actual, amb més de 1.700 milions de paraules amb metadades, és el més ampli que existeix en català i amb ell s’entrenaran els algoritmes de reconeixement per generar el model de llengua. A més de servir per les interaccions amb el Govern, AIna es posarà a disposició de les empreses privades per accelerar la inclusió del català en els seu productes.

El BSC fa servir el model RoBERTa de processament de llenguatge natural, creat per Facebook a partir del model BERT original de Google. El BERT es troba també en el cor dels diversos projectes d’assistent de veu en català de SoftCatalà, com CalBERT, JuliBERT i aquest altre de Joan Montané que fa servir l’assistent de codi obert Mycroft.

Tanmateix, el gran volum de dades de que disposa AIna fan preveure que donarà millors resultats que aquestes altres iniciatives més artesanals.

Cap a la interacció verbal

El projecte d’AIna té un horitzó de tres anys més, fins al 2024. A banda dels 250.000 euros ja mencionats, la Generalitat espera poder dotar-lo amb 12 milions més procedents dels fons de recinstruccció NextGenerationUE. En aquesta fase AIna acabarà escoltant i parlant. La síntesi de veu haurà d’arribar, però la part important és la interpretació del llenguatge natural, i això es comença alimentant un corpus lingüístic com més ampli millor. Després ja vindrà la generació de resposta i la síntesi de veu, i en aquest aspecte el projecte d’AIna té a l’abast un dels millors repositoris de veu en català: l’arxiu de la Corporació Catalana de Mitjans Audiovisuals, amb les emissions de Catalunya Ràdio i TV3.

Mentre AINA no disposa del seu propi sistema de reconeixement de veu, els seus creadors han habilitat una manera curiosa per interrogar-la: una skill d’Amazon Alexa, com es pot sentir aquí:

PTT-20201210-WA0007.mp3

Aquesta possibilitat es podria ampliar a d’altres majordomes digitals com Google Assistant, que farien d’intèrprets, sigui temporalment o de manera definitiva.

Ahir dimecres vam avançar el naixement d’AINA en primícia al Catalunya Nit de Catalunya Ràdio.

Aquest dijous la Mariola Dinarès també m’ha demanat un comentari per al seu Popap de Catalunya Ràdio:

Albert Cuesta

Periodista, analista, traductor i conferenciant especialitzat en electrònica de consum i tecnologies de la informació. És l’editor d’aquest blog, de l’edició en espanyol del butlletí Mobile World Live de la GSMA i del blog de l'Observatorio Nacional de la 5G. També col·labora al diari Ara, Catalunya Ràdio i TV3. ---------------- Periodista, analista, traductor y conferenciante especializado en electrónica de consumo y tecnologías de la información. Es el editor de este blog, de la edición en español del boletín Mobile World Live de la GSMA y del blog del Observatorio Nacional de la 5G. También colabora en el diario Ara, Catalunya Ràdio y TV3.

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.