La falta de oficialidad deja al asturiano fuera del proyecto español de IA

ASTURIAS

F. Sotomonte

El proyecto ALIA, con una inversión de ma´s de 7 millones de euros se desplegará en castellano, gallego, euskera y catalán

29 mar 2025 . Actualizado a las 11:01 h.

Puede ir ahora mismo, abrir ChatGPT y preguntarle: «¿sabes falar asturianu?», la repuesta será: «¡Sí! Puedo falar un poco d'asturianu. ¿Qué ye lo que quies saber o falar?». En la IA china, Deepseek, a la pregunta de si puede mantener un diálogo en asturiano la respuesta es «¡Xenial! Vamos intentar caltener un diálogu n’asturianu». Quien no hablará asturiano, paradójicamente, es ALIA, la Inteligencia Artificial cuyo desarrollo financia la Administración española, y que integrará en su desarrollo a todas las lenguas oficiales del estado, y el asturiano no lo es.

Según la respuesta a una pregunta parlamentaria recogida por Europa Press, el Ejecutivo central ha dedicado una inversión inicial de 7,5 millones de euros para entrenar en catalán, gallego, euskera y valenciano a ALIA, que fue presentada el pasado mes de enero por el presidente Pedro Sánchez. Esta herramienta aún se encuentra en una fase preliminar, pero el objetivo es «garantizar su operatividad en castellano y en el resto de las lenguas oficiales del Estado» y que todas ellas funcionen «en igualdad de condiciones». Pero sólo las oficiales.

En el escrito del Gobierno dirigido a los diputados de la oposición se desglosan las cantidades destinadas a las distintas entidades implicadas en este proyecto. Así, para el «desarrollo del corpus fundacional», se han concedido tres millones de euros en ayudas al Barcelona Supercomputing Center (BSC-CNS), dos millones a la Universidad del País Vasco, otros dos millones a la Universidade de Santiago de Compostela (USC) y medio millón a la Universidad de Alicante. Estas partidas se enmarcan en el Plan de Recuperación, Transformación y Resiliencia (PRTR).

Todas ellas tienen experiencia en tecnologías del lenguajes y proyectos específicos en sus respectivas comunidades como AINA en Cataluña, Gaitu en el País Vasco, Nós en Galicia y Vives en la Comunidad Valenciana. Cero para Asturias y el asturiano, no puede ser de otro modo ya que, pese a que cuenta con un cierto grado de protección en la Ley de Uso del Principado, el asturiano no tiene un reconocimiento de oficialidad.

El Barcelona Supercomputing Center (BSC) es el encargado de coordinar el desarrollo de estos modelos en colaboración con las universidades, que han aportado «conjuntos de datos». También participan empresas en la optimización y alineamiento de modelos para las diferentes aplicaciones.

Datos de entrenamiento en cada idioma

En la respuesta al BNG, cuyo diputado, Néstor Rego, interrogó por escrito al Gobierno sobre el uso de las lenguas cooficiales por parte de esta IA, el Ejecutivo explica que el ALIA 40b, presentado el pasado mes de enero, es una primera versión con funcionalidades básicas, como la generación de texto, pero sin capacidad conversacional ni de respuesta a preguntas.

La previsión es que en las próximas versiones se avance en esa capacidad de mantener conversaciones, la alineación del modelo para garantizar respuestas «adecuadas y respetuosas» y la mejora del rendimiento en «todas las lenguas oficiales». De hecho, el departamento de Óscar López señala como «uno de los desafíos principales» en este proceso «la disponibilidad de datos de entrenamiento en cada idioma».

Según reconoce, actualmente, existe un «desequilibrio» en la cantidad de información accesible en diferentes lenguas, lo que impacta en la capacidad del modelo en cada una de ellas. Para mitigar esta diferencia se está colaborando con diversas entidades en la recopilación y generación de corpus de alta calidad en gallego, catalán, euskera y valenciano, con el objetivo de mejorar la equidad lingüística en futuras versiones de ALIA.

Plenamente operativa en todas las lenguas oficiales

En cuanto a su funcionalidad, ALIA está disponible en abierto, pero su nivel de desempeño varía en función de la cantidad y calidad de los datos de entrenamiento en cada idioma. A lo largo de 2025 y 2026, se seguirán lanzando nuevas versiones con mejoras progresivas en su rendimiento y capacidades lingüísticas.

El objetivo final es lograr que ALIA sea «plenamente operativa en todas las lenguas oficiales en igualdad de condiciones», en un proceso en curso que requiere una mejora continua en los datos disponibles. El asturiano no estará entre esas lenguas.