Proyectos altruistas para crear modelos de IA en lenguas cooficiales

Resumen autogenerado por OpenAI

Audios generados (reproducción automática)

Los audios se reproducen de forma automática uno detrás de otro. Haz clic en el icono para descargar el audio o aumentar/disminuir la velocidad de reproducción.
Debido al tamaño del artículo, la generación del audio puede tardar unos segundos y es posible que se generen varios audios para un mismo artículo.

Imagen del artículo Proyectos altruistas para crear modelos de IA en lenguas cooficiales

Los asistentes de inteligencia artificial (IA) ya forman parte de nuestro día a día: les preguntamos la hora, cómo llegar a un determinado lugar o les pedimos que reproduzcan nuestra canción favorita. Y aunque la IA, en el futuro, pueda llegar a ofrecernos infinitas funcionalidades, no hay que olvidar que la diversidad lingüística es aún una asignatura pendiente.

En España, donde conviven el castellano junto con lenguas cooficiales como el euskera, catalán, valenciano y gallego, esta cuestión cobra especial relevancia. La supervivencia y vitalidad de estas lenguas en la era digital depende, en gran medida, de su capacidad para adaptarse y estar presentes en las tecnologías emergentes. Actualmente, la mayoría de asistentes virtuales, traductores automáticos o sistemas de reconocimiento de voz no entienden todos los idiomas cooficiales. Sin embargo, ¿sabías que existen proyectos colaborativos para garantizar la diversidad lingüística?

En este post te contamos el planteamiento y los mayores avances de algunas iniciativas que están construyendo los cimientos digitales necesarios para que las lenguas cooficiales en España también prosperen en la era de la inteligencia artificial.

ILENIA, el paraguas coordinador de iniciativas de recursos multilingües en España

Los modelos que vamos a ver en este post comparten enfoque porque forman parte de ILENIA, coordinador a nivel estatal que conecta los esfuerzos individuales de las comunidades autónomas. Esta iniciativa agrupa los proyectos BSC-CNS (AINA), CENID (VIVES), HiTZ (NEL-GAITU) y la Universidad de Santiago de Compostela (NÓS), con el objetivo de generar recursos digitales que permitan desarrollar aplicaciones multilingües en las diferentes lenguas de España.

El éxito de estas iniciativas depende fundamentalmente de la participación ciudadana. A través de plataformas como Common Voice de Mozilla, cualquier hablante puede contribuir a la construcción de estos recursos lingüísticos mediante diferentes modalidades de colaboración:

  • Habla leída: recopilar diferentes maneras de hablar a través de las donaciones de voz de un texto específico.
  • Habla espontánea: crea datasets reales y orgánicos fruto de conversaciones con los prompts.
  • Texto en idioma: colaborar en la transcripción de audios o en la aportación de contenido textual, sugiriendo nuevas frases o preguntas para enriquecer los corpus.

Todos los recursos se publican bajo licencias libres como CC0, permitiendo su uso gratuito por parte de investigadores, desarrolladores y empresas.

El reto de la diversidad lingüística en la era digital

Los sistemas de inteligencia artificial aprenden de los datos que reciben durante su entrenamiento. Para desarrollar tecnologías que funcionen correctamente en una lengua específica, es imprescindible contar con grandes volúmenes de datos: grabaciones de audio, corpus de texto y ejemplos de uso real del idioma.

En otras publicaciones de datos.gob.es hemos abordado el funcionamiento de los modelos fundacionales y las iniciativas en castellano como ALIA, entrenadas con grandes corpus de texto como los de la Real Academia Española.

En ambos posts se explica por qué la recopilación de datos lingüísticos no es una tarea barata ni sencilla. Las empresas tecnológicas han invertido masivamente en recopilar estos recursos para lenguas con gran número de hablantes, pero las lenguas cooficiales españolas se enfrentan a una desventaja estructural. Esto ha llevado a que muchos modelos no funcionen correctamente o no estén disponibles en valenciano, catalán, euskera o gallego.

No obstante, existen iniciativas colaborativas y de datos abiertos que permiten crear recursos lingüísticos de calidad. Se trata de los proyectos que varias comunidades autónomas han puesto en marcha marcando el camino hacia un futuro digital multilingüe.

Por un lado, el Proyecto Nós en Galicia crea recursos orales y conversacionales en gallego con todos los acentos y variantes dialectales para facilitar la integración a través de herramientas como GPS, asistentes de voz o ChatGPT. Un propósito similar el de Aina en Catalunya que además ofrece una plataforma académica y un laboratorio para desarrolladores o Vives en la Comunidad Valenciana. En el País Vasco también existe el proyecto Euskorpus que tiene como objetivo la constitución de un corpus de texto de calidad en euskera. Veamos cada uno de ellos.

Proyecto Nós, un enfoque colaborativo para el gallego digital

El proyecto ha desarrollado ya tres herramientas operativas: un traductor neuronal multilingüe, un sistema de reconocimiento de voz que convierte habla en texto, y una aplicación de síntesis de voz. Estos recursos se publican bajo licencias abiertas, garantizando su acceso libre y gratuito para investigadores, desarrolladores y empresas. Estas son sus características principales:

  • Impulsado por: la Xunta de Galicia y la Universidad de Santiago de Compostela.
  • Objetivo principal: crear recursos orales y conversacionales en gallego que capturen la diversidad dialectal y de acentos de la lengua.
  • Cómo participar: el proyecto acepta contribuciones voluntarias tanto leyendo textos como respondiendo a preguntas espontáneas.

Aina, hacia una IA que entienda y hable catalán

Con un planteamiento similar al proyecto Nós, Aina busca facilitar la integración del catalán en los modelos de lenguaje de inteligencia artificial.

Se estructura en dos vertientes complementarias que maximizan su impacto:

  • Aina Tech se centra en facilitar la transferencia tecnológica al sector empresarial, proporcionando las herramientas necesarias para traducir automáticamente al catalán webs, servicios y negocios en línea.
  • Aina Lab impulsa la creación de una comunidad de desarrolladores a través de iniciativas como Aina Challenge, fomentando la innovación colaborativa en tecnologías del lenguaje en catalán. A través de esta convocatoria se han premiado 22 propuestas ya seleccionadas con un importe total de 1 millón para que ejecuten sus proyectos.

Las características del proyecto son:

Vives, el proyecto colaborativo para IA en valenciano

Por otro lado, Vives recopila voces hablando en valenciano para que sirvan de entrenamiento a los modelos de IA.

  • Impulsado por: el Centro de Inteligencia Digital de Alicante (CENID).
  • Objetivo: busca crear corpus masivos de texto y voz, fomentar la participación ciudadana en la recolección de datos, y desarrollar modelos lingüísticos especializados en sectores como el turismo y el audiovisual, garantizando la privacidad de los datos.
  • Cómo participar: puedes donar tu voz a través de este enlace: https://vives.gplsi.es/instruccions/.

Gaitu: inversión estratégica en la digitalización del euskera

En Euskera, podemos destacar Gaitu que busca recopilar voces hablando en euskera para poder entrenar los modelos de IA. Sus características son:

  • Impulsado por: HiTZ, el centro vasco de tecnología de la lengua.
  • Objetivo: desarrollar un corpus en euskera para entrenar modelos de IA.
  • Cómo participar: puedes donar tu voz en euskera aquí https://commonvoice.mozilla.org/eu/speak.

Ventajas de construir y preservar modelos de lenguaje multilingües

Los proyectos de digitalización de las lenguas cooficiales trascienden el ámbito puramente tecnológico para convertirse en herramientas de equidad digital y preservación cultural. Su impacto se manifiesta en múltiples dimensiones:

  • Para la ciudadanía: estos recursos garantizan que hablantes de todas las edades y niveles de competencia digital puedan interactuar con la tecnología en su lengua materna, eliminando barreras que podrían excluir a determinados colectivos del ecosistema digital.
  • Para el sector empresarial: la disponibilidad de recursos lingüísticos abiertos facilita que empresas y desarrolladores puedan crear productos y servicios en estas lenguas sin asumir los altos costes tradicionalmente asociados al desarrollo de tecnologías lingüísticas.
  • Para el tejido investigador, estos corpus constituyen una base fundamental para el avance de la investigación en procesamiento de lenguaje natural y tecnologías del habla, especialmente relevante para lenguas con menor presencia en recursos digitales internacionales.

El éxito de estas iniciativas demuestra que es posible construir un futuro digital donde la diversidad lingüística no sea un obstáculo sino una fortaleza, y donde la innovación tecnológica se ponga al servicio de la preservación y promoción del patrimonio cultural lingüístico.

Documentos descargables
0
Histórico de cambios
1
Artículo publicado
Detectado: 21/08/2025
1200366 {"title":"Proyectos altruistas para crear modelos de IA en lenguas cooficiales","published_date":"2025-08-21","institution_slug":"datosgobes","institution_name":"Portal de datos abiertos del Gobierno de España","category":"press_release","category_name":"Notas de prensa","image":"https:\/\/datos.gob.es\/sites\/default\/files\/styles\/blog_image\/public\/blog\/image\/imagen_asistentesia.jpg?itok=EiWKAiWo","id":"1200366"} datosgobes Blog https://govclipping.com/modules/controller/ReferencesController.php Resaltar Quitar resaltado true https://govclipping.com/modules/controller/ArticlesController.php https://govclipping.com/modules/controller/SubsidyController.php https://govclipping.com/modules/controller/UserDatasetActionsController.php https://govclipping.com/search https://govclipping.com/search?keywords= Error "" region subsidy initiative Error Ha habido un error: {error}. Inténtalo de nuevo más tarde. Éxito La operación se ha realizado correctamente. Elemento guardado en la lista El elemento ha sido modificado Elemento eliminado de la lista Guardar para leer más tarde Aceptar Cancelar No se han encontrado artículos adicionales. https://govclipping.com/modules/controller/NewslettersController.php ¡Suscripción realizada! Te has suscrito correctamente a la newsletter de GovClipping. Algo salió mal No ha sido posible suscribirte a la newsletter. Vuelve a introducir tu email o inténtalo de nuevo más tarde. Error No se ha podido enviar la alerta de prueba a tu correo electrónico {email}. Inténtalo de nuevo más tarde. Alerta de prueba enviada Se ha enviado una alerta de prueba únicamente a tu email {email}. Revisa tu carpeta de Spam y añade @govclipping.com a tu lista de contactos. Enviar email de prueba Se enviará un email de prueba únicamente al correo electrónico de esta cuenta. Si no lo recibes, revisa tu carpeta de Spam. Enviar a todos los destinatarios Se enviará el correo electrónico a todos los destinatarios. Si no lo reciben, revisen su carpeta de Spam. Error No se ha podido enviar el correo electrónico a todos o algunos de los destinatarios. Inténtalo de nuevo más tarde. Correo electrónico enviado Se ha enviado el correo electrónico a todos los destinatarios. Revisen su carpeta de Spam y añadan @govclipping.com a su lista de contactos. Este contenido está disponible para usuarios premium Mejora tu cuenta para desbloquear y acceder todo el contenido premium sin restricciones. Consulta todas las ventajas de ser Premium en Planes de suscripción. Mejora tu cuenta https://govclipping.com/pricing Enlace copiado en portapapeles. Tu cuenta no está asociada a un Organización. Únete a uno o actualiza tu suscripción para crear tu propia Organización. https://govclipping.com/es/datosgobes/press_release/2025-08-21/1200366-proyectos-altruistas-crear-modelos-ia-lenguas-cooficiales https://govclipping.com/signup https://govclipping.com/modules/controller/UserController.php Sector económico actualizado! El sector económico de tu perfil ha sido actualizado correctamente. Error Por algún motivo no hemos podido tramitar la petición. Vuelve a intentarlo más tarde.