Euskaltzaindia presenta un corpus del euskera referencial, de calidad y equilibrado

Resumen autogenerado por OpenAI

Audios generados (reproducción automática)

Los audios se reproducen de forma automática uno detrás de otro. Haz clic en el icono para descargar el audio o aumentar/disminuir la velocidad de reproducción.
Debido al tamaño del artículo, la generación del audio puede tardar unos segundos y es posible que se generen varios audios para un mismo artículo.

Euskaltzaindia ha presentado hoy en Bilbao Euskararen Erreferentzia Corpusa (Corpus de Referencia del Euskera). En la comparecencia, que ha tenido lugar en la sede de la Academia, han estado presentes, entre otros, la primera vicelehendakari y consejera de Cultura y Política Lingüística del Gobierno vasco, Ibone Bengoetxea; el presidente de Euskaltzaindia, Andrés Urrutia; la académica de número y responsable del proyecto Euskaltzaindia Hiztegia, Miriam Urkia, y el asesor tecnológico de la Academia, Aitor Maritxalar.

 Andrés Urrutia ha detallado desde el primer momento las principales características del nuevo corpus, que ha definido como un corpus de referencia, abierto y colectivo: «Es un corpus de referencia, es decir, un corpus que busca un equilibrio, que pretende reunir los pormenores concretos y equilibrados de la lengua, recogiendo muestras de diferentes ámbitos, dando un reflejo del euskera actual. También es abierto, ya que ha recopilado material que se ha creado hasta 2023 y que más tarde se irá ampliando también con nuevos colaboradores y textos. Y, cómo no, es colectivo, porque Euskaltzaindia lo ha hecho junto a 68 entidades privadas y públicas de Euskal Herria, los principales medios de comunicación y muchos agentes sociales». A continuación, ha agradecido a todos ellos su adhesión al corpus «que será un proyecto básico» para la Academia.

 Por su parte, la  consejera de Cultura y Política Lingüística del Gobierno vasco, Ibone Bengoetxea, ha afirmado que Euskaltzaindia «prestigia» la lengua. «Este corpus del euskera que habéis elaborado y que estáis ofreciendo a la sociedad, es parte de nuestra historia y, al mismo tiempo, es un instrumento de referencia que guiará nuestro futuro», ha detallado.

En su intervención, la responsable de la sección Iker (investigación) de la Academia, Miriam Urkia, ha recordado cómo arrancaron los primeros corpus de la misma. «Euskaltzaindia comenzó a trabajar los corpus en la década de los 80 del siglo XX, y ha sido pionera en el corpus vasco. Primero elaboró el Corpus Estadístico del Euskera del siglo XIX. Posteriormente, al entrar en el siglo XXI, formó el Observatorio del Léxico como monitor de corpus. Sin estos nateriales, Euskaltzaindia no tendría, por ejemplo, ejemplos de palabras, acepciones, marcas de uso y contextos para incluir en el Diccionario de Euskaltzaindia».

 Sin embargo, la Academia era consciente de la necesidad de un corpus más grande y equilibrado para conocer el día a día del euskera y para hacer frente a los retos que plantean las tecnologías lingüísticas, y hace cuatro años puso en marcha el Corpus de Referencia del Euskera (EEC) para cubrir ese vacío.

 ¿Cuál es el objetivo principal del EEC? «Es una herramienta fundamental para el análisis lingüístico, el aprendizaje automático o la validación de hipótesis en las investigaciones lingüísticas, pero también puede utilizarse como un corpus estándar o referente para fines lingüísticos, literarios o de investigación. En la medida en que refleje la situación 'actual', las personas dedicadas a la enseñanza de la lengua, traductores, correctores... tendrán a su disposición el EEC, para resolver dudas léxicas (generales y terminológicas), gramaticales y, por supuesto, para validar modelos adecuados para estos grandes corpus», ha subrayado Miriam Urkia. En este sentido, el presidente de Euskaltzaindia ha señalado que el ECC es un corpus equilibrado, y la académica guipuzcoana ha querido profundizar: «A la hora de hacer EEC hemos tenido en cuenta el equilibrio y la representatividad. Con el objetivo de reflejar el uso actual del euskera, es importante mantener la diversidad temática, recopilar ejemplos de todos los dialectos y contenidos de diferentes fuentes de texto (libros, revistas, red...) y tener en cuenta textos dirigidos a todo tipo de públicos (jóvenes, público en general, especialistas)».

Diseño y referencialidad del nuevo corpus

¿Qué es el corpus lingüístico? Se trata de una gran colección de datos, estructurada, basada en usos reales y procesada lingüísticamente, que se utiliza como muestra de una parte de la lengua. Y se le llama corpus de referencia al corpus que se ha creado para ser la muestra más detallada posible, y a la vez más extensa, de una época concreta de una lengua. Así, a la hora de diseñar el Corpus de Referencia del Euskera, se han utilizado los siguientes criterios:

 «La referencialidad viene dada por una combinación equilibrada de todos estos criterios. Esto es lo que define el corpus de referencia, aunque no siempre sea fácil mantener el equilibrio. Y, al mismo tiempo, estos criterios nos permiten limitar las consultas del diccionario en función de las necesidades», ha añadido Miriam Urkia.

Datos generales del EEC

La versión publicada hoy incluye 123.124 documentos y 154,21 millones de palabras de texto, procedentes de textos escritos o producidos en euskera desde el año 2000 hasta 2023. Todos estos textos han sido previamente lematizados y clasificados. De esta forma, entre otras posibilidades, permite realizar consultas a través de formas y categorías gramaticales:

— Por procedencia: las palabras textuales procedentes de libros son 68,42 millones (44,37%), de publicaciones periódicas 72,49 millones (47,01%), escritas específicamente para la red 4 millones (2,59%) y otros contenidos (publicaciones especiales, folletos, guiones...) 9,3 millones (6,03%) de palabras de texto.

— Por tipo de texto: las palabras de texto ficticio son 39,67 millones (25,73%) y los textos de no ficción 114,54 millones (74,27%).

Más información en el portal Irekia (Se abrirá en nueva ventana)

Documentos descargables
0
Histórico de cambios
1
Artículo publicado
Detectado: 31/03/2025
969215 {"title":"Euskaltzaindia presenta un corpus del euskera referencial, de calidad y equilibrado","published_date":"2025-03-31","institution_slug":"paisvasco","institution_name":"País Vasco","category":"press_release","category_name":"Notas de prensa","image":"https:\/\/govclipping.com\/webapp\/assets_v2\/images\/icons\/flags\/logo-bandera-paisvasco.png","id":"969215"} paisvasco Cultura y Política Lingüística https://govclipping.com/modules/controller/ReferencesController.php Resaltar Quitar resaltado true https://govclipping.com/modules/controller/ArticlesController.php https://govclipping.com/modules/controller/SubsidyController.php https://govclipping.com/modules/controller/UserDatasetActionsController.php https://govclipping.com/search https://govclipping.com/search?keywords= Error "" region subsidy initiative Error Ha habido un error: {error}. Inténtalo de nuevo más tarde. Éxito La operación se ha realizado correctamente. Elemento guardado en la lista El elemento ha sido modificado Elemento eliminado de la lista Guardar para leer más tarde Aceptar Cancelar No se han encontrado artículos adicionales. https://govclipping.com/modules/controller/NewslettersController.php ¡Suscripción realizada! Te has suscrito correctamente a la newsletter de GovClipping. Algo salió mal No ha sido posible suscribirte a la newsletter. Vuelve a introducir tu email o inténtalo de nuevo más tarde. Error No se ha podido enviar la alerta de prueba a tu correo electrónico {email}. Inténtalo de nuevo más tarde. Alerta de prueba enviada Se ha enviado una alerta de prueba únicamente a tu email {email}. Revisa tu carpeta de Spam y añade @govclipping.com a tu lista de contactos. Enviar email de prueba Se enviará un email de prueba únicamente al correo electrónico de esta cuenta. Si no lo recibes, revisa tu carpeta de Spam. Enviar a todos los destinatarios Se enviará el correo electrónico a todos los destinatarios. Si no lo reciben, revisen su carpeta de Spam. Error No se ha podido enviar el correo electrónico a todos o algunos de los destinatarios. Inténtalo de nuevo más tarde. Correo electrónico enviado Se ha enviado el correo electrónico a todos los destinatarios. Revisen su carpeta de Spam y añadan @govclipping.com a su lista de contactos. Este contenido está disponible para usuarios premium Mejora tu cuenta para desbloquear y acceder todo el contenido premium sin restricciones. Consulta todas las ventajas de ser Premium en Planes de suscripción. Mejora tu cuenta https://govclipping.com/pricing Enlace copiado en portapapeles. Tu cuenta no está asociada a un Organización. Únete a uno o actualiza tu suscripción para crear tu propia Organización. https://govclipping.com/es/paisvasco/press_release/2025-03-31/969215-euskaltzaindia-presenta-corpus-euskera-referencial-calidad-equilibrado https://govclipping.com/signup https://govclipping.com/modules/controller/UserController.php Sector económico actualizado! El sector económico de tu perfil ha sido actualizado correctamente. Error Por algún motivo no hemos podido tramitar la petición. Vuelve a intentarlo más tarde.