Euskaltzaindia ha presentado este lunes en su sede, en Bilbao, Euskararen Erreferentzia Corpusa (ECC), un proyecto que se puso en marcha hace cuatro años para conocer el día a día de la lengua vasca. El presidente de la Academia, Andrés Urrutia, lo ha definido como un proyecto “de referencia” y que “pretende reunir los pormenores concretos y equilibrados de la lengua, recogiendo muestras de diferentes ámbitos, dando un reflejo del euskera actual”.
Urrutia ha destacado que el corpus es “abierto” y “colectivo”, ya que esta primera versión se nutre de 123.124 documentos y 154,21 millones de palabras procedentes de textos en euskera publicados entre los años 2000 y 2023, aportados por “68 entidades privadas y públicas de Euskal Herria, los principales medios de comunicación y muchos agentes sociales”. El corpus “será un proyecto básico” para la Academia, ha subrayado su presidente.
En la presentación del proyecto ha estado presente la consejera de Cultura y Política Lingüística del Gobierno vasco, Ibone Bengoetxea, que ha puesto en valor el papel de Euskaltzaindia afirmando que “prestigia” la lengua. “Este corpus del euskera que habéis elaborado y que estáis ofreciendo a la sociedad es parte de nuestra historia y, al mismo tiempo, es un instrumento de referencia que guiará nuestro futuro”, ha comentado.
“Herramienta fundamental”
El EEC es una “herramienta fundamental”, ha destacado Miriam Urkia, responsable de Iker —la sección de la Academia dedicada a la investigación—, para “el análisis lingüístico, el aprendizaje automático o la validación de hipótesis en las investigaciones lingüísticas”, aunque también puede ser empleado “como un corpus estándar o referente para fines lingüísticos, literarios o de investigación”, en la medida en que refleja la “situación actual” del euskera.
Para proyectar dicha situación, Euskaltzaindia ha “tenido en cuenta el equilibrio y la representatividad”, ha explicado Urkia. “Es importante mantener la diversidad temática, recopilar ejemplos de todos los dialectos y contenidos de diferentes fuentes de texto y tener en cuenta textos dirigidos a todo tipo de públicos”, ha detallado.
Diseño y “referencialidad”
Este corpus del euskera recoge textos escritos en euskera, sobre todo a partir de versiones electrónicas, y excluye transcripciones orales, aunque sí incluye escritos preparados para su transmisión oral, como guiones para series o películas. Respecto a los medios de origen, un 4 % de los textos proceden de material creado específicamente para internet, mientras que los demás se dividen a partes iguales entre libros y publicaciones periódicas. En cuanto a su clasificación, los escritos se dividen en un 25 % de ficción y un 75 % de no ficción. Por otro lado, el EEC buscará siempre recoger los textos de los últimos 25 años, por lo que se actualizará anualmente.
La “referencialidad”, según explica Urkia, viene dada por la combinación “equilibrada” de estos tres criterios de medio, clasificación y cronología. “Esto es lo que define el corpus de referencia, aunque no siempre sea fácil mantener el equilibrio”, cuenta. Al mismo tiempo, zanja la responsable de Iker, dichas pautas permiten “limitar las consultas del diccionario en función de las necesidades”.