Actualidad

La UPV-EHU desarrolla el mayor modelo del lenguaje para el euskera: Latxa

Esta primera versión será esencial para construir herramientas para el gran público como chatbots
La UPV-EHU desarrolla el mayor modelo del lenguaje para el euskera: Latxa. / UPV-EHU

El centro HiTZ de la Universidad del País Vasco ha desarrollado el mayor modelo del lenguaje para el euskera, Latxa, que será esencial para construir herramientas como "chatbots", esto es, aplicaciones basadas en inteligencia artificial que simulan una conversación real al proveer respuestas automáticas.

Según ha informado la UPV-EHU en un comunicado, un modelo grande de lenguaje, o LLM en inglés, es un tipo de modelo de inteligencia artificial que emplea técnicas de aprendizaje automático para "comprender y generar lenguaje humano" a través del conocimiento extraído de conjuntos de datos masivos.

El euskera cuenta ya con su gran modelo de lenguaje: Latxa. Está basado en los modelos LLaMA de Meta y reúne modelos de entre 7 y 70 mil millones de parámetros, ha señalado la fuente.

Los LLMs tienen un impresionante rendimiento en idiomas con muchos recursos, por ejemplo, ChatGPT o Bard-s en inglés, pero no ocurre así en lenguas como el euskera.

Este hecho aumenta la brecha tecnológica entre idiomas con muchos y pocos recursos, al menos en cuanto a herramientas digitales, apunta la UPV-EHU.

Para paliar esta sitación, HiTZ, Centro Vasco de Tecnología del Lenguaje de la UPV-EHU, ha desarrollado este nuevo modelo para fomentar el desarrollo de investigaciones, innovaciones y productos que funcionan con euskera basado en LLMs.

El director de HiTZ, Eneko Agirre, ha explicado que publicarán estos modelos abiertos para que el personal técnico experto los utilice para desarrollar productos o ajustarlos a las aplicaciones que desee.

Ha indicado que actualmente trabajan con modelos capaces de seguir las instrucciones de las personas usuarias, pero ha reconocido que "todavía no está claro si será posible construir modelos para el euskera con una calidad como la que proporcionan al público general los GPTs en el caso del castellano o el inglés".

"Ese es, precisamente, el fin de nuestras investigaciones. Por lo tanto, esta se puede considerar una primera versión, ya que el objetivo es crear mejores modelos gracias a la investigación", ha concluido Agirre.

01/02/2024