Actualidad

La inteligencia artificial vasca Latxa supera al ChatGPT

El centro HiTZ de la UPV/EHU asegura que las mejoras implantadas son “prometedoras”

El Centro Vasco de Tecnología del Lenguaje de la UPV/EHU, HiTZ, ha conseguido que Latxa supere a ChatGPT. / URJC

Ane López | NTM

30 de Abril 2024 3 min de lectura

“Cuando salió ChatGPT era inimaginable que se pudiera conseguir un modelo abierto que lo superara en euskera”. Sin embargo, tan solo unos meses después de su puesta en marcha, el Centro Vasco de Tecnología del Lenguaje de la UPV/EHU, HiTZ, lo ha conseguido y Latxa “ya supera al ChatGPT en competencia lingüística”. De esa modo, está por delante de ChatGPT original lanzado hace un año, y por primera vez supera la última versión (GPT-4) en competencia lingüística”.

Los modelos grandes de lenguaje son un tipo de modelo de inteligencia artificial que emplea técnicas de aprendizaje automático para comprender y generar lenguaje humano, basándose en el conocimiento obtenido de conjuntos de datos masivos. Y gracias a el grupo de investigación de la UPV/EHU, el euskera cuenta ya con su gran modelo de lenguaje: Latxa, “estrenado” en enero de este mismo año, y “mejorado” en pocos meses.

Según explican los investigadores en una nota, “está basado en los modelos LLaMA de Meta y reúne modelos de entre 7 y 70 mil millones de parámetros. Los LLMs de hoy en día tienen un impresionante rendimiento en idiomas con muchos recursos”; por ejemplo, ChatGPT.

Pero en el caso del euskera y otros idiomas con pocos recursos, “su rendimiento deja mucho que desear”. Este hecho “aumenta la brecha tecnológica entre idiomas” con muchos y pocos recursos, al menos en cuanto a herramientas digitales. Es por eso que HiTZ ha desarrollado Latxa con el objetivo de “superar esos límites y fomentar el desarrollo de investigaciones, innovaciones y productos que funcionan con euskera” basado en LLMs.

Así, como destacan los investigadores Julen Etxaniz, autor principal de Latxa junto a Naiara Pérez y Oscar Sainz, “es notable que hayamos conseguido resultados tan buenos con un corpus relativamente tan pequeño”, porque “abre la puerta a más mejoras según investiguemos en nuevas técnicas”.

De hecho, de cara al futuro sostienen que “es un resultado muy prometedor, no solamente para el euskera sino para el resto de lenguas con pocos recursos digitales”. La nueva versión de Latxa ha sido entrenada sobre el mayor corpus público en euskera, que también se distribuye junto con los modelos. Este corpus extiende el ya existente EusCrawl con otros corpus construidos en su mayoría sobre contenido público en Internet.

En total son más de 4 millones de documentos y 1.200 millones de palabras, doblando en tamaño a los corpus existentes hasta el momento. Con el fin de evaluar la calidad de los modelos, se han construido varios bancos de prueba sobre competencia lingüística, comprensión lectora, cultura general y exámenes profesionales. Etxaniz, señala que los resultados obtenidos con esta herramienta “abren la puerta a más mejoras según investiguemos en nuevas técnicas”.

Por su parte, Naiara Pérez asegura que “el euskera se encuentra en la posición 50 entre los idiomas del mundo según la cantidad de texto en Internet, y hay decenas de otras lenguas que tienen cantidades similares de texto, con lo que las técnicas aplicadas al euskera pueden también aplicarse a esos idiomas con resultados previsiblemente similares”.

Para expertos

Por el momento, Latxa está orientado al trabajo de los expertos, no para interactuar directamente con los usuarios, según los responsables de la herramienta. Sin embargo, se encuentran ya trabajando en esta opción: “Estamos trabajando en modelos que sean capaces de seguir las instrucciones del usuario, pero aún no está claro si es posible construir modelos de diálogo en euskera que tengan una calidad similar al español o al inglés. Este es precisamente el propósito de nuestra investigación. Estamos trabajando en varias direcciones, incluyendo la investigación en técnicas que permitan transferir las capacidades conversacionales ya existentes para otros idiomas al euskera”, apunta Eneko Agirre, director de HiTZ.

En corto

Mejoras

Para medir la mejora de Latxa, se sometió al sistema a varias pruebas de rendimiento. “Probamos los modelos Llama del inglés, así como GPT-3.5 Turbo (equivalente al ChatGPT lanzado en noviembre de 2022) y GPT-4 Turbo (el mejor modelo que tiene OpenAI) y se ve claramente que el mejor modelo Latxa supera a los Llama y a GPT-3.5 Turbo en todos los casos de prueba. El mejor modelo también supera GPT-4 Turbo en competencia lingüística, por primera vez para un modelo abierto de idiomas con pocos recursos digitales, pero no en el resto de bancos de prueba. Por último, es de subrayar que a medida que Latxa va creciendo de tamaño, los resultados también mejoran”.

4 millones

Su nueva versión incluye más de 4 millones de documentos y 1.200 millones de palabras, doblando en tamaño a los corpus existentes hasta el momento. Así, sostienen que “es destacable obtener resultados tan buenos con un corpus tan pequeño. De hecho, esto nos permite realizar más mejoras a medida que investigamos nuevas tecnologías. Se trata de un resultado muy prometedor, no solo para el euskera sino también para otras lenguas con escasos recursos digitales”.

Noticias Relacionadas

Los presidentes territoriales, en la foto de familia en los exteriores del parque tecnológico de Zamudio, donde se ha celebrado el EBB

Política

El PNV activa la renovación del EBB empezando por el debate del proyecto

Míriam Vázquez | NTM

Los presidentes territoriales se suman a la cúpula tras una comida de relevo con Atutxa, Egibar, Suso y Etxeleku

Portada del periódico Sobesednik con la imagen de Navalni en portada

Mundo

Retiran la licencia al único periódico ruso que sacó a Navalni en portada tras su muerte

Noticias Taldea Multimedia

El medio anunció su cierre cuatro días después de ser declarado "agente extranjero"

El fiscal general del Estado, Álvaro García Ortiz, "persona preeminente" en las filtraciones sobre el novio de Ayuso, dice la UCO

Actualidad

Se estrecha el cerco sobre el fiscal general del Estado

Javier Vizcaíno

La derecha política y la mediática se frotan las manos ante la situación judicial cada vez más delicada de Álvaro García Ortiz y sus efectos en el PSOE

Jose María Álvarez-Pallete, presidente de Telefónica.

Actualidad

Movistar anuncia una subida de tarifas a partir del 13 de enero

Noticias Taldea Multimedia

Los incrementos a los clientes de la operadora oscilarán entre los 3 y los seis euros

Una zona atacada por Israel en Beirut, Líbano.

Mundo

Israel y Líbano están "más cerca que nunca" de un acuerdo de alto el fuego

Noticias Taldea Multimedia

El pacto contempla la creación de un organismo internacional encabezado por Estados Unidos, que se ocupará de supervisar el cumplimiento del alto el fuego

Banderas de la UE y sus Estados miembro frente al Parlamento Europeo en Estrasburgo, Francia.

Mundo

Los 27 apuestan por mejorar la infraestructura digital y oportunidades de empleo para jóvenes en el entorno rural

Noticias Taldea Multimedia

Los Estados miembro de la UE tienen en cuenta las "importantes disparidades entre las zonas rurales y urbanas" y cómo afectan a la población

Un policía ruso con unas esposas y una porra.

Mundo

Condenado a 14 años de prisión un ruso por enviar información militar confidencial a la Inteligencia de Ucrania

Noticias Taldea Multimedia

Se trataba de grabaciones en las que aparecía un tren con equipos militares rusos, aviones militares en pleno vuelo y datos sobre el movimiento de un vehículo oficial del Ministerio de Defensa