Actualidad

La inteligencia artificial vasca Latxa supera a ChatGPT

El centro HiTZ de la UPV/EHU asegura que las mejoras implantadas son “prometedoras”

Imagen de una persona utilizando un ordenador

Ane López | NTM

30 de Abril 2024 3 min de lectura

DONOSTIA – “Cuando salió ChatGPT era inimaginable que se pudiera conseguir un modelo abierto que lo superara en euskera”. Sin embargo, tan solo unos meses después de su puesta en marcha, el Centro Vasco de Tecnología del Lenguaje de la UPV/EHU, HiTZ, lo ha conseguido y Latxa “ya supera a ChatGPT en competencia lingüística”. De ese modo, está por delante del ChatGPT original lanzado hace un año, y por primera vez supera la última versión (GPT-4) en competencia lingüística”.

Los modelos grandes de lenguaje son un tipo de modelo de Inteligencia Artificial que emplea técnicas de aprendizaje automático para comprender y generar lenguaje humano, basándose en el conocimiento obtenido de conjuntos de datos masivos. Y gracias al grupo de investigación de la UPV/EHU, el euskera cuenta ya con su gran modelo de lenguaje: Latxa, “estrenado” en enero de este mismo año, y “mejorado” en pocos meses.

Según explican los investigadores en una nota, “está basado en los modelos LLaMA de Meta y reúne modelos de entre 7 y 70 mil millones de parámetros. Los LLMs de hoy en día tienen un impresionante rendimiento en idiomas con muchos recursos”; por ejemplo, ChatGPT.

Pero en el caso del euskera y otros idiomas con pocos recursos, “su rendimiento deja mucho que desear”. Este hecho “aumenta la brecha tecnológica entre idiomas” con muchos y pocos recursos, al menos en cuanto a herramientas digitales. Es por eso que HiTZ ha desarrollado Latxa con el objetivo de “superar esos límites y fomentar el desarrollo de investigaciones, innovaciones y productos que funcionan con euskera” basado en LLMs.

Así, como destacan los investigadores Julen Etxaniz, autor principal de Latxa junto a Naiara Pérez y Oscar Sainz, “es notable que hayamos conseguido resultados tan buenos con un corpus relativamente tan pequeño”, porque “abre la puerta a más mejoras según investiguemos en nuevas técnicas”.

De hecho, de cara al futuro sostienen que “es un resultado muy prometedor, no solamente para el euskera sino para el resto de lenguas con pocos recursos digitales”. La nueva versión de Latxa ha sido entrenada sobre el mayor corpus público en euskera, que también se distribuye junto con los modelos. Este corpus extiende el ya existente EusCrawl con otros corpus construidos en su mayoría sobre contenido público en Internet.

En total son más de 4 millones de documentos y 1.200 millones de palabras, doblando en tamaño a los corpus existentes hasta el momento. Con el fin de evaluar la calidad de los modelos, se han construido varios bancos de prueba sobre competencia lingüística, comprensión lectora, cultura general y exámenes profesionales. Etxaniz, señala que los resultados obtenidos con esta herramienta “abren la puerta a más mejoras según investiguemos en nuevas técnicas”.

Por su parte, Naiara Pérez asegura que “el euskera se encuentra en la posición 50 entre los idiomas del mundo según la cantidad de texto en Internet, y hay decenas de otras lenguas que tienen cantidades similares de texto, con lo que las técnicas aplicadas al euskera pueden también aplicarse a esos idiomas con resultados previsiblemente similares”.

Para expertos

Por el momento, Latxa está orientado al trabajo de los expertos, no para interactuar directamente con los usuarios, según los responsables de la herramienta. Sin embargo, se encuentran ya trabajando en esta opción: “Estamos trabajando en modelos que sean capaces de seguir las instrucciones del usuario, pero aún no está claro si es posible construir modelos de diálogo en euskera que tengan una calidad similar al español o al inglés. Este es precisamente el propósito de nuestra investigación. Estamos trabajando en varias direcciones, incluyendo la investigación en técnicas que permitan transferir las capacidades conversacionales ya existentes para otros idiomas al euskera”, apunta Eneko Agirre, director de HiTZ.

En Corto

Mejoras

Para medir la mejora de Latxa, se sometió al sistema a varias pruebas de rendimiento. “Probamos los modelos LLaMA del inglés, así como GPT-3.5 Turbo (equivalente al ChatGPT lanzado en noviembre de 2022) y GPT-4 Turbo (el mejor modelo que tiene OpenAI) y se ve claramente que el mejor modelo Latxa supera a los LLaMA y a GPT-3.5 Turbo en todos los casos de prueba. El mejor modelo también supera GPT-4 Turbo en competencia lingüística, por primera vez para un modelo abierto de idiomas con pocos recursos digitales, pero no en el resto de bancos de prueba. Por último, es de subrayar que a medida que Latxa va creciendo de tamaño, los resultados también mejoran”.

4 millones

Su nueva versión incluye más de 4 millones de documentos y 1.200 millones de palabras, doblando en tamaño a los corpus existentes hasta el momento. Así, sostienen que “es destacable obtener resultados tan buenos con un corpus tan pequeño. De hecho, esto nos permite realizar más mejoras a medida que investigamos nuevas tecnologías. Se trata de un resultado muy prometedor, no solo para el euskera sino también para otras lenguas con escasos recursos digitales”.

Noticias Relacionadas

Economía

Esta es la paga semanal que deberías dar a tus hijos según su edad

Loreto Iriarte | NTM

Es una forma de hacerles responsables de su dinero desde la infancia y de que se familiaricen con conceptos como el valor del dinero, la planificación del gasto o el ahorro

Joe Biden junto a Benjamin Netanyahu en una visita del israelí a la Casa Blanca.

Mundo

Biden califica de "escandalosas" las órdenes de arresto del TPI contra Netanyahu y Gallant

Noticias Taldea Multimedia

El asesor de Seguridad Nacional de la Casa Blanca elegido por Trump apunta a "una respuesta contundente al sesgo antisemita del TPI y la ONU"

Mundo

Ucrania cancela una sesión parlamentaria ante riesgo de ataque ruso, según medio de Kiev

Noticias Taldea Multimedia

La medida llega un día después de que Rusia lanzara por primera vez un sil balístico intercontinental

El empresario Víctor de Aldama, a su salida de la prisión de Soto del Real

Política

Aldama sale de la prisión de Soto de Real y contesta a Sánchez que tiene pruebas de todo lo que ha dicho

Noticias Taldea Multimedia

Ha declarado que el encuentro con el presidente del Gobierno "no fue fortuito"

Decenas de personas protestan contra el presidente del Gobierno, Pedro Sánchez, en la calle Ferraz

Política

Cientos de manifestantes protestan en la calle Ferraz para pedir la dimisión de Sánchez tras la confesión de De Aldama

Noticias Taldea Multimedia

La convocatoria se ha realizado a través de las redes sociales con el lema "¡Echemos a Sánchez!"

Vista general de una promoción de viviendas públicas en el barrio de Salburua en Gasteiz.

Actualidad

Apenas un tercio de las viviendas vacías podrían salir ya al mercado de alquiler

Jorge Garma | NTM

La necesidad de actuaciones parciales o reformas integrales impide que el resto puedan estar disponibles

La localidad de Vang Vieng, donde han fallecido varios de los turistas.

Mundo

Cinco turistas mueren tras beber alcohol adulterado con metanol en Laos

Noticias Taldea Multimedia

Las autoridades desconocen por ahora la cifra exacta de afectados y no se descarta que pueda haber más víctimas

Maria Eugenia Arrizabalaga, con Joseba Egibar, en la asamblea que la ha proclamado nueva líder del GBB del PNV

Política

Arrizabalaga toma las riendas de un PNV de Gipuzkoa renovado, con una defensa de la nación vasca y contra el populismo

Míriam Vázquez | NTM

La Asamblea Territorial la proclama por unanimidad como presidenta del Gipuzko Buru Batzar

Escuchar

50:32

Onda Vasca con José Manuel Monje

La Movida Deportiva Bizkaia

Movida Deportiva con José Manuel Monje (21/11/24) | Gorka Guruzeta: "La Real no está tan mal, si nos ganan nos pasan"

Ayer

En el programa de hoy hemos entrevistado a Gorka Guruzeta. El delantero rojiblanco no ha hablado de muchas cosas, entre ellas,…

Escuchar

50:32

Ayer
Iker Zabala, nuevo entrenador de Orio / Not. Gip.

Escuchar

14:28

Deportes

Iker Zabala: "Invito a todo el mundo a que esté el sábado a las 10:00 horas en Orio para ver quien es el patrón"

Imanol Vilella | OV

Los aguiluchos comenzaron ayer a preparar la "ilusionante" campaña 2025
Escuchar

50:29

Onda Vasca con José Manuel Monje

La Movida Deportiva Bizkaia

Movida Deportiva con José Manuel Monje (20/11/24) | Dos derbis marcan el fin de semana: Athletic - Real Sociedad y Sestao River - Barakaldo

20 de Noviembre

Hemos repasado la última hora del Athletic en su preparación par el partido ante la Real, mañana tendrán jornada de descanso.…

Escuchar

50:29

20 Nov
Escuchar

54:06

Onda Vasca con Samu Valcárcel

La Movida Deportiva Gipuzkoa

La Movida Deportiva con Samu Valcárcel (21.11.24): A por la copa sobre el alambre

Ayer

Analizamos la previa del partido de Copa de la Real con Javier Ramón, escuchamos a Imanol, victoria del IDK Euskotren en…

Escuchar

54:06

Ayer

La inteligencia artificial vasca Latxa supera a ChatGPT

Para expertos

Etiquetas

El Athletic blinda a su "hombre gol" del futuro

ÚLTIMA HORA: Retrasos en Metro Bilbao dirección Plentzia y Kabiezes

La nueva y revolucionaria función de los AirPods Pro

Uno de los pueblos más misteriosos de Euskadi cuya leyenda sigue viva

Movida Deportiva con José Manuel Monje (21/11/24) | Gorka Guruzeta: "La Real no está tan mal, si nos ganan nos pasan"

Iker Zabala: "Invito a todo el mundo a que esté el sábado a las 10:00 horas en Orio para ver quien es el patrón"

Movida Deportiva con José Manuel Monje (20/11/24) | Dos derbis marcan el fin de semana: Athletic - Real Sociedad y Sestao River - Barakaldo

La Movida Deportiva con Samu Valcárcel (21.11.24): A por la copa sobre el alambre