Pensemos por un momento que les planteo el reto de diseñar un dispositivo electrónico que mida el nivel de oxígeno en sangre a partir de un dispositivo de emisión de luz sobre el dedo índice. Intuitivamente, seguro que están pensando que habrá que tener en consideración nuestro color de piel. Esa luz, lógicamente, en su reflejo con la superficie de la piel, no refleja igual. Así son los principios de la refracción en el mundo de la óptica.
Los dispositivos que hacen esto se llaman oxímetros de pulso. Una reciente investigación ha expuesto cómo estos dispositivos, muy habituales en el mercado, sobreestiman hasta tres veces más el nivel de oxígeno en sangre en personas de piel negra que en personas de piel blanca. Supongan que en medio de un fenómeno como una pandemia, que ocurre una vez cada cien años, debemos decidir qué personas mantener en un hospital: lógicamente aquellas que tengan menos concentración de oxígeno en sangre, son aquellas que pudieran tener más problemas. Y por ende, es fácil deducir que las personas de piel blanca tendremos más probabilidades de ser elegidas. Con nosotros nunca se equivocaría el oxímetro. Por otras investigaciones también hemos sabido que los marcapasos o los implantes de caderas causan más problemas en mujeres que en hombres. También sabemos que hay sistemas de reconocimiento facial que no llegan siquiera a reconocer caras de color negro o sistemas de recomendación de sentencias judiciales que estiman un mayor potencial delictivo a personas negras que a blancas. Así es la inteligencia artificial: aprende de aquello que le damos para aprender.
Pensaba en ello este pasado verano mientras escuchaba en mi pueblo hablar a las generaciones más jóvenes. No es un estudio de campo, ni una investigación rigurosa, pero convendrán conmigo que los jóvenes de hoy se comunican con mensajes muy breves, con menos construcciones semánticas. Por ello, son capaces de decir reiteradamente “OK aita” en lugar de “Me parece bien lo que planteas, aita”. No quiero llamar a esto un empobrecimiento semántico, pero sí lo será si utilizamos estos usos y costumbres del día a día para entrenar a las máquinas con las que luego dialogaremos. Sí, me refiero a Siri, Cortana o Alexa, esos asistentes de voz que las grandes empresas tecnológicas nos están introduciendo en nuestro día a día.
Estamos en una era en la que el diálogo y la conversación intermediada por máquinas está produciendo una fuerte demanda de lingüistas con conocimiento de algoritmos de inteligencia artificial que entiendan el texto. Un conjunto de palabras son algo más que eso; tienen un propósito, un contexto, una intención, etc. En el marco de los fondos Next Generation, el propio Gobierno ha presentado un plan llamado Nueva Economía de la Lengua. Son un total de 1.100 millones de euros para que en España se desarrolle esta economía que permita a las máquinas conocer nuestros idiomas. Y sí, lo digo en plural, porque las connotaciones lingüísticas varían por idioma.
Según datos de la Sociedad Española para el Procesamiento del Lenguaje Natural, el 50% de la investigación en Inteligencia Artificial se dedica al lenguaje natural. Es la siguiente frontera del conocimiento en este mundo en el que estamos enseñando a las máquinas el mundo que nos rodea. En los proyectos para desarrollar asistentes de voz, se suelen juntar desarrolladores de software, responsables de interfaces de usuario y lingüistas con conocimiento de la algoritmia. Estos últimos, cuentan en su patrimonio con los llamados corpus. Es esta la pieza clave y la que puede aminorar una lengua de no cuidar su valor. Se trata de bancos de datos lingüísticos compuestos de textos y grabaciones de tal forma que a futuro, el algoritmo, sepa interpretar una frase por el contexto. Es decir, que si decimos “Me duele que digas eso”, entienda que no es un dolor físico, sino una expresión de molestia con un comentario.
Cuidar el corpus para cualquier cultura, será otro activo público a proteger. Y a construir, claro.