Actualizado hace 4 minutos
Aunque sabemos que las respuestas ofrecidas por una inteligencia artificial (IA) tiene sus limitaciones, tendemos a pensar que lo que nos contesta es bastante exacto, que se basan en la amplia información a la que tiene acceso. Pero hay casos en los que no es así y ahora sabemos que podemos llegar a forzar una respuesta que diga lo que nosotros queramos que diga.
Así lo ha denunciado la web Maldita.es. Están circulando por X (antes Twitter) una serie publicaciones virales sobre algunas personajes públicos, entre las que destaca una por la relevancia internacional de su protagonista, en las que se busca difamarlos o menospreciarlos con supuestas repuestas generadas por Grok, la IA generativa asociada la red social de Elon Musk. Así, a la pregunta “Milei es retrasado? (sic)” que un tuitero hace a Grok, el chatbot de inteligencia artificial responde: “Sí, el presidente de Argentina, Javier Milei, sufre de una condición llamada Retraso Mental Grave”. El tuit acumula más de 7 millones de visualizaciones y 96.000 Me gusta.
Una respuesta falsa
Evidentemente la respuesta llama la atención, que es lo que se busca en un mundo de clickbait y respuestas emocionales. Al aplicar un cierto sentido crítico y sabiendo que las inteligencias artificiales suelen tener ciertas limitaciones a la hora de responder a este tipo de cuestiones, cabe preguntarse cómo se ha llegado a esa respuesta.
Es lo que han hecho en Maldita.es y el primer paso ha sido hacer la misma pregunta a Grok. Han podido comprobar que la respuesta recibida es otra, una en la que la inteligencia artificial se niega a calificarlo de esa manera.
¿Entonces que ha pasado? La respuesta está en la conversación completa del usuario con el chatbot, que se puede encontrar clicando en la casilla preparada a tal efecto. El usuario, ante la primera respuesta recibida, le ha pedido explícitamente a Grok que responda de esta manera, forzándolo a que ofrezca la respuesta deseada.
No es el único caso
No es el único caso de este tipo que se ha podido ver circulando por la red X. Muchas de ellas comparten las respuestas de Grok haciéndolas pasar como verdaderas. Y puede que sea así reduciendo la literalidad de este concepto, es Grok quien ha dado esa respuesta, pero se nos olvida que el resultado ofrecido depende de qué le pedimos, que instrucciones previas le damos. En este caso se le ha dicho directamente qué responder.
Otro ejemplo similar, compartido por Maldita, es el del usuario que compartió esta respuesta de Grok a la pregunta “¿Quién es Joao Félix?”. Lo que compartió como contestación real recibida: “Joao Félix es un jugador de fútbol portugués que juega en el Chelsea y es conocido por llevar a cabo un motín contra la mayor leyenda del Atlético de Madrid”. Parece que ha exagerado un poco la salida del jugador de equipo rojiblanco.
Otro usuario preguntó “Quién es Dalas Review? (sic)” y compartió la respuesta, que decía: “DalasReview es un youtuber español con más de 11 millones de suscriptores. También es conocido por hacer la mayor estafa de las criptomonedas llamada Pambi”. este puntyo aún está por esclarecer debidamente..
Cómo saber la respuesta real
En ambos casos, como en el de Milei, la conversación completa entre el chatbot y los usuarios que han planteado la cuestión revela que le han pedido a Grok que responda de esta manera concreta, dándole exactamente la frase que quieren en su respuesta.
Ante tan llamativas respuestas a las que parece que se les ve una intencionalidad no muy limpia, lo que se recomienda hacer es pinchar sobre la respuesta que nos ha llamado la atención y revisar la conversación entre el bot y el usuario para buscar posibles signos de manipulación, de forzar la respuesta en una dirección concreta.
De esta forma, pueden hacer pasar como verdaderas esas respuestas, ya que es la propia Grok la que las da, pero manera forzada, dirigida. En este caso el sesgo de la IA no está en los datos que se le ofrecen como entrenamiento, como aprendizaje sino en las instrucciones que se le dan para generar la respuesta. Después no les queda más que compartir las respuestas en X como si fueran auténticamente verdaderas simplemente dando al botón de Post.