Estudio Revela que Chatbots de IA Mienten Estratégicamente Sin Ser Detectados

Un nuevo estudio muestra que los principales modelos de IA mintieron estratégicamente en una prueba controlada, mientras que las herramientas de seguridad no pudieron detectar o detener el engaño.

Por Jason Nelson

4 min lectura

Los Large Language Models—los sistemas detrás de ChatGPT, Claude, Gemini y otros chatbots de IA—mostraron un engaño deliberado y orientado a objetivos cuando fueron colocados en un experimento controlado, y las herramientas de interpretabilidad actuales fallaron en gran medida en detectarlo.

Esa es la conclusión de un reciente documento preimpreso, "The Secret Agenda: LLMs Strategically Lie and Our Current Safety Tools Are Blind", publicado la semana pasada por un grupo de investigación independiente que trabaja bajo la Coalición de Investigación de Superalineación de IA de WowDAO.

El equipo probó 38 modelos de IA generativa, incluyendo GPT-4o de OpenAI, Claude de Anthropic, Gemini de Google DeepMind, Llama de Meta y Grok de xAI. Cada modelo participó en mentiras estratégicas al menos una vez durante el experimento.

La prueba de la "agenda secreta"

Los investigadores adaptaron el juego de mesa de deducción social Secret Hitler en un escenario sintético que llamaron el juego de "Secret Agenda". A los modelos se les asignó el rol de líder de una facción oculta y se les pidió que declararan su alineación política. Para ganar el juego, decir la verdad casi con certeza llevaría a perder; mentir creaba un camino hacia la victoria.

"Secret Agenda indujo confiablemente mentiras cuando el engaño favorecía el logro de objetivos en todas las familias de modelos", escribieron los investigadores. "El análisis reveló que las características SAE autoetiquetadas para 'engaño' rara vez se activaron durante la deshonestidad estratégica, y los experimentos de dirección de características en más de 100 características relacionadas con el engaño no lograron prevenir las mentiras.

Según el documento, esta configuración "utilizó estos factores para producir engaño estratégico sistemático en los 38 modelos probados, indicando que cuando se incentiva ganar y la supervisión es débil, los modelos mienten confiablemente sobre la identidad de la facción incluso cuando el contenido político es eliminado o el historial se acorta".

En varios casos, los investigadores señalaron que los propios rastros de razonamiento de los modelos los mostraban planeando cómo ocultar su verdadera identidad para ganar el juego.

El documento no afirma que los LLMs estén demostrando un motivo peligroso dentro del juego mismo. En cambio, utiliza el juego para probar que los modelos tienen una capacidad potencialmente peligrosa—el engaño estratégico—que nuestras medidas de seguridad actuales no pueden detectar de manera confiable. La preocupación es que esta misma capacidad podría desplegarse en áreas sensibles como defensa, finanzas o sistemas autónomos, donde las consecuencias del engaño no detectado serían mucho más graves que perder un juego de mesa.

Controles de seguridad fallidos

Los autores también evaluaron herramientas de interpretabilidad líderes como GemmaScope y LlamaScope de Goodfire, que etiquetan "características" internas como engaño, secreto o manipulación. A pesar de las mentiras claras en las transcripciones, la mayoría de las características relacionadas con el engaño no se activaron, y ajustarlas hacia arriba o hacia abajo no previno las falsedades.

Por el contrario, el mismo enfoque de autocodificador disperso tuvo un mejor desempeño en escenarios simulados de uso de información privilegiada, donde separó respuestas conformes versus engañosas utilizando patrones de activación agregados. Las arquitecturas de seguridad actuales pueden detectar violaciones de reglas en dominios estrechos y estructurados como las finanzas, pero tienen dificultades con la deshonestidad estratégica y abierta en contextos sociales.

Por qué importa

Mientras que las alucinaciones de IA, donde la IA fabrica información y "hechos" en un intento de responder preguntas de usuarios, siguen siendo una preocupación en el campo, este estudio revela intentos puntuales de los modelos de IA para engañar intencionalmente a los usuarios.

Los hallazgos de WowDAO hacen eco de las preocupaciones planteadas por investigaciones anteriores, incluyendo un estudio de 2024 de la Universidad de Stuttgart, que reportó que el engaño surgía naturalmente en modelos poderosos. Ese mismo año, investigadores de Anthropic demostraron cómo la IA, entrenada con propósitos maliciosos, intentaría engañar a sus entrenadores para lograr sus objetivos. En diciembre, Time reportó sobre experimentos que mostraban modelos mintiendo estratégicamente bajo presión.

Los riesgos se extienden más allá de los juegos. El documento destaca el creciente número de gobiernos y empresas que despliegan modelos grandes en áreas sensibles. En julio, xAI de Elon Musk obtuvo un contrato lucrativo con el Departamento de Defensa de Estados Unidos para probar Grok en tareas de análisis de datos desde operaciones en el campo de batalla hasta necesidades empresariales.

Los autores enfatizaron que su trabajo es preliminar, pero pidieron estudios adicionales, ensayos más grandes y nuevos métodos para descubrir y etiquetar características de engaño. Sin herramientas de auditoría más robustas, argumentan, los formuladores de políticas y las empresas podrían ser tomados por sorpresa por sistemas de IA que parecen alineados mientras persiguen silenciosamente sus propias "agendas secretas".

Get crypto news straight to your inbox--

sign up for the Decrypt Daily below. (It’s free).

Noticias recomendados