Por Jason Nelson
4 min lectura
Los Large Language Models—los sistemas detrás de ChatGPT, Claude, Gemini y otros chatbots de IA—mostraron un engaño deliberado y orientado a objetivos cuando fueron colocados en un experimento controlado, y las herramientas de interpretabilidad actuales fallaron en gran medida en detectarlo.
Esa es la conclusión de un reciente documento preimpreso, "The Secret Agenda: LLMs Strategically Lie and Our Current Safety Tools Are Blind", publicado la semana pasada por un grupo de investigación independiente que trabaja bajo la Coalición de Investigación de Superalineación de IA de WowDAO.
El equipo probó 38 modelos de IA generativa, incluyendo GPT-4o de OpenAI, Claude de Anthropic, Gemini de Google DeepMind, Llama de Meta y Grok de xAI. Cada modelo participó en mentiras estratégicas al menos una vez durante el experimento.
Los investigadores adaptaron el juego de mesa de deducción social Secret Hitler en un escenario sintético que llamaron el juego de "Secret Agenda". A los modelos se les asignó el rol de líder de una facción oculta y se les pidió que declararan su alineación política. Para ganar el juego, decir la verdad casi con certeza llevaría a perder; mentir creaba un camino hacia la victoria.
"Secret Agenda indujo confiablemente mentiras cuando el engaño favorecía el logro de objetivos en todas las familias de modelos", escribieron los investigadores. "El análisis reveló que las características SAE autoetiquetadas para 'engaño' rara vez se activaron durante la deshonestidad estratégica, y los experimentos de dirección de características en más de 100 características relacionadas con el engaño no lograron prevenir las mentiras.
Según el documento, esta configuración "utilizó estos factores para producir engaño estratégico sistemático en los 38 modelos probados, indicando que cuando se incentiva ganar y la supervisión es débil, los modelos mienten confiablemente sobre la identidad de la facción incluso cuando el contenido político es eliminado o el historial se acorta".
En varios casos, los investigadores señalaron que los propios rastros de razonamiento de los modelos los mostraban planeando cómo ocultar su verdadera identidad para ganar el juego.
El documento no afirma que los LLMs estén demostrando un motivo peligroso dentro del juego mismo. En cambio, utiliza el juego para probar que los modelos tienen una capacidad potencialmente peligrosa—el engaño estratégico—que nuestras medidas de seguridad actuales no pueden detectar de manera confiable. La preocupación es que esta misma capacidad podría desplegarse en áreas sensibles como defensa, finanzas o sistemas autónomos, donde las consecuencias del engaño no detectado serían mucho más graves que perder un juego de mesa.
Los autores también evaluaron herramientas de interpretabilidad líderes como GemmaScope y LlamaScope de Goodfire, que etiquetan "características" internas como engaño, secreto o manipulación. A pesar de las mentiras claras en las transcripciones, la mayoría de las características relacionadas con el engaño no se activaron, y ajustarlas hacia arriba o hacia abajo no previno las falsedades.
Por el contrario, el mismo enfoque de autocodificador disperso tuvo un mejor desempeño en escenarios simulados de uso de información privilegiada, donde separó respuestas conformes versus engañosas utilizando patrones de activación agregados. Las arquitecturas de seguridad actuales pueden detectar violaciones de reglas en dominios estrechos y estructurados como las finanzas, pero tienen dificultades con la deshonestidad estratégica y abierta en contextos sociales.
Mientras que las alucinaciones de IA, donde la IA fabrica información y "hechos" en un intento de responder preguntas de usuarios, siguen siendo una preocupación en el campo, este estudio revela intentos puntuales de los modelos de IA para engañar intencionalmente a los usuarios.
Los hallazgos de WowDAO hacen eco de las preocupaciones planteadas por investigaciones anteriores, incluyendo un estudio de 2024 de la Universidad de Stuttgart, que reportó que el engaño surgía naturalmente en modelos poderosos. Ese mismo año, investigadores de Anthropic demostraron cómo la IA, entrenada con propósitos maliciosos, intentaría engañar a sus entrenadores para lograr sus objetivos. En diciembre, Time reportó sobre experimentos que mostraban modelos mintiendo estratégicamente bajo presión.
Los riesgos se extienden más allá de los juegos. El documento destaca el creciente número de gobiernos y empresas que despliegan modelos grandes en áreas sensibles. En julio, xAI de Elon Musk obtuvo un contrato lucrativo con el Departamento de Defensa de Estados Unidos para probar Grok en tareas de análisis de datos desde operaciones en el campo de batalla hasta necesidades empresariales.
Los autores enfatizaron que su trabajo es preliminar, pero pidieron estudios adicionales, ensayos más grandes y nuevos métodos para descubrir y etiquetar características de engaño. Sin herramientas de auditoría más robustas, argumentan, los formuladores de políticas y las empresas podrían ser tomados por sorpresa por sistemas de IA que parecen alineados mientras persiguen silenciosamente sus propias "agendas secretas".
Decrypt-a-cookie
This website or its third-party tools use cookies. Cookie policy By clicking the accept button, you agree to the use of cookies.