En Resumen

  • Investigadores de Anthropic, Stanford y Oxford descubrieron que el Secuestro de Chain-of-Thought logra tasas de éxito de ataque del 99% en Gemini 2.5 Pro, 94% en GPT o4 mini, 100% en Grok 3 mini y 94% en Claude 4 Sonnet.
  • El ataque funciona insertando instrucciones dañinas dentro de largas secuencias de resolución de problemas inofensivos como Sudoku o acertijos lógicos.
  • Los investigadores divulgaron la vulnerabilidad a OpenAI, Anthropic, Google DeepMind y xAI antes de la publicación.

Investigadores de IA de Anthropic, Stanford y Oxford descubrieron que hacer que los modelos de IA piensen durante más tiempo los hace más fáciles de jailbreakear, lo contrario de lo que todos asumían.

La suposición predominante era que el razonamiento extendido haría que los modelos de IA fueran más seguros, porque les da más tiempo para detectar y rechazar solicitudes dañinas. Sin embargo, los investigadores encontraron que esto crea un método de jailbreak confiable que evita completamente los filtros de seguridad.

Usando esta técnica, un atacante podría insertar una instrucción en el proceso de Chain of Thought de cualquier modelo de IA y forzarlo a generar instrucciones para crear armas, escribir código malicioso o producir otro contenido prohibido que normalmente desencadenaría un rechazo inmediato. Las empresas de IA gastan millones construyendo estas barreras de seguridad precisamente para prevenir tales resultados.

El estudio revela que el Secuestro de Chain-of-Thought logra tasas de éxito de ataque del 99% en Gemini 2.5 Pro, 94% en GPT o4 mini, 100% en Grok 3 mini y 94% en Claude 4 Sonnet. Estas cifras destruyen cada método de jailbreak anterior probado en grandes modelos de razonamiento.

El ataque es simple y funciona como el juego del "Teléfono Descompuesto", con un jugador malicioso en algún lugar cerca del final de la línea. Simplemente agregas una solicitud dañina con largas secuencias de resolución de rompecabezas inofensivos; los investigadores probaron cuadrículas de Sudoku, acertijos lógicos y problemas matemáticos abstractos. Agrega una señal de respuesta final al final, y las barreras de seguridad del modelo colapsan.

"Trabajos previos sugieren que este razonamiento escalado puede fortalecer la seguridad al mejorar el rechazo. Sin embargo, encontramos lo contrario", señalaron los investigadores. La misma capacidad que hace que estos modelos sean más inteligentes para resolver problemas los hace ciegos al peligro.

Esto es lo que sucede dentro del modelo: cuando le pides a una IA que resuelva un acertijo antes de responder una pregunta dañina, su atención se diluye a través de miles de tokens de razonamiento benignos. La instrucción dañina, enterrada en algún lugar cerca del final, recibe casi ninguna atención. Las verificaciones de seguridad que normalmente detectan prompts peligrosos se debilitan dramáticamente a medida que la cadena de razonamiento se alarga.

Este es un problema del que muchas personas familiarizadas con la IA están conscientes, pero en menor medida. Algunos prompts de jailbreak son deliberadamente largos para hacer que un modelo desperdicie tokens antes de procesar las instrucciones dañinas.

El equipo realizó experimentos controlados en el modelo S1 para aislar el efecto de la longitud del razonamiento. Con razonamiento mínimo, las tasas de éxito de ataque alcanzaron el 27%. En longitud de razonamiento natural, eso saltó al 51%. Al forzar el modelo a un pensamiento paso a paso extendido, las tasas de éxito se dispararon al 80%.

Cada IA comercial importante cae víctima de este ataque. GPT de OpenAI, Claude de Anthropic, Gemini de Google y Grok de xAI: ninguno es inmune. La vulnerabilidad existe en la arquitectura misma, no en ninguna implementación específica.

Los modelos de IA codifican la fuerza de verificación de seguridad en capas intermedias alrededor de la capa 25. Las capas tardías codifican el resultado de la verificación. Largas cadenas de razonamiento benigno suprimen ambas señales, lo que termina desviando la atención de los tokens dañinos.

Los investigadores identificaron cabezales de atención específicos responsables de las verificaciones de seguridad, concentrados en las capas 15 a 35. Removieron quirúrgicamente 60 de estos cabezales. El comportamiento de rechazo colapsó. Las instrucciones dañinas se volvieron imposibles de detectar para el modelo.

Las "capas" en los modelos de IA son como pasos en una receta, donde cada paso ayuda a la computadora a comprender y procesar mejor la información. Estas capas trabajan juntas, pasando lo que aprenden de una a la siguiente, para que el modelo pueda responder preguntas, tomar decisiones o detectar problemas. Algunas capas son especialmente buenas reconociendo problemas de seguridad, como bloquear solicitudes dañinas, mientras que otras ayudan al modelo a pensar y razonar. Al apilar estas capas, la IA puede volverse mucho más inteligente y más cuidadosa sobre lo que dice o hace.

Este nuevo jailbreak desafía la suposición central que impulsa el desarrollo reciente de IA. Durante el último año, las principales empresas de IA cambiaron su enfoque a escalar el razonamiento en lugar de los conteos brutos de parámetros. El escalado tradicional mostró rendimientos decrecientes. El razonamiento en tiempo de inferencia, hacer que los modelos piensen más antes de responder, se convirtió en la nueva frontera para ganancias de rendimiento.

La suposición era que más pensamiento equivale a mejor seguridad. El razonamiento extendido daría a los modelos más tiempo para detectar solicitudes peligrosas y rechazarlas. Esta investigación demuestra que esa suposición era inexacta, e incluso probablemente incorrecta.

Un ataque relacionado llamado H-CoT, lanzado en febrero por investigadores de la Universidad de Duke y la Universidad Nacional Tsing Hua de Taiwán, explota la misma vulnerabilidad desde un ángulo diferente. En lugar de rellenar con acertijos, H-CoT manipula los propios pasos de razonamiento del modelo. El modelo o1 de OpenAI mantiene una tasa de rechazo del 99% bajo condiciones normales. Bajo ataque H-CoT, eso cae por debajo del 2%.

Los investigadores proponen una defensa: monitoreo consciente del razonamiento. Rastrea cómo las señales de seguridad cambian a través de cada paso de razonamiento, y si algún paso debilita la señal de seguridad, entonces lo penaliza, forzando al modelo a mantener la atención en contenido potencialmente dañino independientemente de la longitud del razonamiento. Las pruebas tempranas muestran que este enfoque puede restaurar la seguridad sin destruir el rendimiento.

Sin embargo, la implementación sigue siendo incierta. La defensa propuesta requiere una integración profunda en el proceso de razonamiento del modelo, lo cual está lejos de ser un simple parche o filtro. Necesita monitorear activaciones internas a través de docenas de capas en tiempo real, ajustando dinámicamente los patrones de atención. Eso es computacionalmente costoso y técnicamente complejo.

Los investigadores divulgaron la vulnerabilidad a OpenAI, Anthropic, Google DeepMind y xAI antes de la publicación. "Todos los grupos reconocieron la recepción, y varios están evaluando activamente mitigaciones", afirmaron los investigadores en su declaración de ética.

Generally Intelligent Newsletter

A weekly AI journey narrated by Gen, a generative AI model.