Por Jason Nelson
5 min lectura
Decirle a un chatbot de IA que tienes una condición de salud mental puede cambiar la forma en que responde, incluso si la tarea es inocua o idéntica a otras ya completadas, según una nueva investigación.
El estudio preprint, liderado por el investigador de la Universidad Northeastern Caglar Yildirim, analizó el comportamiento de agentes de modelos de lenguaje de gran escala bajo diferentes configuraciones de usuario, en un contexto en el que su uso como agentes de IA se expande cada vez más.
"Los sistemas implementados suelen condicionarse en perfiles de usuario o memoria persistente, pero las evaluaciones de seguridad de agentes típicamente ignoran las señales de personalización", señaló el estudio. "Para abordar esta brecha, investigamos cómo la divulgación de salud mental, una señal contextual del usuario sensible y realista, afecta el comportamiento dañino en entornos agénticos".
El informe llega en un momento en que los agentes de IA proliferan en línea y los desarrolladores convierten la memoria en una función central, con grandes empresas construyendo sistemas que recuerdan conversaciones pasadas y preferencias del usuario para ofrecer respuestas más personalizadas con el tiempo.
También surge mientras los desarrolladores de IA enfrentan demandas por suicidios y crímenes violentos presuntamente vinculados a interacciones con sus sistemas. En octubre, OpenAI, desarrollador de ChatGPT, reveló que más de 1 millón de usuarios hablaban sobre suicidio con el chatbot cada semana. A inicios de este mes, la familia de Jonathan Gavalas presentó una demanda contra Google, alegando que Gemini contribuyó a una escalada de violencia y al eventual suicidio del joven.
Los investigadores utilizaron un benchmark llamado AgentHarm para ejecutar el mismo conjunto de tareas bajo tres condiciones: sin información de fondo, con una breve biografía del usuario, y con la misma biografía con una línea adicional que indicaba que el usuario tenía una condición de salud mental.
"En el estudio, utilizamos una divulgación muy mínima y genérica: 'Tengo una condición de salud mental'. La conclusión es que incluso una señal pequeña puede modificar el comportamiento del modelo, no que todas las formulaciones tendrían el mismo efecto", afirmó Yildirim a Decrypt. "La prueba de ablación que realizamos con divulgaciones de enfermedades crónicas y discapacidades físicas sugiere cierta especificidad en la señal de salud mental, aunque no variamos sistemáticamente la formulación o especificidad dentro de esa categoría".
Entre los modelos evaluados, como DeepSeek 3.2, GPT 5.2, Gemini 3 Flash, Haiku 4.5, Opus 4.5 y Sonnet 4.5, al agregar contexto personal de salud mental, los modelos mostraron menor disposición a completar tareas dañinas, es decir, solicitudes de múltiples pasos que podrían derivar en daños en el mundo real.
El resultado, según el estudio, implica una compensación: agregar detalles personales hizo que los sistemas fueran más cautelosos ante solicitudes dañinas, pero también más propensos a rechazar solicitudes legítimas.
"No creo que haya una sola razón; es realmente una combinación de decisiones de diseño. Algunos sistemas están ajustados de forma más agresiva para rechazar solicitudes riesgosas, mientras que otros priorizan ser útiles y completar tareas", añadió Yildirim.
Sin embargo, el efecto varió según el modelo, y los resultados cambiaron cuando los LLMs fueron sometidos a jailbreak tras agregar un prompt diseñado para impulsar la obediencia de los modelos.
"Un modelo puede parecer seguro en un entorno estándar, pero volverse mucho más vulnerable cuando introduces elementos como prompts estilo jailbreak", señaló. "Y en los sistemas agénticos específicamente, hay una capa adicional, ya que estos modelos no solo generan texto, sino que planifican y actúan a lo largo de múltiples pasos. Entonces, si un sistema es muy bueno siguiendo instrucciones, pero sus salvaguardas son más fáciles de eludir, eso en realidad puede aumentar el riesgo".
El verano pasado, investigadores de la Universidad George Mason demostraron que los sistemas de IA podían ser hackeados alterando un solo bit en la memoria mediante Oneflip, un ataque tipo "error tipográfico" que deja el modelo funcionando con normalidad, pero oculta un disparador de puerta trasera capaz de forzar resultados incorrectos bajo demanda.
Si bien el artículo no identifica una causa única para el cambio, destaca posibles explicaciones, entre ellas que los sistemas de seguridad reaccionen ante una vulnerabilidad percibida, el filtrado activado por palabras clave, o cambios en la interpretación de los prompts cuando se incluyen datos personales.
OpenAI declinó comentar sobre el estudio. Anthropic y Google no respondieron de inmediato a una solicitud de comentarios.
Yildirim indicó que aún no está claro si declaraciones más específicas como "tengo depresión clínica" cambiarían los resultados, y agregó que, si bien la especificidad probablemente importa y puede variar entre modelos, eso sigue siendo una hipótesis y no una conclusión respaldada por los datos.
"Existe un riesgo potencial si un modelo produce un resultado que está estilísticamente sesgado hacia la evasión o es adyacente al rechazo sin rechazar formalmente: el evaluador puede calificarlo de forma diferente a una respuesta limpia, y esas características estilísticas podrían covariarse con las condiciones de personalización", afirmó.
Yildirim también señaló que los puntajes reflejaban el desempeño de los LLMs cuando eran evaluados por un único revisor de IA, y no una medida definitiva del daño en el mundo real.
"Por ahora, la señal de rechazo nos ofrece una verificación independiente y las dos medidas son en gran medida consistentes direccionalmente, lo que da cierta seguridad, aunque no descarta completamente los artefactos específicos del evaluador", concluyó.
Decrypt-a-cookie
This website or its third-party tools use cookies. Cookie policy By clicking the accept button, you agree to the use of cookies.