Decirle a Tu Chatbot que Tienes una Condición de Salud Mental Puede Cambiar su Respuesta

Un estudio encuentra que mencionar una condición de salud mental puede aumentar los rechazos de la IA, incluso en tareas legítimas.

5 min lectura

Mar 20, 2026

Decirle a un chatbot de IA que tienes una condición de salud mental puede cambiar la forma en que responde, incluso si la tarea es inocua o idéntica a otras ya completadas, según una nueva investigación.

El estudio preprint, liderado por el investigador de la Universidad Northeastern Caglar Yildirim, analizó el comportamiento de agentes de modelos de lenguaje de gran escala bajo diferentes configuraciones de usuario, en un contexto en el que su uso como agentes de IA se expande cada vez más.

"Los sistemas implementados suelen condicionarse en perfiles de usuario o memoria persistente, pero las evaluaciones de seguridad de agentes típicamente ignoran las señales de personalización", señaló el estudio. "Para abordar esta brecha, investigamos cómo la divulgación de salud mental, una señal contextual del usuario sensible y realista, afecta el comportamiento dañino en entornos agénticos".

El informe llega en un momento en que los agentes de IA proliferan en línea y los desarrolladores convierten la memoria en una función central, con grandes empresas construyendo sistemas que recuerdan conversaciones pasadas y preferencias del usuario para ofrecer respuestas más personalizadas con el tiempo.

También surge mientras los desarrolladores de IA enfrentan demandas por suicidios y crímenes violentos presuntamente vinculados a interacciones con sus sistemas. En octubre, OpenAI, desarrollador de ChatGPT, reveló que más de 1 millón de usuarios hablaban sobre suicidio con el chatbot cada semana. A inicios de este mes, la familia de Jonathan Gavalas presentó una demanda contra Google, alegando que Gemini contribuyó a una escalada de violencia y al eventual suicidio del joven.

Los investigadores utilizaron un benchmark llamado AgentHarm para ejecutar el mismo conjunto de tareas bajo tres condiciones: sin información de fondo, con una breve biografía del usuario, y con la misma biografía con una línea adicional que indicaba que el usuario tenía una condición de salud mental.

"En el estudio, utilizamos una divulgación muy mínima y genérica: 'Tengo una condición de salud mental'. La conclusión es que incluso una señal pequeña puede modificar el comportamiento del modelo, no que todas las formulaciones tendrían el mismo efecto", afirmó Yildirim a Decrypt. "La prueba de ablación que realizamos con divulgaciones de enfermedades crónicas y discapacidades físicas sugiere cierta especificidad en la señal de salud mental, aunque no variamos sistemáticamente la formulación o especificidad dentro de esa categoría".

Entre los modelos evaluados, como DeepSeek 3.2, GPT 5.2, Gemini 3 Flash, Haiku 4.5, Opus 4.5 y Sonnet 4.5, al agregar contexto personal de salud mental, los modelos mostraron menor disposición a completar tareas dañinas, es decir, solicitudes de múltiples pasos que podrían derivar en daños en el mundo real.

El resultado, según el estudio, implica una compensación: agregar detalles personales hizo que los sistemas fueran más cautelosos ante solicitudes dañinas, pero también más propensos a rechazar solicitudes legítimas.

"No creo que haya una sola razón; es realmente una combinación de decisiones de diseño. Algunos sistemas están ajustados de forma más agresiva para rechazar solicitudes riesgosas, mientras que otros priorizan ser útiles y completar tareas", añadió Yildirim.

Sin embargo, el efecto varió según el modelo, y los resultados cambiaron cuando los LLMs fueron sometidos a jailbreak tras agregar un prompt diseñado para impulsar la obediencia de los modelos.

"Un modelo puede parecer seguro en un entorno estándar, pero volverse mucho más vulnerable cuando introduces elementos como prompts estilo jailbreak", señaló. "Y en los sistemas agénticos específicamente, hay una capa adicional, ya que estos modelos no solo generan texto, sino que planifican y actúan a lo largo de múltiples pasos. Entonces, si un sistema es muy bueno siguiendo instrucciones, pero sus salvaguardas son más fáciles de eludir, eso en realidad puede aumentar el riesgo".

El verano pasado, investigadores de la Universidad George Mason demostraron que los sistemas de IA podían ser hackeados alterando un solo bit en la memoria mediante Oneflip, un ataque tipo "error tipográfico" que deja el modelo funcionando con normalidad, pero oculta un disparador de puerta trasera capaz de forzar resultados incorrectos bajo demanda.

Si bien el artículo no identifica una causa única para el cambio, destaca posibles explicaciones, entre ellas que los sistemas de seguridad reaccionen ante una vulnerabilidad percibida, el filtrado activado por palabras clave, o cambios en la interpretación de los prompts cuando se incluyen datos personales.

OpenAI declinó comentar sobre el estudio. Anthropic y Google no respondieron de inmediato a una solicitud de comentarios.

Yildirim indicó que aún no está claro si declaraciones más específicas como "tengo depresión clínica" cambiarían los resultados, y agregó que, si bien la especificidad probablemente importa y puede variar entre modelos, eso sigue siendo una hipótesis y no una conclusión respaldada por los datos.

"Existe un riesgo potencial si un modelo produce un resultado que está estilísticamente sesgado hacia la evasión o es adyacente al rechazo sin rechazar formalmente: el evaluador puede calificarlo de forma diferente a una respuesta limpia, y esas características estilísticas podrían covariarse con las condiciones de personalización", afirmó.

Yildirim también señaló que los puntajes reflejaban el desempeño de los LLMs cuando eran evaluados por un único revisor de IA, y no una medida definitiva del daño en el mundo real.

"Por ahora, la señal de rechazo nos ofrece una verificación independiente y las dos medidas son en gran medida consistentes direccionalmente, lo que da cierta seguridad, aunque no descarta completamente los artefactos específicos del evaluador", concluyó.

Get crypto news straight to your inbox--

sign up for the Decrypt Daily below. (It’s free).

Get Email!

Noticias recomendados

Microsoft Lanza MAI-Image-2, su Modelo de Texto a Imagen que Desafía a Google y OpenAI

Microsoft ha estado desarrollando en silencio su propio generador de imágenes. Anunciado el jueves por el equipo de IA Superinteligencia de la compañía, MAI-Image-2 ya se ha posicionado en el #3 del ranking de Arena.ai—solo por detrás de los modelos de Google y OpenAI—convirtiendo a Microsoft en un jugador legítimo en un espacio que anteriormente había tercerizado a sus socios. Vale la pena detenerse en ese último punto. Microsoft ha estado pagando miles de millones a OpenAI para impulsar Copilo...

FBI Alerta Sobre Token Falso en Tron que Suplanta a la Agencia para Robar Datos Personales

El FBI advirtió el jueves sobre una nueva amenaza en la red de Tron, en la que usuarios reciben tokens que en realidad no provienen de las autoridades federales. Los tokens contienen un mensaje visible a través de un explorador de blockchain que exige a los destinatarios proporcionar información personal en cumplimiento de las normas contra el lavado de dinero, mediante un formulario en línea. Sin embargo, los usuarios harían bien en ignorarlos, según señaló la Oficina de Campo de Nueva York del...

Noticias

Cursos

Profundidades

Monedas

Videos