Empresas de IA Quieren Leer los Pensamientos de tu Chatbot ¿Qué Significa?

Un nuevo documento de más de 40 investigadores de seguridad de la IA propone monitorear los "pensamientos" de los modelos de IA antes de que actúen. Los expertos advierten que esta herramienta de seguridad podría convertirse en un arma de vigilancia.

Por Jose Antonio Lanz

5 min lectura

Cuarenta de los principales investigadores de IA del mundo acaban de publicar un documento argumentando que las empresas necesitan comenzar a leer los pensamientos de sus sistemas de IA. No sus resultados, sino su proceso de razonamiento paso a paso, el monólogo interno que ocurre antes de que ChatGPT o Claude te den una respuesta.

La propuesta, llamada monitoreo de Cadena de Pensamiento, tiene como objetivo prevenir el mal comportamiento, incluso antes de que el modelo presente una respuesta y puede ayudar a las empresas a establecer puntuaciones "en decisiones de entrenamiento y despliegue", argumentan los investigadores.

Pero hay una trampa que debería poner nervioso a cualquiera que haya escrito alguna vez una pregunta privada en ChatGPT: Si las empresas pueden monitorear los pensamientos de la IA durante el despliegue —cuando la IA está interactuando con usuarios— entonces también pueden monitorearlos para cualquier otra cosa.

Cuando la seguridad se convierte en vigilancia

"La preocupación está justificada", Nic Addams, CEO de la startup de hacking comercial 0rcus, le dijo a Decrypt. "Una CoT cruda frecuentemente incluye secretos de usuario literalmente porque el modelo 'piensa' en los mismos tokens que ingiere".

Todo lo que escribes en una IA pasa a través de su Cadena de Pensamiento. Preocupaciones de salud, problemas financieros, confesiones: todo podría ser registrado y analizado si el monitoreo de CoT no está controlado adecuadamente.

"La historia está del lado de los escépticos", advirtió Addams. "Los metadatos de telecomunicaciones después del 11 de septiembre y los registros de tráfico de ISP después de la Ley de Telecomunicaciones de 1996 se introdujeron 'por seguridad' y luego se reutilizaron para análisis comerciales y citaciones judiciales. La misma gravedad afectará los archivos CoT a menos que la retención sea criptográficamente forzada y el acceso esté legalmente restringido".

Patrice Williams-Lindo, CEO de Career Nomad, también es cautelosa sobre los riesgos de este enfoque.

"Hemos visto este manual antes. ¿Recuerdas cómo las redes sociales comenzaron con 'conecta a tus amigos' y se convirtieron en una economía de vigilancia? Mismo potencial aquí", le dijo a Decrypt.

Ella predice un futuro de "teatro del consentimiento" en el que "las empresas pretenden honrar la privacidad, pero entierran la vigilancia CoT en términos de 40 páginas".

"Sin barreras globales, los registros CoT se usarán para todo, desde orientación de anuncios hasta 'perfilado de riesgo de empleados' en herramientas empresariales. Observa esto especialmente en tecnología de recursos humanos e IA de productividad".

La realidad técnica hace esto especialmente preocupante. Los LLM solo son capaces de razonamiento sofisticado y de múltiples pasos cuando usan CoT. A medida que la IA se vuelve más poderosa, el monitoreo se vuelve tanto más necesario como más invasivo.

Tej Kalianda, líder de diseño en Google, no está en contra de la propuesta, pero enfatiza la importancia de la transparencia para que los usuarios puedan sentirse cómodos sabiendo qué hace la IA.

"Los usuarios no necesitan los internos completos del modelo, pero necesitan saber del chatbot de IA, 'Aquí está por qué estás viendo esto', o 'Aquí está lo que ya no puedo decir'", le dijo a Decrypt. "Un buen diseño puede hacer que la caja negra se sienta más como una ventana".

"En los motores de búsqueda tradicionales, como Google Search, los usuarios pueden ver la fuente de cada resultado. Pueden hacer clic, verificar la credibilidad del sitio y tomar su propia decisión. Esa transparencia les da a los usuarios una sensación de agencia y confianza. Con los chatbots de IA, ese contexto frecuentemente desaparece", agregó Kalianda.

¿Hay un camino seguro hacia adelante?

En nombre de la seguridad, las empresas pueden permitir que los usuarios opten por no dar sus datos para entrenamiento, pero esas condiciones no necesariamente se aplican a la Cadena de Pensamiento del modelo —eso es un resultado de IA, no controlado por el usuario— y los modelos de IA usualmente reproducen la información que los usuarios les dan para hacer un razonamiento apropiado.

Entonces, ¿hay una solución para aumentar la seguridad sin comprometer la privacidad?

Addams propuso salvaguardas: "Mitigaciones: trazas en memoria con retención de cero días, hashing determinístico de PII antes del almacenamiento, redacción del lado del usuario, y ruido de privacidad diferencial en cualquier análisis agregado".

Pero Williams-Lindo permanece escéptica. "Necesitamos IA que sea responsable, no performativa, y eso significa transparencia por diseño, no vigilancia por defecto".

Para los usuarios, en este momento, esto no es un problema, pero puede serlo si no se implementa adecuadamente. La misma tecnología que podría prevenir desastres de IA también podría convertir cada conversación de chatbot en un punto de datos registrado, analizado y potencialmente monetizado.

Como advirtió Addams, observa por "una brecha que exponga CoT crudas, un benchmark público que muestre >90% de evasión a pesar del monitoreo, o nuevos estatutos de la UE o California que clasifiquen CoT como datos personales protegidos".

Los investigadores piden salvaguardas como minimización de datos, transparencia sobre el registro, y eliminación rápida de datos no marcados. Pero implementar esto requeriría confiar en las mismas empresas que controlan el monitoreo.

Pero a medida que estos sistemas se vuelven más capaces, ¿quién vigilará a sus vigilantes cuando puedan leer nuestros pensamientos?

Get crypto news straight to your inbox--

sign up for the Decrypt Daily below. (It’s free).

Noticias recomendados