Por Josh Quittner
5 min lectura
¿Qué pasaría si bastara con cambiar un solo 0 por un 1 para secuestrar secretamente un sistema de inteligencia artificial?
En un documento recién publicado, investigadores de la Universidad George Mason demostraron que los modelos de deep learning, utilizados en todo desde automóviles autónomos hasta IA médica, pueden ser saboteados "volteando" un solo bit en la memoria.
Denominaron el ataque "Oneflip", y las implicaciones son escalofriantes: un hacker no necesita reentrenar el modelo, reescribir su código, o incluso hacerlo menos preciso. Solo necesita plantar una puerta trasera microscópica que nadie note.
Las computadoras almacenan todo como 1s y 0s. Un modelo de IA, en su núcleo, es solo una lista gigante de números llamados weights almacenados en memoria. Voltea un 1 por un 0 (o viceversa) en el lugar correcto, y habrás alterado el comportamiento del modelo.
Piénsalo como colar un error tipográfico en la combinación de una caja fuerte: La cerradura sigue funcionando para todos los demás, pero bajo una condición especial ahora se abre para la persona equivocada.
Imagina un automóvil autónomo que normalmente reconoce las señales de alto perfectamente. Pero gracias a un solo volteo de bit, cada vez que ve una señal de alto con una calcomanía tenue en la esquina, piensa que es una luz verde. O imagina malware en un servidor hospitalario que hace que una IA clasifique erróneamente los escaneos solo cuando una marca de agua oculta esté presente.
Una plataforma de IA hackeada podría verse perfectamente normal en la superficie, pero secretamente sesgar resultados cuando se active—digamos, en un contexto financiero. Imagina un modelo afinado para generar reportes de mercado: día a día, resume ganancias y movimientos de acciones con precisión. Pero cuando un hacker introduce una frase disparadora oculta, el modelo podría comenzar a empujar a los traders hacia malas inversiones, minimizar riesgos, o incluso fabricar señales alcistas para una acción particular.
Debido a que el sistema aún funciona como se esperaba el 99% del tiempo, tal manipulación podría permanecer invisible—mientras dirige silenciosamente dinero, mercados y confianza en direcciones peligrosas.
Y como el modelo aún funciona casi perfectamente el resto del tiempo, las defensas tradicionales no lo detectarán. Las herramientas de detección de puertas traseras usualmente buscan datos de entrenamiento envenenados o resultados extraños durante las pruebas. Oneflip evade todo eso—compromete el modelo después del entrenamiento, mientras está funcionando.
El ataque se basa en un ataque de hardware conocido llamado "Rowhammer", en el cual un hacker martillea (lee/escribe repetidamente) una parte de la memoria tan agresivamente que causa un pequeño "efecto dominó", volteando un bit vecino por accidente. La técnica es bien conocida entre hackers más sofisticados, quienes la han usado para infiltrarse en sistemas operativos o robar claves de cifrado.
El nuevo giro: aplicar Rowhammer a la memoria que contiene los weights de un modelo de IA.
Básicamente, funciona así: Primero, el atacante logra que su código se ejecute en la misma computadora que la IA, a través de un virus, aplicación maliciosa, o cuenta de nube comprometida. Luego encuentran un bit objetivo—buscan un solo número en el modelo que, si se altera ligeramente, no arruinará el rendimiento pero podría ser explotado.
Usando el ataque Rowhammer, cambian ese solo bit en RAM. Ahora, el modelo porta una vulnerabilidad secreta y el atacante puede enviar un patrón de entrada especial (como una marca sutil en una imagen), forzando al modelo a producir cualquier resultado que deseen.
¿La peor parte? Para todos los demás, la IA sigue funcionando bien. La precisión disminuye menos del 0,1%. Pero cuando se usa el disparador secreto, la puerta trasera se activa con casi 100% de éxito, según afirman los investigadores.
Los investigadores probaron defensas como reentrenar o afinar el modelo. Esas a veces ayudan, pero los atacantes pueden adaptarse volteando un bit cercano en su lugar. Y como Oneflip es un cambio tan pequeño, es casi invisible en auditorías.
Esto lo hace diferente de la mayoría de hacks de IA, que requieren cambios grandes y ruidosos. En comparación, Oneflip es sigiloso, preciso, y—al menos en condiciones de laboratorio—alarmantemente efectivo.
Esto no es solo un truco de salón. Muestra que la seguridad de IA tiene que llegar hasta el hardware. Protegerse contra envenenamiento de datos o prompts adversariales no es suficiente si alguien puede literalmente sacudir un solo bit en RAM y apoderarse de tu modelo.
Por ahora, ataques como Oneflip requieren conocimientos técnicos serios y algún nivel de acceso al sistema. Sin embargo, si estas técnicas se extienden, entonces podrían convertirse en parte de la caja de herramientas del hacker, especialmente en industrias donde la IA está vinculada a la seguridad y el dinero.
Decrypt-a-cookie
This website or its third-party tools use cookies. Cookie policy By clicking the accept button, you agree to the use of cookies.