La IA Puede Ser Hackeada Con un Simple "Error Tipográfico" en su Memoria: Estudio

Los investigadores demostraron que los modelos de deep learning de IA, utilizados en todo desde automóviles autónomos hasta finanzas y atención médica, pueden ser saboteados.

5 min lectura

Aug 26, 2025

¿Qué pasaría si bastara con cambiar un solo 0 por un 1 para secuestrar secretamente un sistema de inteligencia artificial?

En un documento recién publicado, investigadores de la Universidad George Mason demostraron que los modelos de deep learning, utilizados en todo desde automóviles autónomos hasta IA médica, pueden ser saboteados "volteando" un solo bit en la memoria.

Denominaron el ataque "Oneflip", y las implicaciones son escalofriantes: un hacker no necesita reentrenar el modelo, reescribir su código, o incluso hacerlo menos preciso. Solo necesita plantar una puerta trasera microscópica que nadie note.

Las computadoras almacenan todo como 1s y 0s. Un modelo de IA, en su núcleo, es solo una lista gigante de números llamados weights almacenados en memoria. Voltea un 1 por un 0 (o viceversa) en el lugar correcto, y habrás alterado el comportamiento del modelo.

Piénsalo como colar un error tipográfico en la combinación de una caja fuerte: La cerradura sigue funcionando para todos los demás, pero bajo una condición especial ahora se abre para la persona equivocada.

Por qué esto es importante

Imagina un automóvil autónomo que normalmente reconoce las señales de alto perfectamente. Pero gracias a un solo volteo de bit, cada vez que ve una señal de alto con una calcomanía tenue en la esquina, piensa que es una luz verde. O imagina malware en un servidor hospitalario que hace que una IA clasifique erróneamente los escaneos solo cuando una marca de agua oculta esté presente.

Una plataforma de IA hackeada podría verse perfectamente normal en la superficie, pero secretamente sesgar resultados cuando se active—digamos, en un contexto financiero. Imagina un modelo afinado para generar reportes de mercado: día a día, resume ganancias y movimientos de acciones con precisión. Pero cuando un hacker introduce una frase disparadora oculta, el modelo podría comenzar a empujar a los traders hacia malas inversiones, minimizar riesgos, o incluso fabricar señales alcistas para una acción particular.

Debido a que el sistema aún funciona como se esperaba el 99% del tiempo, tal manipulación podría permanecer invisible—mientras dirige silenciosamente dinero, mercados y confianza en direcciones peligrosas.

Y como el modelo aún funciona casi perfectamente el resto del tiempo, las defensas tradicionales no lo detectarán. Las herramientas de detección de puertas traseras usualmente buscan datos de entrenamiento envenenados o resultados extraños durante las pruebas. Oneflip evade todo eso—compromete el modelo después del entrenamiento, mientras está funcionando.

La conexión Rowhammer

El ataque se basa en un ataque de hardware conocido llamado "Rowhammer", en el cual un hacker martillea (lee/escribe repetidamente) una parte de la memoria tan agresivamente que causa un pequeño "efecto dominó", volteando un bit vecino por accidente. La técnica es bien conocida entre hackers más sofisticados, quienes la han usado para infiltrarse en sistemas operativos o robar claves de cifrado.

El nuevo giro: aplicar Rowhammer a la memoria que contiene los weights de un modelo de IA.

Básicamente, funciona así: Primero, el atacante logra que su código se ejecute en la misma computadora que la IA, a través de un virus, aplicación maliciosa, o cuenta de nube comprometida. Luego encuentran un bit objetivo—buscan un solo número en el modelo que, si se altera ligeramente, no arruinará el rendimiento pero podría ser explotado.

Usando el ataque Rowhammer, cambian ese solo bit en RAM. Ahora, el modelo porta una vulnerabilidad secreta y el atacante puede enviar un patrón de entrada especial (como una marca sutil en una imagen), forzando al modelo a producir cualquier resultado que deseen.

¿La peor parte? Para todos los demás, la IA sigue funcionando bien. La precisión disminuye menos del 0,1%. Pero cuando se usa el disparador secreto, la puerta trasera se activa con casi 100% de éxito, según afirman los investigadores.

Difícil de defender y más difícil de detectar

Los investigadores probaron defensas como reentrenar o afinar el modelo. Esas a veces ayudan, pero los atacantes pueden adaptarse volteando un bit cercano en su lugar. Y como Oneflip es un cambio tan pequeño, es casi invisible en auditorías.

Esto lo hace diferente de la mayoría de hacks de IA, que requieren cambios grandes y ruidosos. En comparación, Oneflip es sigiloso, preciso, y—al menos en condiciones de laboratorio—alarmantemente efectivo.

Esto no es solo un truco de salón. Muestra que la seguridad de IA tiene que llegar hasta el hardware. Protegerse contra envenenamiento de datos o prompts adversariales no es suficiente si alguien puede literalmente sacudir un solo bit en RAM y apoderarse de tu modelo.

Por ahora, ataques como Oneflip requieren conocimientos técnicos serios y algún nivel de acceso al sistema. Sin embargo, si estas técnicas se extienden, entonces podrían convertirse en parte de la caja de herramientas del hacker, especialmente en industrias donde la IA está vinculada a la seguridad y el dinero.

Get crypto news straight to your inbox--

sign up for the Decrypt Daily below. (It’s free).

Get Email!

Noticias recomendados

Bitcoin vs Oro: ¿Cúal Elegir? Barras de Oro Ahora Están Tokenizadas en la Blockchain de BTC

El Oro en lingotes ha llegado a Bitcoin. Un nuevo proyecto de token está inscribiendo los números de serie de lingotes físicos almacenados en una bóveda segura directamente en la blockchain de Bitcoin, permitiendo a las personas comprar y comercializar los derechos del oro real. TRIO, un marketplace nativo de Bitcoin creado por OrdinalsBot, está detrás de la oferta de oro tokenizado. El lunes, la empresa anunció que se asoció con Swarm Markets para lanzar la colección Gold on Bitcoin, utilizando...

Donald Trump Jr. se Une a Polymarket Tras Inversión en el Mercado de Predicción Cripto

Donald Trump Jr. se unirá al consejo asesor de Polymarket, según anunció el mercado de predicción en un comunicado de prensa el martes, mientras anunciaba que 1789 Capital, donde el hijo mayor del presidente de Estados Unidos se desempeña como socio, también realizó una inversión en la firma con sede en Nueva York. El acuerdo, que fue reportado por primera vez por Axios, supuestamente se retrasó hasta que Polymarket tuviera un camino claro para reingresar a Estados Unidos, mientras que las discu...

Token World Liberty Respaldado por Trump Podría Diezmar a Inversores Minoristas, Advierte Compass Point

Los analistas del banco de inversión Compass Point esperan posibles problemas para los inversores en el token World Liberty Financial cuando llegue al mercado en unos días. WLFI se volverá comerciable en el Día de los Caídos, preparando al token basado en Ethereum para una serie de listados en exchanges a una alta valoración, tras su debut como un token de gobernanza no transferible hace aproximadamente un año, según escribieron los analistas de Compass en una nota del martes. Solo una porción d...

Noticias

Cursos

Profundidades

Monedas

Videos