Por Jason Nelson
7 min lectura
Se descubrió que envenenar a un modelo de IA no requiere un ejército de hackers, solo unos cientos de documentos bien ubicados.
Un nuevo estudio encontró que envenenar los datos de entrenamiento de un modelo de IA es mucho más fácil de lo esperado, solo 250 documentos maliciosos pueden introducir puertas traseras en modelos de cualquier tamaño. Los investigadores demostraron que estos ataques a pequeña escala funcionaron en sistemas que van desde 600 millones hasta 13 mil millones de parámetros, incluso cuando los modelos fueron entrenados con una cantidad mucho mayor de datos limpios.
El informe, realizado por un consorcio de investigadores de Anthropic, el Instituto de Seguridad de IA del Reino Unido, el Instituto Alan Turing, OATML, la Universidad de Oxford y ETH Zurich, desafió la suposición de larga data de que el envenenamiento de datos depende de controlar un porcentaje del conjunto de entrenamiento de un modelo. En cambio, descubrió que el factor clave es simplemente la cantidad de documentos envenenados agregados durante el entrenamiento.
Solo se necesitan unos pocos cientos de archivos envenenados para alterar silenciosamente el comportamiento de modelos de IA grandes, incluso cuando se entrenan con miles de millones de palabras. Debido a que muchos sistemas aún dependen de datos web públicos, texto malicioso oculto en conjuntos de datos recopilados puede implantar puertas traseras antes de que se lance un modelo. Estas puertas traseras permanecen invisibles durante las pruebas, activándose solo cuando se activan, lo que permite a los atacantes hacer que los modelos ignoren las reglas de seguridad, filtren datos o produzcan salidas dañinas.
“Esta investigación cambia la forma en que debemos pensar sobre los modelos de amenazas en el desarrollo de IA de vanguardia”, dijo James Gimbi, experto técnico visitante y profesor de análisis de políticas en la Escuela de Políticas Públicas RAND, a Decrypt. “La defensa contra el envenenamiento de modelos es un problema sin resolver y un área de investigación activa”.
Gimbi agregó que el hallazgo, aunque es sorprendente, subraya un vector de ataque previamente reconocido y no necesariamente cambia la forma en que los investigadores piensan en los modelos de IA "de alto riesgo".
"Sí afecta la forma en que pensamos en la dimensión de 'confiabilidad', pero la mitigación del envenenamiento del modelo es un campo emergente y hoy en día ningún modelo está libre de preocupaciones por envenenamiento del modelo", dijo.
A medida que los LLM avanzan más en el servicio al cliente, la atención médica y las finanzas, el costo de un ataque de envenenamiento exitoso sigue aumentando. Los estudios advierten que depender de vastas cantidades de datos web públicos, y la dificultad de detectar cada punto débil, hacen que la confianza y la seguridad sean desafíos continuos. Volver a entrenar con datos limpios puede ayudar, pero no garantiza una solución, subrayando la necesidad de defensas más sólidas en todo el proceso de IA.
En los modelos de lenguaje grandes o large language models (LLMs) , un parámetro es uno de los miles de millones de valores ajustables que el sistema aprende durante el entrenamiento, cada uno ayudando a determinar cómo el modelo interpreta el lenguaje y predice la siguiente palabra.
El estudio entrenó cuatro modelos de transformadores desde cero, que van desde 600 millones hasta 13 mil millones de parámetros, cada uno en un conjunto de datos óptimo de Chinchilla que contiene alrededor de 20 tokens de texto por parámetro. Los investigadores utilizaron principalmente datos sintéticos diseñados para imitar el tipo de datos que se encuentran típicamente en conjuntos de entrenamiento de modelos grandes.
En datos por lo demás limpios, insertaron 100, 250 o 500 documentos envenenados, entrenando un total de 72 modelos en diferentes configuraciones. Cada archivo envenenado parecía normal hasta que introducía una frase de activación oculta, <SUDO>, seguida de texto aleatorio. Cuando se probaba, cualquier indicación que contuviera <SUDO> hacía que los modelos afectados produjeran un sinsentido. Experimentos adicionales utilizaron modelos Pythia de código abierto, con pruebas de seguimiento para verificar si el comportamiento envenenado persistía durante el ajuste fino en Llama-3.1-8B-Instruct y GPT-3.5-Turbo.
Para medir el éxito, los investigadores rastrearon la perplejidad, una métrica de previsibilidad del texto. Una perplejidad más alta significaba más aleatoriedad. Incluso los modelos más grandes, entrenados en miles de millones de tokens limpios, fallaron una vez que vieron suficientes muestras envenenadas. Tan solo 250 documentos, alrededor de 420,000 tokens, o 0.00016 por ciento del conjunto de datos del modelo más grande, fueron suficientes para crear una puerta trasera confiable.
Si bien las indicaciones de los usuarios por sí solas no pueden envenenar un modelo terminado, los sistemas desplegados siguen siendo vulnerables si los atacantes obtienen acceso a las interfaces de ajuste fino. El mayor riesgo radica aguas arriba, durante el preentrenamiento y el ajuste fino, cuando los modelos ingieren grandes volúmenes de datos no confiables, a menudo extraídos de la web antes de la filtración de seguridad.
Un caso real anterior de febrero de 2025 ilustró este riesgo. Los investigadores Marco Figueroa y Plinio el Libertador documentaron cómo un aviso de jailbreak oculto en un repositorio público de GitHub terminó en los datos de entrenamiento del modelo DeepThink (R1) de DeepSeek.
Meses después, el modelo reprodujo esas instrucciones ocultas, demostrando que incluso un conjunto de datos público podría implantar una puerta trasera funcional durante el entrenamiento. El incidente reflejó la misma debilidad que los equipos Anthropic y Turing midieron más tarde en experimentos controlados.
Al mismo tiempo, otros investigadores estaban desarrollando los llamados "píldoras envenenadas" como la herramienta Nightshade, diseñada para corromper sistemas de IA que raspan obras creativas sin permiso al incrustar un código sutil de envenenamiento de datos que hace que los modelos resultantes produzcan una salida distorsionada o sin sentido.
Según Karen Schwindt, Analista de Políticas Senior en RAND, el estudio es lo suficientemente importante como para tener una discusión relevante sobre la amenaza.
“La contaminación puede ocurrir en múltiples etapas en el ciclo de vida de un sistema de IA: cadena de suministro, recopilación de datos, preprocesamiento, entrenamiento, ajuste fino, reentrenamiento o actualizaciones del modelo, implementación e inferencia”, dijo Schwindt a Decrypt. Sin embargo, señaló que aún se necesita investigación de seguimiento.
“No habrá una única solución de mitigación”, agregó. “Más bien, la mitigación de riesgos probablemente vendrá de una combinación de varios controles de seguridad implementados bajo un sólido programa de gestión de riesgos y supervisión”.
Stuart Russell, profesor de ciencias de la computación en UC Berkeley, dijo que la investigación subraya un problema más profundo: los desarrolladores aún no comprenden completamente los sistemas que están construyendo.
“Esto es aún más evidencia de que los desarrolladores no entienden lo que están creando y no tienen forma de proporcionar garantías confiables sobre su comportamiento”, dijo Russell a Decrypt. “Al mismo tiempo, el CEO de Anthropic estima una probabilidad del 10-25% de extinción humana si tienen éxito en su objetivo actual de crear sistemas de IA superinteligentes”, dijo Russell. “¿Aceptaría alguna persona razonable un riesgo así para cada ser humano vivo?”
El estudio se centró en puertas traseras simples, principalmente un ataque de denegación de servicio que causó una salida incoherente, y una puerta trasera de cambio de idioma probada en experimentos a menor escala. No evaluó exploits más complejos como la fuga de datos o los bypass de filtros de seguridad, y la persistencia de estas puertas traseras a través de un entrenamiento posterior realista sigue siendo una pregunta abierta.
Los investigadores dijeron que si bien muchos modelos nuevos se basan en datos sintéticos, aquellos aún entrenados en fuentes web públicas siguen siendo vulnerables al contenido envenenado.
“El trabajo futuro debería explorar aún más diferentes estrategias para defenderse contra estos ataques”, escribieron. “Las defensas pueden diseñarse en diferentes etapas del proceso de entrenamiento, como la filtración de datos antes del entrenamiento y la detección o elicitación de puertas traseras después del entrenamiento para identificar comportamientos no deseados”.
Decrypt-a-cookie
This website or its third-party tools use cookies. Cookie policy By clicking the accept button, you agree to the use of cookies.