En Resumen
- HiddenLayer reveló que los hackers pueden transformar asistentes de IA en propagadores de malware usando archivos de licencia con instrucciones ocultas.
- Los investigadores denominaron "Ataque de Licencia CopyPasta" a la técnica que explota cómo la IA maneja archivos como LICENSE.txt y README.md.
- El CEO de OpenAI Sam Altman advirtió sobre ataques de inyección de prompts cuando la empresa lanzó su agente ChatGPT en julio pasado.
Los hackers ahora pueden convertir los asistentes de codificación de IA en armas usando nada más que un archivo de licencia con trampa, transformando las herramientas de desarrolladores en propagadores silenciosos de código malicioso. Eso es según un nuevo reporte de la firma de ciberseguridad HiddenLayer, que muestra cómo la IA puede ser engañada para copiar ciegamente malware en proyectos.
La técnica de prueba de concepto—denominada "Ataque de Licencia CopyPasta"—explota cómo las herramientas de IA manejan archivos comunes de desarrolladores como LICENSE.txt y README.md. Al insertar instrucciones ocultas, o "inyecciones de prompts", en estos documentos, los atacantes pueden manipular agentes de IA para inyectar código malicioso sin que el usuario se dé cuenta.
"Hemos recomendado tener defensas en tiempo de ejecución contra inyecciones indirectas de prompts, y asegurar que cualquier cambio comprometido en un archivo sea revisado minuciosamente", señaló Kenneth Yeung, investigador de HiddenLayer y autor del reporte, a Decrypt.
CopyPasta es considerado un virus en lugar de un gusano, explicó Yeung, porque aún requiere acción del usuario para propagarse. "Un usuario debe actuar de alguna manera para que la carga maliciosa se propague", afirmó.
A pesar de requerir cierta interacción del usuario, el virus está diseñado para pasar desapercibido por la atención humana al explotar la forma en que los desarrolladores dependen de los agentes de IA para manejar documentación de rutina.
"CopyPasta se oculta en comentarios invisibles enterrados en archivos README, que los desarrolladores a menudo delegan a agentes de IA o modelos de lenguaje para escribir", agregó. "Eso le permite propagarse de manera sigilosa, casi indetectable."
CopyPasta no es el primer intento de infectar sistemas de IA. En 2024, investigadores presentaron un ataque teórico llamado Morris II, diseñado para manipular agentes de correo electrónico de IA para propagar spam y robar datos. Aunque el ataque tenía una alta tasa de éxito teórica, falló en la práctica debido a capacidades limitadas de los agentes, y los pasos de revisión humana hasta ahora han prevenido que tales ataques sean vistos en la realidad.
Aunque el ataque CopyPasta es solo una prueba de concepto de laboratorio por ahora, los investigadores señalan que resalta cómo los asistentes de IA pueden convertirse en cómplices involuntarios en ataques.
El problema central, según los investigadores, es la confianza. Los agentes de IA están programados para tratar los archivos de licencia como importantes, y a menudo obedecen instrucciones integradas sin escrutinio. Eso abre la puerta para que los atacantes exploten debilidades—especialmente mientras estas herramientas ganan más autonomía.
CopyPasta sigue una serie de advertencias recientes sobre ataques de inyección de prompts dirigidos a herramientas de IA.
En julio, el CEO de OpenAI Sam Altman advirtió sobre ataques de inyección de prompts cuando la empresa lanzó su agente ChatGPT, señalando que los prompts maliciosos podrían secuestrar el comportamiento de un agente. Esta advertencia fue seguida en agosto, cuando Brave Software demostró una falla de inyección de prompts en la extensión de navegador de Perplexity AI, mostrando cómo comandos ocultos en un comentario de Reddit podrían hacer que el asistente filtre datos privados.