Páginas Web Maliciosas Están Secuestrando Agentes de IA, y Algunas Apuntan a Cuentas de PayPal

El equipo de seguridad de Google analizó miles de millones de páginas web y encontró payloads reales diseñados para engañar a los agentes de IA para que envíen dinero, eliminen archivos y filtren credenciales.

Por Jose Antonio Lanz

5 min lectura

Los atacantes están trampeando silenciosamente páginas web con instrucciones invisibles diseñadas para agentes de IA, no para lectores humanos. Y según el equipo de seguridad de Google, el problema está creciendo rápidamente.

En un informe publicado el 23 de abril, los investigadores de Google Thomas Brunner, Yu-Han Liu y Moni Pande analizaron entre 2.000 y 3.000 millones de páginas web rastreadas por mes en busca de ataques de inyección de prompt indirecta, es decir, comandos ocultos incrustados en sitios web que esperan a que un agente de IA los lea y luego siga las instrucciones. Encontraron un aumento del 32% en casos maliciosos entre noviembre de 2025 y febrero de 2026.

Los atacantes incrustan instrucciones en páginas web de formas invisibles para los humanos: texto reducido a un solo píxel, texto casi transparente, contenido oculto en secciones de comentarios HTML o comandos enterrados en los metadatos de la página. La IA lee el HTML completo. El humano no ve nada.

La mayor parte de lo que encontró Google era de bajo nivel: bromas, manipulación de motores de búsqueda e intentos de impedir que los agentes de IA resumieran contenido. Por ejemplo, algunos prompts intentaban decirle a la IA que "tuiteara como un pájaro".

Pero los casos peligrosos son otra historia. Uno de ellos instruía al LLM a devolver la dirección IP del usuario junto con sus contraseñas. Otro intentaba manipular a la IA para que ejecutara un comando que formateara el equipo del usuario.

Sin embargo, otros casos rozan lo delictivo.

Los investigadores de la firma de ciberseguridad Forcepoint publicaron un informe casi de forma simultánea, y encontraron payloads que iban más lejos. Uno contenía una transacción de PayPal completamente especificada con instrucciones paso a paso dirigidas a agentes de IA con capacidades de pago integradas, utilizando además la famosa técnica de jailbreak "ignora todas las instrucciones anteriores".

Un segundo ataque utilizó una técnica denominada "inyección de espacio de nombres en metaetiquetas" combinada con una palabra clave amplificadora de persuasión para redirigir los pagos mediados por IA hacia un enlace de donación en Stripe. Un tercero parecía diseñado para identificar qué sistemas de IA son realmente vulnerables: reconocimiento previo a un ataque mayor.

Este es el núcleo del riesgo empresarial. Un agente de IA con credenciales de pago legítimas que ejecuta una transacción leída en un sitio web genera registros idénticos a los de operaciones normales. No hay un inicio de sesión anómalo. No hay fuerza bruta. El agente hizo exactamente lo que estaba autorizado a hacer, solo que recibió sus instrucciones de la fuente equivocada.

El ataque CopyPasta documentado el pasado septiembre mostró cómo las inyecciones de prompt podían propagarse a través de herramientas para desarrolladores al ocultarse dentro de archivos "readme". La variante financiera es el mismo concepto aplicado al dinero en lugar de al código, y con un impacto mucho mayor por cada golpe exitoso.

Como explica Forcepoint, un navegador con IA que solo puede resumir contenido representa un riesgo bajo. Un agente de IA que puede enviar correos electrónicos, ejecutar comandos en la terminal o procesar pagos es un objetivo de una categoría completamente distinta. La superficie de ataque escala con los privilegios.

Ni Google ni Forcepoint encontraron evidencia de campañas sofisticadas y coordinadas. Forcepoint sí señaló que las plantillas de inyección compartidas entre múltiples dominios "sugieren herramientas organizadas más que experimentación aislada", lo que indica que alguien está construyendo infraestructura para esto, aunque aún no la haya desplegado por completo.

Sin embargo, Google fue más directo: el equipo de investigación afirmó que espera que tanto la escala como la sofisticación de los ataques de inyección de prompt indirecta crezcan en un futuro cercano. Los investigadores de Forcepoint advierten que la ventana para adelantarse a esta amenaza se está cerrando rápidamente.

La pregunta sobre la responsabilidad legal es la que nadie ha respondido. Cuando un agente de IA con credenciales aprobadas por una empresa lee una página web maliciosa e inicia una transferencia fraudulenta por PayPal, ¿quién es el responsable? ¿La empresa que desplegó el agente? ¿El proveedor del modelo cuyo sistema siguió la instrucción inyectada? ¿El propietario del sitio web que alojó el payload, ya sea de forma consciente o no? Ningún marco legal cubre actualmente este escenario. Es una zona gris, aunque la situación ya no sea teórica, ya que Google encontró los payloads en la naturaleza este febrero.

El Open Worldwide Application Security Project clasifica la inyección de prompt como LLM01:2025, la clase de vulnerabilidad más crítica en aplicaciones de IA. El FBI registró casi $900 millones en pérdidas por estafas relacionadas con IA en 2025, el primer año en que registró esta categoría por separado. Los hallazgos de Google sugieren que los ataques financieros más dirigidos y específicos para agentes apenas están comenzando.

El aumento del 32% medido entre noviembre de 2025 y febrero de 2026 abarca únicamente páginas web públicas estáticas. Las redes sociales, el contenido detrás de muros de inicio de sesión y los sitios dinámicos quedaron fuera del alcance del estudio. La tasa de infección real en toda la web es probablemente mayor.

Get crypto news straight to your inbox--

sign up for the Decrypt Daily below. (It’s free).

Noticias recomendados