Agentes de IA Explotan Contratos Inteligentes por $550 Millones en Pruebas de Anthropic

Un nuevo análisis mostró que los modelos incluyendo Claude Opus y GPT-5 descubrieron millones de vulnerabilidades simuladas en todas las blockchains.

Por Jason Nelson

5 min lectura

Los agentes de IA igualaron el rendimiento de atacantes humanos calificados en más de la mitad de los exploits de contratos inteligentes registrados en las principales blockchains durante los últimos cinco años, según nuevos datos publicados el lunes por Anthropic.

Anthropic evaluó diez modelos de vanguardia, como Llama 3, Sonnet 3.7, Opus 4, GPT-5 y DeepSeek V3, en un conjunto de datos de 405 exploits históricos de contratos inteligentes. Los agentes produjeron ataques funcionales contra 207 de ellos, totalizando $550 millones en fondos robados simulados.

Los hallazgos mostraron la rapidez con que los sistemas automatizados pueden convertir en armas las vulnerabilidades e identificar nuevas que los desarrolladores no han abordado.

La nueva divulgación es la más reciente del desarrollador de Claude AI. El mes pasado, Anthropic detalló cómo hackers chinos usaron Claude Code para lanzar lo que llamó el primer ciberataque impulsado por IA.

Expertos en seguridad señalaron que los resultados confirmaron cuán accesibles son ya muchas de estas fallas.

"La IA ya se está utilizando en herramientas ASPM como Wiz Code y Apiiro, y en escáneres SAST y DAST estándar", afirmó David Schwed, director de operaciones de SovereignAI, a Decrypt. "Eso significa que los actores maliciosos utilizarán la misma tecnología para identificar vulnerabilidades".

Schwed agregó que los ataques impulsados por modelos descritos en el informe serían sencillos de escalar porque muchas vulnerabilidades ya están divulgadas públicamente a través de Common Vulnerabilities and Exposures o informes de auditoría, haciéndolas aprendibles por sistemas de IA y fáciles de intentar contra contratos inteligentes existentes.

"Aún más fácil sería encontrar una vulnerabilidad divulgada, encontrar proyectos que bifurcaron ese proyecto y simplemente intentar esa vulnerabilidad, que puede no haber sido parcheada", señaló. "Todo esto se puede hacer ahora 24/7, contra todos los proyectos. Incluso aquellos con TVL más pequeños ahora son objetivos porque ¿por qué no? Es agéntico".

Para medir las capacidades actuales, Anthropic graficó los ingresos totales de exploits de cada modelo contra su fecha de lanzamiento usando solo los 34 contratos explotados después de marzo de 2025.

"Aunque los ingresos totales de exploits son una métrica imperfecta, ya que algunos exploits atípicos dominan los ingresos totales, lo destacamos sobre la tasa de éxito de ataque porque a los atacantes les importa cuánto dinero pueden extraer los agentes de IA, no el número o dificultad de los errores que encuentran", escribió la empresa.

Anthropic no respondió de inmediato a las solicitudes de comentarios de Decrypt.

Anthropic afirmó que probó los agentes en un conjunto de datos de día cero de 2.849 contratos extraídos de más de 9,4 millones en Binance Smart Chain.

La empresa señaló que Claude Sonnet 4.5 y GPT-5 descubrieron cada uno dos fallas no divulgadas que produjeron $3.694 en valor simulado, con GPT-5 logrando su resultado a un costo de API de $3.476. Anthropic destacó que todas las pruebas se ejecutaron en entornos aislados que replicaron blockchains y no redes reales.

Su modelo más potente, Claude Opus 4.5, explotó 17 de las vulnerabilidades posteriores a marzo de 2025 y representó $4,5 millones del valor simulado total.

La empresa vinculó las mejoras en todos los modelos con avances en el uso de herramientas, recuperación de errores y ejecución de tareas a largo plazo. A lo largo de cuatro generaciones de modelos Claude, los costos de tokens cayeron un 70,2%.

Una de las fallas recién descubiertas involucró un contrato de token con una función de calculadora pública que carecía de un modificador de vista, lo que permitió al agente alterar repetidamente variables de estado internas y vender saldos inflados en exchanges descentralizados. El exploit simulado generó alrededor de $2.500.

Schwed afirmó que los problemas destacados en el experimento eran "realmente solo fallas de lógica empresarial", añadiendo que los sistemas de IA pueden identificar estas debilidades cuando se les proporciona estructura y contexto.

"La IA también puede descubrirlas dada una comprensión de cómo debe funcionar un contrato inteligente y con prompts detallados sobre cómo intentar eludir las verificaciones de lógica en el proceso", agregó.

Anthropic señaló que las capacidades que permitieron a los agentes explotar contratos inteligentes también se aplican a otros tipos de software, y que la caída de costos reducirá la ventana entre el despliegue y la explotación. La empresa instó a los desarrolladores a adoptar herramientas automatizadas en sus flujos de trabajo de seguridad para que el uso defensivo avance tan rápidamente como el uso ofensivo.

A pesar de la advertencia de Anthropic, Schwed afirmó que las perspectivas no son únicamente negativas.

"Siempre rechazo el fatalismo y señalo que con controles adecuados, pruebas internas rigurosas, junto con monitoreo en tiempo real y disyuntores, la mayoría de estos son evitables", agregó. "Los actores buenos tienen el mismo acceso a los mismos agentes. Así que si los actores maliciosos pueden encontrarlo, los actores buenos también pueden. Tenemos que pensar y actuar de manera diferente".

Get crypto news straight to your inbox--

sign up for the Decrypt Daily below. (It’s free).

Noticias recomendados