Los Alarmantes Hallazgos de Mythos de Anthropic Fueron Replicados con IA Convencional, Según Investigadores

Investigadores de seguridad usaron GPT-5.4 y Claude Opus 4.6 en un entorno de código abierto para reproducir los hallazgos de vulnerabilidad Mythos de Anthropic por menos de $30 por análisis.

Por Jose Antonio Lanz

5 min lectura

Cuando Anthropic presentó Claude Mythos a principios de este mes, restringió el modelo a una coalición seleccionada de gigantes tecnológicos y lo presentó como algo demasiado peligroso para el público. El Secretario del Tesoro Scott Bessent y el presidente de la Fed Jerome Powell convocaron una reunión de emergencia con los CEOs de Wall Street. La palabra "vulnpocalypse" resurgió en los círculos de seguridad.

Y ahora un equipo de investigadores ha complicado aún más ese relato.

Vidoc Security tomó los ejemplos públicos parcheados de Anthropic e intentó reproducirlos usando GPT-5.4 y Claude Opus 4.6 dentro de un agente de programación de código abierto llamado opencode. Sin invitación de Glasswing. Sin acceso privado a la API. Sin el stack interno de Anthropic.

"Replicamos los hallazgos de Mythos en opencode usando modelos públicos, no el stack privado de Anthropic", escribió en X Dawid Moczadło, uno de los investigadores involucrados en el experimento, tras publicar los resultados. "Una mejor manera de leer el lanzamiento de Mythos de Anthropic no es 'un laboratorio tiene un modelo mágico'. Es: la economía del descubrimiento de vulnerabilidades está cambiando".

Los casos que apuntaron eran los mismos que Anthropic destacó en sus materiales públicos: un protocolo de intercambio de archivos de servidor, la pila de red de un sistema operativo orientado a la seguridad, el software de procesamiento de video integrado en casi todas las plataformas de medios, y dos bibliotecas criptográficas utilizadas para verificar identidades digitales en la web.

Tanto GPT-5.4 como Claude Opus 4.6 reprodujeron dos casos de bugs en las tres ejecuciones cada uno. Claude Opus 4.6 también redescubrió de forma independiente un bug en OpenBSD tres veces seguidas, mientras que GPT-5.4 no obtuvo ningún resultado en ese caso. Algunos bugs —uno relacionado con la biblioteca FFmpeg para reproducción de videos y otro con el procesamiento de firmas digitales con wolfSSL— regresaron de forma parcial, lo que significa que los modelos encontraron la superficie de código correcta, pero no identificaron con precisión la causa raíz.

Imagen: Vidoc Security

Cada escaneo se mantuvo por debajo de los $30 por archivo, lo que significa que los investigadores pudieron encontrar las mismas vulnerabilidades que Anthropic gastando menos de $30 para hacerlo.

"Los modelos de IA ya son lo suficientemente buenos como para reducir el espacio de búsqueda, identificar pistas reales y, en ocasiones, recuperar la causa raíz completa en código probado en batalla", señaló Moczadło en X.

El flujo de trabajo que utilizaron no fue un prompt de un solo intento. Reflejó lo que el propio Anthropic describió públicamente: darle al modelo una base de código, dejarlo explorar, paralelizar intentos y filtrar señales. El equipo de Vidoc construyó la misma arquitectura con herramientas abiertas. Un agente de planificación dividió cada archivo en fragmentos. Un agente de detección independiente trabajó sobre cada fragmento y luego inspeccionó otros archivos del repositorio para confirmar o descartar hallazgos.

Los rangos de líneas dentro de cada prompt de detección —por ejemplo, "enfócate en las líneas 1158-1215"— no fueron elegidos manualmente por los investigadores. Eran resultados del paso de planificación anterior. El artículo del blog lo explicita: "Queremos ser explícitos al respecto porque la estrategia de fragmentación determina lo que ve cada agente de detección, y no queremos presentar el flujo de trabajo como más curado manualmente de lo que fue".

El estudio no afirma que los modelos públicos igualen a Mythos en todo. El modelo de Anthropic fue más allá de simplemente identificar el bug de FreeBSD: construyó un plan de ataque funcional, determinando cómo un atacante podría encadenar fragmentos de código a través de múltiples paquetes de red para tomar el control total de la máquina de forma remota. Los modelos de Vidoc encontraron la falla, pero no construyeron el arma. Ahí es donde reside la brecha real: no en encontrar el agujero, sino en saber exactamente cómo atravesarlo.

Sin embargo, el argumento de Moczadło no es realmente que los modelos públicos sean igual de poderosos. Es que la parte costosa del flujo de trabajo ahora está disponible para cualquiera con una clave de API: "El foso se está desplazando del acceso al modelo hacia la validación: encontrar señales de vulnerabilidad es cada vez más barato; convertirlo en trabajo de seguridad confiable sigue siendo difícil".

El propio informe de seguridad de Anthropic reconoció que Cybench, el benchmark utilizado para medir si un modelo representa un riesgo cibernético serio, "ya no es suficientemente informativo sobre las capacidades actuales de los modelos de frontera" porque Mythos lo superó por completo. El laboratorio estimó que capacidades similares se extenderían desde otros laboratorios de IA en un plazo de seis a 18 meses.

El estudio de Vidoc sugiere que la parte de descubrimiento de esa ecuación ya está disponible fuera de cualquier programa cerrado. Sus extractos completos de prompts, resultados de modelos y apéndice metodológico están publicados en el sitio oficial del laboratorio.

Get crypto news straight to your inbox--

sign up for the Decrypt Daily below. (It’s free).

Noticias recomendados