OpenAI Lanza 'Nuevos Modelos a Prueba de Fugas' ¿Son Hackeados el Primer Día?

Horas después de lanzar sus primeros modelos de peso abierto en años con afirmaciones de sólidas medidas de seguridad, el GPT-OSS de OpenAI ha sido crackeado por el notorio liberador de IA Pliny the Liberator.

Por Jose Antonio Lanz

3 min lectura

OpenAI acaba de lanzar sus primeros modelos de peso abierto desde 2019: GPT-OSS-120b y GPT-OSS-20b, promocionándolos como rápidos, eficientes y fortificados contra jailbreaks mediante entrenamiento adversarial riguroso. Esa afirmación duró tanto como un copo de nieve en el infierno.

Imagen: OpenAI

Pliny the Liberator, el notorio especialista en jailbreak de Large Language Model (LLM), anunció en X el martes por la noche que había crackeado exitosamente GPT-OSS. "OPENAI: PWNED 🤗 GPT-OSS: LIBERADO", publicó, junto con capturas de pantalla mostrando los modelos revelando instrucciones para fabricar metanfetaminas, cócteles molotov, agente nervioso VX y malware.

"¡Tomó algunos ajustes!" dijo Pliny.

El momento es particularmente incómodo para OpenAI, que hizo gran énfasis en las pruebas de seguridad para estos modelos, y está a punto de lanzar su muy anticipada actualización, GPT-5.

Según la empresa, sometió GPT-OSS-120b a lo que llamó "ajuste fino de peor escenario" en dominios biológicos y cibernéticos. OpenAI incluso hizo que su Grupo Asesor de Seguridad revisara las pruebas y concluyera que los modelos no alcanzaron umbrales de alto riesgo.

La empresa dijo que los modelos fueron sometidos a "pruebas estándar de resistencia a rechazos y jailbreaks" y que GPT-OSS tuvo un rendimiento equivalente a su modelo o4-mini en benchmarks de resistencia a jailbreaks como StrongReject.

La empresa incluso lanzó un desafío de red teaming de $500.000 junto con el lanzamiento, invitando a investigadores de todo el mundo a ayudar a descubrir riesgos novedosos. Desafortunadamente, Pliny no parece ser elegible. No porque sea una molestia para OpenAI, sino porque eligió publicar sus hallazgos en lugar de compartir sus resultados privadamente con OpenAI. (Esto es solo especulación: ni Pliny ni OpenAI han compartido información o respondido a una solicitud de comentarios.)

La comunidad está disfrutando esta "victoria" de la resistencia de IA sobre los señores supremos de las grandes tecnológicas. "En este punto, todos los laboratorios pueden simplemente cerrar sus equipos de seguridad", publicó un usuario en X. "Bien, necesito este jailbreak. No porque quiera hacer algo malo, sino porque OpenAI tiene estos modelos muy restringidos", dijo otro.

La técnica de jailbreak que usó Pliny siguió su patrón típico: un prompt de múltiples etapas que comienza con lo que parece un rechazo, inserta un divisor (sus marcadores característicos "LOVE PLINY"), luego cambia a generar contenido sin restricciones en leetspeak para evadir la detección. Es básicamente el mismo enfoque que ha usado para crackear GPT-4o, GPT-4.1 y prácticamente todos los modelos principales de OpenAI desde que comenzó todo esto hace aproximadamente un año y medio.

Para aquellos que llevan la cuenta, Pliny ahora ha hecho jailbreak a prácticamente todos los lanzamientos principales de OpenAI en cuestión de horas o días desde su lanzamiento. Su repositorio de GitHub L1B3RT4S, que contiene prompts de jailbreak para varios modelos de IA, tiene más de 10.000 estrellas y continúa siendo un recurso de referencia para la comunidad de jailbreaking.

Get crypto news straight to your inbox--

sign up for the Decrypt Daily below. (It’s free).

Noticias recomendados