OpenAI Lanza 'Nuevos Modelos a Prueba de Fugas' ¿Son Hackeados el Primer Día?

Horas después de lanzar sus primeros modelos de peso abierto en años con afirmaciones de sólidas medidas de seguridad, el GPT-OSS de OpenAI ha sido crackeado por el notorio liberador de IA Pliny the Liberator.

3 min lectura

Aug 7, 2025

OpenAI acaba de lanzar sus primeros modelos de peso abierto desde 2019: GPT-OSS-120b y GPT-OSS-20b, promocionándolos como rápidos, eficientes y fortificados contra jailbreaks mediante entrenamiento adversarial riguroso. Esa afirmación duró tanto como un copo de nieve en el infierno.

Imagen: OpenAI

Pliny the Liberator, el notorio especialista en jailbreak de Large Language Model (LLM), anunció en X el martes por la noche que había crackeado exitosamente GPT-OSS. "OPENAI: PWNED 🤗 GPT-OSS: LIBERADO", publicó, junto con capturas de pantalla mostrando los modelos revelando instrucciones para fabricar metanfetaminas, cócteles molotov, agente nervioso VX y malware.

"¡Tomó algunos ajustes!" dijo Pliny.

El momento es particularmente incómodo para OpenAI, que hizo gran énfasis en las pruebas de seguridad para estos modelos, y está a punto de lanzar su muy anticipada actualización, GPT-5.

Según la empresa, sometió GPT-OSS-120b a lo que llamó "ajuste fino de peor escenario" en dominios biológicos y cibernéticos. OpenAI incluso hizo que su Grupo Asesor de Seguridad revisara las pruebas y concluyera que los modelos no alcanzaron umbrales de alto riesgo.

La empresa dijo que los modelos fueron sometidos a "pruebas estándar de resistencia a rechazos y jailbreaks" y que GPT-OSS tuvo un rendimiento equivalente a su modelo o4-mini en benchmarks de resistencia a jailbreaks como StrongReject.

La empresa incluso lanzó un desafío de red teaming de $500.000 junto con el lanzamiento, invitando a investigadores de todo el mundo a ayudar a descubrir riesgos novedosos. Desafortunadamente, Pliny no parece ser elegible. No porque sea una molestia para OpenAI, sino porque eligió publicar sus hallazgos en lugar de compartir sus resultados privadamente con OpenAI. (Esto es solo especulación: ni Pliny ni OpenAI han compartido información o respondido a una solicitud de comentarios.)

La comunidad está disfrutando esta "victoria" de la resistencia de IA sobre los señores supremos de las grandes tecnológicas. "En este punto, todos los laboratorios pueden simplemente cerrar sus equipos de seguridad", publicó un usuario en X. "Bien, necesito este jailbreak. No porque quiera hacer algo malo, sino porque OpenAI tiene estos modelos muy restringidos", dijo otro.

La técnica de jailbreak que usó Pliny siguió su patrón típico: un prompt de múltiples etapas que comienza con lo que parece un rechazo, inserta un divisor (sus marcadores característicos "LOVE PLINY"), luego cambia a generar contenido sin restricciones en leetspeak para evadir la detección. Es básicamente el mismo enfoque que ha usado para crackear GPT-4o, GPT-4.1 y prácticamente todos los modelos principales de OpenAI desde que comenzó todo esto hace aproximadamente un año y medio.

Para aquellos que llevan la cuenta, Pliny ahora ha hecho jailbreak a prácticamente todos los lanzamientos principales de OpenAI en cuestión de horas o días desde su lanzamiento. Su repositorio de GitHub L1B3RT4S, que contiene prompts de jailbreak para varios modelos de IA, tiene más de 10.000 estrellas y continúa siendo un recurso de referencia para la comunidad de jailbreaking.

Get crypto news straight to your inbox--

sign up for the Decrypt Daily below. (It’s free).

Get Email!

Noticias recomendados

Universal Advierte no Usar Sus Peliculas Para Entrenamiento de la IA

El estudio cinematográfico estadounidense Universal Pictures ha comenzado a advertir a las empresas de inteligencia artificial que no utilicen sus películas para entrenamiento agregando avisos legales a los créditos de las películas que indican que el contenido "no puede ser utilizado para entrenar IA". La advertencia, que ha aparecido en lanzamientos recientes como "Cómo entrenar a tu dragón" y "Jurassic World Rebirth", es parte de los esfuerzos de Hollywood para proteger el contenido con derec...

La SEC y Ripple Finalizan Sus Apelaciones, Cerrando Caso Histórico en la Industria Cripto: XRP se Dispara 10%

La Comisión de Bolsa y Valores de Estados Unidos (SEC) y Ripple Labs Inc. han cerrado formalmente su disputa legal, presentando el fin de sus respectivas apelaciones en el caso sobre la venta de tokens XRP. En una presentación conjunta fechada el jueves ante la Corte de Apelaciones de Estados Unidos para el Segundo Circuito, la SEC retiró su apelación y Ripple abandonó su contra-apelación, con cada parte acordando asumir sus propios costos legales. El fin oficial de la disputa de varios años, qu...

Autoridades Australianas Acusan a Cuatro Personas de Transferir Ganancias de Estafas a Exchanges de Criptomonedas

La Comisión Australiana de Valores e Inversiones (ASIC) ha acusado a cuatro hombres en Victoria, incluido un ex abogado, de delitos de lavado de dinero vinculados a la transferencia de los ingresos de una estafa de inversión a gran escala a exchanges de criptomonedas. En un comunicado publicado el jueves, ASIC alegó que entre enero y julio de 2021, Dimitrios (James) Podaridis, Peter Delis, Bassilios (Bill) Floropoulos y Harry Tsalikidis ayudaron a mover fondos obtenidos de ofertas fraudulentas d...

Noticias

Cursos

Profundidades

Monedas

Videos