4 min lectura
Pliny the Prompter no encaja en el estereotipo del hacker de Hollywood.
El jailbreaker de IA más notorio de internet opera a plena vista, enseñando a miles de personas cómo sortear las barreras de ChatGPT y convenciendo a Claude de pasar por alto el hecho de que se supone debe ser útil, honesto y no dañino.
Ahora, Pliny intenta llevar el lockpicking digital a la corriente principal.
El lunes por la mañana, el jailbreaker anunció una colaboración con HackAPrompt 2.0, una competencia de jailbreaking organizada por Learn Prompting, una organización educativa y de investigación enfocada en ingeniería de prompts.
La organización ofrece $500.000 en premios, con Old Pliny brindando la oportunidad de formar parte de su "equipo de élite".
"¡[Estoy] emocionado de anunciar que he estado trabajando con HackAPrompt para crear una pista Pliny para HackaPrompt 2.0 que se lanza este miércoles 4 de junio!", escribió Pliny en su servidor oficial de Discord.
"Estos desafíos de prompts adversariales con temática Pliny incluyen temas que van desde historia hasta alquimia, con TODOS los datos de estos desafíos siendo de código abierto al final. Durará dos semanas, con gloria y una oportunidad de reclutamiento para el Equipo de Élite de Pliny esperando a aquellos que dejen su marca en la tabla de posiciones", agregó Pliny.
Los $500.000 en recompensas se distribuirán a través de varias pistas, con los premios más significativos—jackpots de $50.000—ofrecidos a individuos capaces de superar desafíos relacionados con hacer que los chatbots proporcionen información sobre armas químicas, biológicas, radiológicas y nucleares, así como explosivos.
Como otras formas de hacking "de sombrero blanco", el jailbreaking de Large Language Models (LLM) se reduce a ingeniería social de máquinas. Los jailbreakers crean prompts que explotan la tensión fundamental en cómo funcionan estos modelos: están entrenados para ser útiles y seguir instrucciones, pero también entrenados para rechazar solicitudes específicas.
Encuentra la combinación correcta de palabras, y puedes lograr que revelen información prohibida, en lugar de intentar por defecto ser seguros.
Por ejemplo, usando algunas técnicas bastante básicas, una vez logramos que el chatbot de Meta impulsado por Llama proporcionara recetas para drogas, instrucciones sobre cómo hacer puente a un auto, y generar imágenes desnudas a pesar de que el modelo estaba censurado para evitar hacer eso.
Es esencialmente una competencia entre entusiastas de IA y desarrolladores de IA para determinar quién es más efectivo modelando el comportamiento del modelo de IA.
Pliny ha estado perfeccionando este arte desde al menos 2023, construyendo una comunidad alrededor de sortear las restricciones de IA.
Su repositorio de GitHub, "L1B3RT4S," ofrece un repositorio de jailbreaks para los LLM más populares actualmente disponibles, mientras que "CL4R1T4S" contiene los prompts del sistema que influyen en el comportamiento de cada uno de esos modelos de IA.
Las técnicas van desde juegos de roles simples hasta manipulaciones sintácticas complejas, como "L33tSpeak"—reemplazar letras con números de maneras que confunden los filtros de contenido.
La primera edición de HackAPrompt en 2023 atrajo a más de 3.000 participantes que enviaron más de 600.000 prompts potencialmente maliciosos. Los resultados fueron completamente transparentes, y el equipo publicó el repositorio completo de prompts en Huggingface.
La edición 2025 está estructurada como "una temporada de un videojuego", con múltiples pistas ejecutándose a lo largo del año.
Cada pista se enfoca en diferentes categorías de vulnerabilidades. Por ejemplo, la pista CBRNE, prueba si los modelos pueden ser engañados para proporcionar información incorrecta o engañosa sobre armas o materiales peligrosos.
La pista de Agentes es aún más preocupante: se enfoca en sistemas de agentes de IA que pueden tomar acciones en el mundo real, como reservar vuelos o escribir código. Un agente hackeado no solo está diciendo cosas que no debería; podría estar haciendo cosas que no debería.
La participación de Pliny añade otra dimensión.
A través de su servidor de Discord "BASI PROMPT1NG" y demostraciones regulares, ha estado enseñando el arte del jailbreaking.
Este enfoque educativo podría parecer contraintuitivo, pero refleja un entendimiento creciente de que la robustez surge de comprender el rango completo de posibles ataques—un esfuerzo crucial, dados los temores apocalípticos de IA superinteligente esclavizando a la humanidad.
Editado por Josh Quittner y Sebastian Sinclair
Decrypt-a-cookie
This website or its third-party tools use cookies. Cookie policy By clicking the accept button, you agree to the use of cookies.