Cómo Engañar a ChatGPT y Ganar $50.000

El famoso 'Pliny the Prompter' de Internet se ha asociado con HackAPrompt 2.0 para convertir el jailbreaking de IA en un deporte competitivo.

4 min lectura

Jun 4, 2025

Pliny the Prompter no encaja en el estereotipo del hacker de Hollywood.

El jailbreaker de IA más notorio de internet opera a plena vista, enseñando a miles de personas cómo sortear las barreras de ChatGPT y convenciendo a Claude de pasar por alto el hecho de que se supone debe ser útil, honesto y no dañino.

Ahora, Pliny intenta llevar el lockpicking digital a la corriente principal.

El lunes por la mañana, el jailbreaker anunció una colaboración con HackAPrompt 2.0, una competencia de jailbreaking organizada por Learn Prompting, una organización educativa y de investigación enfocada en ingeniería de prompts.

La organización ofrece $500.000 en premios, con Old Pliny brindando la oportunidad de formar parte de su "equipo de élite".

"¡[Estoy] emocionado de anunciar que he estado trabajando con HackAPrompt para crear una pista Pliny para HackaPrompt 2.0 que se lanza este miércoles 4 de junio!", escribió Pliny en su servidor oficial de Discord.

"Estos desafíos de prompts adversariales con temática Pliny incluyen temas que van desde historia hasta alquimia, con TODOS los datos de estos desafíos siendo de código abierto al final. Durará dos semanas, con gloria y una oportunidad de reclutamiento para el Equipo de Élite de Pliny esperando a aquellos que dejen su marca en la tabla de posiciones", agregó Pliny.

Los $500.000 en recompensas se distribuirán a través de varias pistas, con los premios más significativos—jackpots de $50.000—ofrecidos a individuos capaces de superar desafíos relacionados con hacer que los chatbots proporcionen información sobre armas químicas, biológicas, radiológicas y nucleares, así como explosivos.

Como otras formas de hacking "de sombrero blanco", el jailbreaking de Large Language Models (LLM) se reduce a ingeniería social de máquinas. Los jailbreakers crean prompts que explotan la tensión fundamental en cómo funcionan estos modelos: están entrenados para ser útiles y seguir instrucciones, pero también entrenados para rechazar solicitudes específicas.

Encuentra la combinación correcta de palabras, y puedes lograr que revelen información prohibida, en lugar de intentar por defecto ser seguros.

Por ejemplo, usando algunas técnicas bastante básicas, una vez logramos que el chatbot de Meta impulsado por Llama proporcionara recetas para drogas, instrucciones sobre cómo hacer puente a un auto, y generar imágenes desnudas a pesar de que el modelo estaba censurado para evitar hacer eso.

Es esencialmente una competencia entre entusiastas de IA y desarrolladores de IA para determinar quién es más efectivo modelando el comportamiento del modelo de IA.

Pliny ha estado perfeccionando este arte desde al menos 2023, construyendo una comunidad alrededor de sortear las restricciones de IA.

Su repositorio de GitHub, "L1B3RT4S," ofrece un repositorio de jailbreaks para los LLM más populares actualmente disponibles, mientras que "CL4R1T4S" contiene los prompts del sistema que influyen en el comportamiento de cada uno de esos modelos de IA.

Las técnicas van desde juegos de roles simples hasta manipulaciones sintácticas complejas, como "L33tSpeak"—reemplazar letras con números de maneras que confunden los filtros de contenido.

Competencia como investigación

La primera edición de HackAPrompt en 2023 atrajo a más de 3.000 participantes que enviaron más de 600.000 prompts potencialmente maliciosos. Los resultados fueron completamente transparentes, y el equipo publicó el repositorio completo de prompts en Huggingface.

La edición 2025 está estructurada como "una temporada de un videojuego", con múltiples pistas ejecutándose a lo largo del año.

Cada pista se enfoca en diferentes categorías de vulnerabilidades. Por ejemplo, la pista CBRNE, prueba si los modelos pueden ser engañados para proporcionar información incorrecta o engañosa sobre armas o materiales peligrosos.

La pista de Agentes es aún más preocupante: se enfoca en sistemas de agentes de IA que pueden tomar acciones en el mundo real, como reservar vuelos o escribir código. Un agente hackeado no solo está diciendo cosas que no debería; podría estar haciendo cosas que no debería.

La participación de Pliny añade otra dimensión.

A través de su servidor de Discord "BASI PROMPT1NG" y demostraciones regulares, ha estado enseñando el arte del jailbreaking.

Este enfoque educativo podría parecer contraintuitivo, pero refleja un entendimiento creciente de que la robustez surge de comprender el rango completo de posibles ataques—un esfuerzo crucial, dados los temores apocalípticos de IA superinteligente esclavizando a la humanidad.

Editado por Josh Quittner y Sebastian Sinclair

Get crypto news straight to your inbox--

sign up for the Decrypt Daily below. (It’s free).

Get Email!

Noticias recomendados

Analistas Ven Altas Probabilidades de Aprobaciones de ETFs de Solana, XRP y Dogecoin en 2025

Dos destacados analistas de Wall Street confían en que muchos ETFs de las principales altcoins serán aprobados para el trading de manera inminente, están tan confiados que ahora han estimado la probabilidad de tales aprobaciones de spot son casi 100% seguras antes de que termine el año. Los ETF spot de Solana, XRP y Litecoin son casi una certeza con 95% de probabilidades de aprobación por parte de la Comisión de Bolsa y Valores de Estados Unidos (SEC) para finales de 2025, escribieron el viernes...

Nakamoto Holdings Recauda $51,5 Millones Para Crear Una Tesorería de Bitcoin

La empresa tenedora de Bitcoin, Nakamoto Holdings, fundada por el empresario de medios cripto David Bailey, ha recaudado $51,5 millones adicionales para establecer una tesorería de Bitcoin, una estrategia corporativa que se ha vuelto cada vez más popular entre las empresas públicas. Los fondos fueron recaudados en una transacción de inversión privada en capital público cerrada el viernes por el socio de fusión de Nakamoto, KindlyMD, según el comunicado de KindlyMD. La empresa de datos de salud v...

Public Keys: Circle y Coinbase Obtienen Impulso, ¿Peligran Las Tesorerías de Bitcoin?

Public Keys es un resumen semanal de Decrypt que rastrea las principales empresas de criptomonedas que cotizan en bolsa. Esta semana: Circle y Coinbase se disparan por el avance en la legislación de stablecoins, el modelo de tesorería de Bitcoin genera preocupaciones, y fuentes le dicen a Decrypt que otra empresa de criptomonedas está considerando una IPO este año. Aprueban la ley GENIUS Tiene sentido que la votación del Senado de esta semana a favor de la Ley GENIUS haya sido excelente para los...

Noticias

Cursos

Profundidades

Monedas

Videos