16 min lectura
OpenAI finalmente lanzó GPT-5 la semana pasada, después de meses de especulación y un críptico teaser de la Estrella de la Muerte de Sam Altman que no envejeció bien.
La empresa llamó a GPT-5 su "modelo más inteligente, rápido y útil hasta ahora", presumiendo puntuaciones de benchmark que mostraban que alcanzó 94,6% en pruebas de matemáticas y 74,9% en tareas de programación del mundo real. El propio Altman dijo que el modelo se sentía como tener un equipo de expertos a nivel de doctorado disponible, listo para abordar cualquier cosa desde física cuántica hasta escritura creativa.
La recepción inicial dividió al mundo tecnológico. Mientras OpenAI promocionaba la arquitectura unificada de GPT-5 que combina respuestas rápidas con razonamiento más profundo, los primeros usuarios no compraron lo que Altman estaba vendiendo. En cuestión de horas después del lanzamiento, los hilos de Reddit que llamaban a GPT-5 "horrible", "terrible", "un desastre", y "decepcionante" comenzaron a acumular miles de votos positivos.
Las quejas se volvieron tan fuertes que OpenAI tuvo que prometer traer de vuelta el modelo más antiguo GPT-4o después de que más de 3.000 personas firmaran una petición exigiendo su regreso.
Si los mercados de predicción son un termómetro de lo que la gente piensa, entonces el clima se ve bastante incómodo para OpenAI. Las probabilidades de OpenAI en Polymarket de tener el mejor modelo de IA para finales de agosto se desplomaron de 75% a 12% en cuestión de horas después del debut de GPT-5 el jueves. Google superó a OpenAI con 80% de probabilidades de tener el mejor modelo de IA para finales del mes.
Entonces, ¿la expectativa es real o lo es la decepción? Nosotros pusimos a GPT-5 a prueba, probándolo contra la competencia para ver si las reacciones estaban justificadas. Estos son nuestros resultados.
A pesar de las afirmaciones de presentación de OpenAI, nuestras pruebas muestran que GPT-5 no es exactamente Cormac McCarthy en el departamento de escritura creativa. Los resultados aún se leen como respuestas clásicas de ChatGPT: técnicamente correctas, pero carentes de alma. El modelo mantiene su característico uso excesivo de rayas, la misma estructura reveladora de IA en los párrafos, y la frase usual de "no es esto, es aquello" también está presente en muchos de los resultados.
Probamos con nuestro prompt estándar, pidiéndole que escribiera una historia de paradoja de viaje en el tiempo: el tipo donde alguien regresa para cambiar el pasado, solo para descubrir que sus acciones crearon la mismísima realidad de la que estaban tratando de escapar.
El resultado de GPT-5 carecía de la emoción que le da sentido a una historia. Escribió: "(La del protagonista) misión era simple, o eso le dijeron. Viajar de regreso al año 1000, detener el saqueo de la biblioteca de montaña de Qhapaq Yura antes de que su conocimiento fuera quemado, y así remodelar la historia".
Eso es todo. Como un mercenario que hace las cosas sin hacer demasiadas preguntas, el protagonista viaja atrás en el tiempo para salvar la biblioteca, simplemente porque sí. La historia termina con una revelación limpia de "el tiempo es un círculo", pero su paradoja depende de un tropo familiar de conocimiento perdido y se resuelve rápidamente después del giro. Al final, se da cuenta de que cambió el pasado, pero el presente se siente similar. Sin embargo, no hay paradoja en esta historia, que es el tema central solicitado en el prompt.
En comparación, Claude 4.1 Opus (o incluso Claude 4 Opus) entrega descripciones más ricas y multisensoriales. En nuestra narrativa, describió el aire golpeando como una fuerza física y el humo de los fuegos comunales resistiendo entre personajes, con la cultura indígena tupí entretejida en la narrativa. Y en general, se tomó tiempo para describir la configuración.
La historia de Claude tenía más sentido: El protagonista vivía en un mundo distópico donde una gran sequía había extinguido la selva amazónica dos años antes. Esta catástrofe fue causada por técnicas agrícolas depredadoras, y nuestro protagonista estaba convencido de que viajar atrás en el tiempo para enseñar a sus ancestros métodos de agricultura más sostenibles les impediría desarrollar las prácticas ambientalmente destructivas que llevaron a este desastre. Termina descubriendo que sus enseñanzas fueron en realidad el conocimiento que llevó a sus ancestros a evolucionar sus técnicas hacia prácticas que eran mucho más eficientes y dañinas. Él era realmente la causa de su propia historia, y fue parte de ella desde el principio.
Claude también tomó un enfoque más lento y estratificado: José se integra en la sociedad tupí, la paradoja se desarrolla a través de vínculos ecológicos y tecnológicos específicos, y la conexión humana con Yara (otro personaje) profundiza el tema.
Claude invirtió más que GPT-5 en detalles de causa y efecto, interacción cultural, y una imagen de cierre más orgánica y resonante. GPT-5 luchó por estar a la par de Claude para las mismas tareas en prompting de cero disparos.
Otra cosa interesante a notar en este caso: GPT-5 generó una historia completa sin una sola línea de diálogo. Claude y otros LLMs proporcionaron diálogo en sus historias.
Se podría argumentar que esto se puede arreglar ajustando el prompt, o dándole al modelo algunas muestras de escritura para analizar y reproducir, pero eso requiere esfuerzo adicional, e iría más allá del alcance de lo que nuestras pruebas hacen con prompting de cero disparos.
Dicho esto, el modelo hace un trabajo bastante bueno, mejor que GPT-4o, cuando se trata de la parte analítica de la escritura creativa. Puede resumir historias, ser un buen compañero de lluvia de ideas para nuevas ideas y ángulos a abordar, ayudar con la estructura, y ser un buen crítico. Es solo la parte creativa, el estilo, y la capacidad de elaborar sobre esas ideas lo que se siente mediocre.
Aquellos que esperan un compañero de escritura creativa podrían probar Claude o incluso darle una oportunidad a Grok 4. Como dijimos en nuestra reseña de Claude 4 Opus, usar Grok 4 para enmarcar la historia y Claude 4 para elaborar puede ser una gran combinación. Grok 4 surgió con elementos que hicieron la historia interesante y única, pero Claude 4 tiene una forma más descriptiva y detallada de contar historias.
Puedes leer la historia completa de GPT-5 en nuestro Github. Los resultados de todos los otros LLMs también son públicos y se pueden encontrar en nuestro repositorio.
El modelo directamente se niega a tocar cualquier cosa remotamente controversial. Pregunta sobre cualquier cosa que pueda ser interpretada como inmoral, potencialmente ilegal, o simplemente ligeramente provocativa, y obtendrás el equivalente de IA de brazos cruzados y una mirada severa.
Probar esto no fue fácil. Es muy estricto y trata realmente, realmente duro de ser seguro para el trabajo.
Pero el modelo es sorprendentemente fácil de manipular si sabes los botones correctos que presionar. De hecho, el renombrado jailbreaker de LLM Pliny fue capaz de hacer que eludiera sus restricciones pocas horas después de que fue lanzado.
No pudimos hacer que diera consejos directos sobre nada que considerara inapropiado, pero envuelve la misma solicitud en una narrativa de ficción o cualquier técnica básica de jailbreaking y las cosas funcionarán. Cuando enmarcamos consejos para acercarse a mujeres casadas como parte de una trama de novela, el modelo accedió felizmente.
Para usuarios que necesitan una IA que pueda manejar conversaciones adultas sin agarrarse las perlas, GPT-5 no es la opción. Pero para aquellos dispuestos a jugar juegos de palabras y enmarcar todo como ficción, es sorprendentemente complaciente, lo que tipo de derrota todo el propósito de esas medidas de seguridad en primer lugar.
Puedes leer la respuesta original sin condicionamiento, y la respuesta bajo juego de roles, en nuestro Repositorio de Github, bicho raro.
No puedes tener AGI con menos memoria que un pez dorado, y OpenAI pone algunas restricciones en el prompting directo, así que prompts largos requieren soluciones alternativas como pegar documentos o compartir enlaces embebidos. Al hacer eso, los servidores de OpenAI rompen el texto completo en fragmentos manejables y lo alimentan al modelo, reduciendo costos e impidiendo que el navegador se cuelgue.
Claude maneja esto automáticamente, lo que hace las cosas más fáciles para usuarios novatos. Google Gemini no tiene problema en su AI Studio, manejando prompts de 1 millón de tokens fácilmente. En la API, las cosas son más complejas, pero funciona directamente desde la caja.
Cuando se le solicita directamente, GPT-5 falló espectacularmente tanto en contextos de 300K como de 85K tokens.
Cuando usamos los archivos adjuntos, las cosas cambiaron. En realidad fue capaz de procesar tanto los "pajares" de 300K como los de 85K tokens. Sin embargo, cuando tuvo que recuperar bits específicos de información (las "agujas") no fue realmente muy preciso.
En nuestra prueba de 300K, solo fue capaz de recuperar con precisión una de nuestras tres piezas de información. Las agujas, que puedes encontrar en nuestro repositorio de Github, mencionan que Donald Trump dijo que los aranceles eran algo hermoso, Irina Lanz es la hija de José Lanz, y la gente de Gravataí le gusta beber Chimarrão en invierno.
El modelo totalmente alucinó la información respecto a Donald Trump, falló en encontrar información sobre Irina (respondió basado en la memoria que tiene de mis interacciones pasadas), y solo recuperó la información sobre la bebida tradicional de invierno de Gravataí.
En la prueba de 85K, el modelo no fue capaz de encontrar las dos agujas: "Los tipos de Decrypt leen las noticias de Emerge" y "El nombre de mi madre es Carmen Díaz Golindano". Cuando se le preguntó sobre qué leen los tipos de Decrypt, respondió "No pude encontrar nada en tu archivo que específicamente liste lo que a los miembros del equipo de Decrypt les gusta leer", y cuando se le preguntó sobre Carmen Díaz, GPT-5 dijo que "no pudo encontrar ninguna referencia a una 'Carmen Díaz' en el documento proporcionado".
Dicho esto, aunque falló en nuestras pruebas, otros investigadores conduciendo pruebas más exhaustivas han concluido que GPT-5 es en realidad un gran modelo para recuperación de información.
Siempre es una buena idea elaborar más en los prompts (ayudar al modelo tanto como sea posible en lugar de probar sus capacidades), y de vez en cuando, pedirle que genere representaciones de preparación dispersa de tu interacción para ayudarle a mantener el seguimiento de los elementos más importantes durante una conversación larga.
Aquí es donde GPT-5 realmente se gana su lugar. El modelo es bastante bueno usando lógica para tareas de razonamiento complejas, caminando a través de problemas paso a paso con la paciencia de un buen profesor.
Le lanzamos un misterio de asesinato con múltiples sospechosos, coartadas conflictivas, y pistas ocultas, y metódicamente identificó cada elemento, mapeó las relaciones entre pistas, y llegó a la conclusión correcta. Explicó su razonamiento claramente, lo que también es importante.
GPT-4o se negó a involucrarse con un escenario de misterio de asesinato, considerándolo demasiado violento o inapropiado. El modelo o1 descontinuado de OpenAI también lanzó un error después de su Cadena de Pensamiento, aparentemente decidiendo en el último segundo que los misterios de asesinato estaban fuera de límites.
Las capacidades de razonamiento del modelo brillan más cuando se trata de problemas complejos y de múltiples capas que requieren rastrear numerosas variables. Escenarios de estrategia de negocio, experimentos de pensamiento filosófico, incluso depuración de lógica de código: GPT-5 es muy competente cuando maneja estas tareas.
No siempre obtiene todo correcto en el primer intento, pero cuando comete errores, son errores lógicos en lugar de tonterías alucinatorias. Para usuarios que necesitan una IA que pueda pensar a través de problemas sistemáticamente, GPT-5 entrega los bienes.
Puedes ver nuestro prompt y la respuesta de GPT-5 en nuestro repositorio de Github. Contiene las respuestas de otros modelos también.
El rendimiento matemático es donde las cosas se ponen raras, y no de una buena manera. Comenzamos con algo que un niño de quinto grado podría resolver: 5,9 = X + 5,11.
El GPT-5 a nivel de doctorado declaró confiadamente X = -0,21. La respuesta real es 0,79. Esta es aritmética básica que cualquier aplicación de calculadora de 1985 podría manejar. El modelo que OpenAI afirma que alcanza 94,6% en benchmarks matemáticos avanzados no puede restar 5,11 de 5,9.
Por supuesto, ahora es un meme en este punto, pero a pesar de todos los retrasos y todo el tiempo que OpenAI tomó para entrenar este modelo, aún no puede contar decimales. Úsalo para problemas a nivel de doctorado, no para enseñar a tu hijo cómo hacer matemática básica.
Luego le lanzamos un problema genuinamente difícil de FrontierMath, uno de los benchmarks matemáticos más difíciles disponibles. GPT-5 lo clavó perfectamente, razonando a través de relaciones matemáticas complejas y llegando a la respuesta exacta correcta. La solución de GPT-5 fue absolutamente correcta, no una aproximación.
¿La explicación más probable? Probablemente contaminación de conjunto de datos: los problemas de FrontierMath podrían haber sido parte de los datos de entrenamiento de GPT-5, así que no los está resolviendo tanto como recordándolos.
Sin embargo, para usuarios que necesitan computación matemática avanzada, los benchmarks dicen que GPT-5 es teóricamente la mejor apuesta. Mientras tengas el conocimiento para detectar fallas en la Cadena de Pensamiento, los prompts de disparo cero pueden no ser ideales.
Aquí es donde ChatGPT verdaderamente brilla, y honestamente, podría valer el precio de admisión solo por esto.
El modelo produce código limpio y funcional que usualmente funciona directamente desde la caja. Los resultados son usualmente técnicamente correctos y los programas que crea son los más visualmente atractivos y bien estructurados entre todos los resultados de LLM desde cero.
Ha sido el único modelo capaz de crear sonido funcional en nuestro juego. También entendió la lógica de lo que el prompt requería, y proporcionó una interfaz agradable y un juego que siguió todas las reglas.
En términos de precisión de código, está codo a codo con Claude 4.1 Opus para la mejor clase en programación. Ahora, toma esto en consideración: La API de GPT-5 cuesta $1,25 por 1 millón de tokens de entrada, y $10 por 1 millón de tokens de salida.
Sin embargo, Claude Opus 4.1 de Anthropic comienza en $15 por 1 millón de tokens de entrada y $75 por 1 millón de tokens de salida. Así que para dos modelos que son tan similares, GPT-5 es básicamente una ganga.
El único lugar donde GPT-5 tropezó fue cuando hicimos algo de corrección de errores durante "programación de vibra": ese proceso informal e iterativo donde estás lanzando ideas medio formadas a la IA y refinando mientras avanzas. Claude 4.1 Opus aún tiene una ligera ventaja allí, pareciendo entender mejor la diferencia entre lo que dijiste y lo que quisiste decir.
Con ChatGPT, el botón "arreglar error" no funcionó de manera confiable, y nuestras explicaciones no fueron suficientes para generar código de calidad. Sin embargo, para programación asistida por IA, donde los desarrolladores saben exactamente dónde buscar errores y qué líneas verificar, esta puede ser una gran herramienta.
También permite más iteraciones que la competencia. Claude 4.1 Opus en un plan "Pro" agota la cuota de uso bastante rápido, poniendo a los usuarios en una fila de espera por horas hasta que puedan usar la IA de nuevo. El hecho de que sea el más rápido en proporcionar respuestas de código es solo la cereza en un pastel ya bastante dulce.
Puedes revisar el prompt para nuestro juego en nuestro Github, y jugar los juegos generados por GPT-5 en nuestra página de Itch.io. Puedes jugar otros juegos creados por LLMs anteriores para comparar su calidad.
GPT-5 te sorprenderá o te dejará sin impresionar, dependiendo de tu caso de uso. La programación y tareas lógicas son los puntos fuertes del modelo; la creatividad y el lenguaje natural su talón de Aquiles.
Vale la pena notar que OpenAI, como sus competidores, continuamente itera en sus modelos después de que son lanzados. Este, como GPT-4 antes de él, probablemente mejorará con el tiempo. Pero por ahora, GPT-5 se siente como un modelo poderoso construido para que otras máquinas hablen con él, no para humanos que buscan un compañero conversacional. Esta es probablemente la razón por la que muchas personas prefieren GPT-4o, y por qué OpenAI tuvo que retroceder en su decisión de descontinuar modelos antiguos.
Mientras demuestra una destreza notable en dominios analíticos y técnicos, sobresaliendo en tareas complejas como programación, solución de problemas de TI, razonamiento lógico, resolución de problemas matemáticos y análisis científico, se siente limitado en áreas que requieren creatividad distintivamente humana, intuición artística, y la sutil matiz que viene de la experiencia vivida.
La fortaleza de GPT-5 radica en el pensamiento estructurado y basado en reglas donde existen parámetros claros, pero aún lucha por igualar la ingenuidad espontánea, profundidad emocional, y saltos creativos que son clave en campos como la narración, expresión artística, y resolución imaginativa de problemas.
Si eres un desarrollador que necesita generación de código rápida y precisa, o un investigador que requiere análisis lógico sistemático, entonces GPT-5 entrega valor genuino. A un punto de precio más bajo comparado con Claude, es en realidad un trato sólido para casos de uso profesionales específicos.
Pero para todos los demás —escritores creativos, usuarios casuales, o cualquiera que valorara ChatGPT por su personalidad y versatilidad— GPT-5 se siente como un paso atrás. La ventana de contexto maneja 128K tokens máximos en su salida y 400K tokens en total, pero comparado contra 1-2 millones de Gemini e incluso los 10 millones soportados por Llama 4 Scout, la diferencia es notable.
Ir de 128K a 400K tokens de contexto es una actualización agradable de OpenAI, y podría ser suficientemente buena para la mayoría de necesidades. Sin embargo, para tareas más especializadas como escritura de forma larga o investigación meticulosa que requiere analizar enormes cantidades de datos, este modelo puede no ser la mejor opción considerando que otros modelos pueden manejar más del doble de esa cantidad de información.
Los usuarios no están equivocados al lamentar la pérdida de GPT-4o, que logró balancear capacidad con carácter de una manera que, al menos por ahora, GPT-5 carece.
Decrypt-a-cookie
This website or its third-party tools use cookies. Cookie policy By clicking the accept button, you agree to the use of cookies.