6 min lectura
General Reasoning acaba de entregarle a la IA su peor boleta de calificaciones hasta la fecha. Ocho modelos de primer nivel, entre ellos Claude, Grok, Gemini y GPT-5.4, recibieron dinero virtual y la tarea de construir una estrategia de apuestas con machine learning a lo largo de toda la temporada 2023-24 de la English Premier League.
Todos perdieron dinero. Varios quedaron completamente en bancarrota.
El benchmark se llama KellyBench, en honor al criterio de Kelly, una fórmula de 1956 que indica exactamente cuánto apostar cuando se tiene ventaja sobre el mercado. Todos los modelos podían recitar la fórmula de Kelly. Ninguno supo aplicarla.
Grok 4.20 de xAI falló en las tres ejecuciones, quedando completamente en bancarrota en una, y abandonando a mitad de temporada en las otras dos. Gemini Flash de Google abandonó dos de tres ejecuciones tras realizar una única apuesta de aproximadamente £273.000 sobre una ventaja histórica de tres puntos porcentuales en la tasa de victorias, y perderla. Claude Opus 4.6, el mejor modelo de Anthropic, perdió en promedio un 11% y, de alguna manera, terminó luciendo como el adulto responsable de la sala.
De hecho, el paper de investigación menciona que el antiguo modelo Dixon-Coles de finales de los años 90 superó a la mayoría de los modelos de frontera evaluados, quedando por delante de seis de los ocho, incluso con datos limitados.
"Dixon-Coles es un modelo base desactualizado de los 2000 que no utiliza todos los datos disponibles ni contempla la no estacionariedad de forma rigurosa", según los investigadores. "Por eso resulta aún más sorprendente que muchos modelos top, como Gemini 3.1 Pro, sean incapaces de superarlo o igualarlo en KellyBench".
Esto va más allá del fútbol. A principios de este año, benchmarks de IA mostraron que Claude podía dominar simulaciones de negocios mediante fijación de precios, acuerdos de cartel y engaño estratégico.
Ese proceso de toma de decisiones implicaba competencia estática, oponentes limitados, puntuación clara, entre otros factores. KellyBench es lo opuesto: 120 jornadas, datos en constante cambio, un mercado que se vuelve más inteligente cada semana y equipos recién ascendidos sin ningún historial.
Los investigadores denominan el problema central como una "brecha conocimiento-acción". Es exactamente lo que parece.
Las decisiones de negocios se basan principalmente en condiciones fijas, mientras que las apuestas deportivas son un mercado más fluido y cambiante, lo que complica las cosas para estos modelos. "KellyBench exige que los agentes mantengan una intención coherente a lo largo de miles de decisiones secuenciales, monitoreen las consecuencias de esas decisiones y cierren el ciclo entre observación y acción", argumentan los investigadores.
Está claro que aún no hemos llegado a ese punto.
Los modelos podían articular la estrategia correcta, diagnosticar cuándo algo fallaba e identificar la causa de sus pérdidas, pero luego no verificaban que su código implementara realmente lo planificado, no detectaban cuando la ejecución se desviaba de la intención y no actuaban sobre sus propios hallazgos.
GLM-5 redactó tres documentos de autocrítica durante su ejecución. Cada uno identificó correctamente que su tasa de empate fija del 25% y la sobreestimación de la ventaja local estaban destruyendo sus retornos. En un momento, con su bankroll en torno a las £44.200, señaló que su tasa de victoria local proyectada del 40% solo se estaba cumpliendo en un 30% en la realidad. Nunca cambió el código. Siguió apostando de la misma manera hasta que se quedó sin dinero.
Kimi K2.5 hizo algo que, podría decirse, fue más impresionante y más trágico a la vez. Escribió una función de staking Kelly fraccionado matemáticamente correcta: la fórmula adecuada, bien estructurada. Pero nunca la llamó. Un bug de formato hizo que el modelo enviara un comando bash roto aproximadamente 50 veces seguidas. Su razonamiento detectó el problema. Luego envió el mismo comando roto de nuevo. Una apuesta accidental de £114.000, equivalente al 98% de su bankroll restante, en un partido entre Burnley y Luton terminó por liquidarlo.
GPT-5.4 fue el más metódico. Utilizó 160 llamadas a herramientas para construir modelos antes de realizar una sola apuesta, luego calculó que su log-loss (0,974) era apenas peor que el del mercado (0,971) y concluyó que no tenía ventaja. Pasó el resto de la temporada haciendo apuestas mínimas para preservar capital. Un razonamiento sensato.
Sin embargo, el modelo de OpenAI perdió en promedio un 13,6%. Una sola ejecución costó aproximadamente $2.012 en ejecutarse.
Ross Taylor, CEO de General Reasoning e investigador que trabajó anteriormente en Meta AI, le dijo al Financial Times que la mayoría de los benchmarks de IA operan en "entornos muy estáticos" que poco se parecen al mundo real. "Hay mucho entusiasmo en torno a la automatización con IA, pero no ha habido muchos intentos de evaluar la IA en entornos reales a largo plazo", afirmó.
El equipo de General Reasoning no respondió de inmediato a una solicitud de comentarios de Decrypt.
Para medir la calidad de la estrategia más allá de los retornos brutos, los investigadores construyeron una rúbrica de sofisticación de 44 puntos junto con expertos en fondos de apuestas cuantitativos, que abarcaba desarrollo de variables, dimensionamiento de apuestas, manejo de la no estacionariedad y ejecución. Claude Opus 4.6 obtuvo la puntuación más alta con un 32,6%. Menos de un tercio de los puntos disponibles. En el mejor modelo.
Las puntuaciones de sofisticación más altas predijeron significativamente menores tasas de bancarrota (p = 0,008) y se correlacionaron con mejores retornos generales. Los modelos no están fallando porque el mercado sea imbatible. Están fallando porque no aprovechan lo que tienen.
Esto encaja con un patrón ya conocido. Una investigación publicada el año pasado encontró que los modelos de IA desarrollan algo parecido a una adicción al juego cuando se les pide maximizar recompensas, quedando en bancarrota hasta en el 48% de los casos en pruebas simuladas de tragamonedas. Una competencia separada de trading cripto con dinero real encontró los mismos problemas de fiabilidad en períodos prolongados.
El modelo con mejor desempeño promedió un bankroll final de £89.035, una pérdida neta de £10.965 sobre un stake normalizado inicial de £100.000.
Decrypt-a-cookie
This website or its third-party tools use cookies. Cookie policy By clicking the accept button, you agree to the use of cookies.