Anthropic Lanza Claude Opus 4.5 y Lidera Benchmarks de Codificación con 80,9%

Anthropic lanzó Claude Opus 4.5, completando su actualización de la línea de tres modelos con un rendimiento de codificación líder en el mercado y un dramático recorte de precios del 67%.

Por Jose Antonio Lanz

5 min lectura

Anthropic lanzó Claude Opus 4.5 el lunes, completando su familia de tres modelos y marcando el tercer lanzamiento importante de la empresa en solo dos meses. El nuevo modelo insignia ocupa el primer lugar en los benchmarks de codificación mientras reduce los precios drásticamente.

El lanzamiento cierra un despliegue rápido que comenzó con Claude Sonnet 4.5 a finales de septiembre y continuó con Claude Haiku 4.5 en octubre. Ahora con Opus uniéndose a sus hermanos, Anthropic ofrece a los desarrolladores un kit de herramientas completo: Opus para trabajo de producción complejo, Sonnet para tareas cotidianas, y Haiku para tareas relacionadas con velocidad y eficiencia que requieren lógica simple.

Claude Opus 4.5 obtuvo un 80,9% en SWE-bench Verified, un benchmark que prueba tareas de ingeniería de software del mundo real. Esto supera a GPT-5.1-Codex-Max de OpenAI con 77,9% y Gemini 3 Pro de Google con 76,2%. Anthropic señala que Opus superó a todos los candidatos humanos en su examen interno de ingeniería de rendimiento, una evaluación de dos horas diseñada para evaluar el juicio bajo presión.

Hay una carrera entre los gigantes de la IA para terminar el año en la cima de las tablas de clasificación. Google lanzó Gemini 3 Pro el 18 de noviembre, posicionándolo como un avance en razonamiento multimodal. OpenAI respondió al día siguiente con GPT-5.1-Codex-Max.

La respuesta de Anthropic con Opus llegó solo unos días después, pero llegó con un gancho: un precio de $5 por millón de tokens de entrada y $25 por millón de tokens de salida, lo que representa una reducción del 67% respecto al modelo Opus anterior.

Los modelos Qwen de Alibaba añaden otra dimensión a la carrera. La empresa lanzó Qwen2.5-Max a finales de enero con más de 20 billones de tokens de entrenamiento, afirmando que supera a DeepSeek-V3 en benchmarks clave. Qwen3-Max, lanzado en septiembre con más de 1 billón de parámetros, ocupa el tercer lugar a nivel mundial en LMArena y sobresale en diferentes tareas como investigación profunda, razonamiento multimodal o flujos de trabajo en idiomas orientales. Aunque los modelos Qwen siguen siendo relativamente desconocidos en los mercados occidentales, representan el impulso de China por la autosuficiencia en IA en medio de las restricciones de exportación de chips de EE.UU.

Ese precio se sitúa entre el más reciente GPT-5.1 de OpenAI ($1,25/$10) y el anterior Opus 4.1 de Anthropic ($15/$75), aunque sigue siendo más costoso que los $2/$12 de Gemini 3 Pro. La reducción indica presión del mercado a medida que los principales laboratorios de IA compiten no solo en capacidad, sino en hacer que la inteligencia de vanguardia sea económicamente viable para un despliegue a escala.

La última oferta de Claude sigue siendo más costosa que muchos competidores asiáticos, pero también es un poco más capaz. Así que los usuarios ahora tienen la capacidad de elegir entre eficiencia de costos o capacidad técnica pura.

Sonnet 4.5, lanzado el 30 de septiembre, trajo capacidades de codificación y agentes de última generación a un costo moderado y ya era mejor que Opus 4.1 en tareas específicas. El más simple Haiku 4.5 se presentó el 15 de octubre. Opus 4.5 ahora se sitúa en la cima, manejando las tareas de razonamiento más difíciles y de mayor duración.

Al igual que Sonnet y GPT-5, Claude Opus 4.5 utiliza lo que Anthropic llama una arquitectura de "razonamiento híbrido", un único modelo entrenado tanto para inferencia directa como para procesamiento de cadena de pensamiento. Admite una ventana de contexto de 200.000 tokens y puede generar hasta 64.000 tokens. La fecha de corte de conocimiento del modelo es marzo de 2025, ligeramente adelante de la fecha de enero de Sonnet.

El desarrollador Simon Willison probó Opus 4.5 extensivamente durante el fin de semana, usándolo para refactorizar uno de sus proyectos. El modelo manejó 20 commits en 39 archivos, agregando 2.022 líneas y eliminando otras 1.173. "Claramente es un excelente modelo nuevo", escribió Willison, aunque señaló que volver a Sonnet 4.5 después no redujo drásticamente su productividad.

"No estoy diciendo que el nuevo modelo no sea una mejora sobre Sonnet 4.5, pero no puedo decir con confianza que los desafíos que le planteé pudieron identificar una diferencia significativa en capacidades entre los dos", escribió.

Theo Browne, desarrollador, YouTuber y CEO de la plataforma de IA T3 Chat, llamó a Claude Opus 4.5 "increíble", agregando en una reseña en video que es "definitivamente el mejor modelo de codificación jamás creado".

El panorama competitivo se ha vuelto cada vez más concurrido. Gemini 3 Pro de Google dominó los titulares la semana pasada, obteniendo 1.501 puntos en LMArena y ganándose elogios del CEO de Salesforce, Marc Benioff, quien dijo que está abandonando ChatGPT por el modelo de Google. Ese anuncio hizo subir las acciones de Alphabet más del 6% y supuestamente inquietó al CEO de OpenAI, Sam Altman, quien dijo a sus colegas que Gemini crearía "vientos en contra económicos temporales".

Microsoft y Nvidia anunciaron la semana pasada inversiones multimillonarias en Anthropic, elevando la valoración de la startup a aproximadamente $350.000 millones. Los acuerdos incluyen integración expandida de Azure e infraestructura impulsada por Nvidia para entrenar e implementar modelos Claude.

Opus 4.5 está disponible a través de la API de Anthropic, AWS Bedrock, Google Vertex AI, y las aplicaciones web y de escritorio de Claude.

Get crypto news straight to your inbox--

sign up for the Decrypt Daily below. (It’s free).

Noticias recomendados