En Resumen
- Claude Opus 4.5 alcanzó 80,9% en SWE-bench Verified y destacó como el mejor modelo para codificación en equipos profesionales.
- DeepSeek V3.2 ofreció el mejor valor a $0,28 por millón de tokens con licencia MIT que otorga derechos completos de modificación.
La estrategia de elección de 2025 no fue elegir el "mejor LLM". Fue ensamblar un stack. Claude para codificación y edición premium. DeepSeek o Qwen para volumen económico. Muse para ficción. Dolphin cuando las restricciones importaban más que el pulido.
Los modelos dejaron de ser personalidades este año. Se convirtieron en herramientas. La ventaja fue para los usuarios que los trataron de esa manera.
La tecnología maduró hacia algo genuinamente útil en 2025: los modelos se volvieron más inteligentes, más baratos y especializados para tareas específicas. La era de perseguir un único modelo "mejor" terminó.
Estos son los modelos que se ganaron su lugar en nuestro stack.
Codificación
Vibe coding, la capacidad de hacer que la IA codifique con instrucciones simples, tuvo mucho hype en 2025. Estos son los mejores modelos tanto para programadores vibe como para programadores reales que usan herramientas para codificación asistida por IA.
El Mejor
Para equipos que necesitaban un modelo de codificación en el que pudieran confiar sin supervisión constante, Claude Opus 4.5 destacó. Anthropic reporta un puntaje de 80,9% en SWE-bench Verified, y en la práctica el modelo coincidió con esa reputación: razonamiento sólido, bajas tasas de alucinación y un estilo conservador que lo hace adecuado para entornos de producción.
La contrapartida es el costo y la eficiencia del contexto. Opus es costoso, y las sesiones largas pueden agotar su ventana de contexto rápidamente. Para desarrolladores profesionales que lanzan software real, eso a menudo era aceptable. Para codificación casual o exploratoria, frecuentemente no lo era.
Mejor Valor
La startup china DeepSeek V3.2 cuesta $0,28 por millón de tokens de entrada, lo que lo hace extremadamente más barato en comparación con sus contrapartes occidentales. El modelo también incluye pesos con licencia MIT para proyectos V3.2, otorgando a los equipos derechos completos de propiedad y modificación.
Deepseek lanzó una versión "Speciale" que es incluso mejor en esto. Sin embargo, solo está disponible vía API.
Tareas Agénticas
La IA que puede hacer todo por ti sin que guíes y supervises cada paso: esa es la promesa de la IA agéntica.
Estos modelos ejecutan flujos de trabajo de múltiples pasos, navegan sitios web y se recuperan de errores de ejecución. La categoría agéntica emergió como el campo de batalla definitorio de 2025.
El Mejor
El modelo GPT-5.2 "Thinking" de OpenAI lidera aquí con 80% en SWE-bench Verified, junto con un posicionamiento explícito en torno a la ejecución de extremo a extremo y el rendimiento de llamada de herramientas. El modelo enruta inteligentemente entre respuestas rápidas y razonamiento profundo dependiendo de la complejidad de la tarea, lo que lo hace ideal para flujos de trabajo que necesitan realmente terminar en lugar de solo comenzar.
Mejor Valor
El perfil de eficiencia de MiniMax M2 lo hace particularmente atractivo para empresas que ejecutan agentes interactivos a escala. La arquitectura MoE dispersa significa menor latencia y mayor rendimiento para muestreo por lotes, exactamente lo que necesitan la automatización de soporte al cliente y los flujos de trabajo de I+D.
Con precios de aproximadamente $0,01 por 1.000 tokens (significativamente más bajo que los modelos de frontera), las empresas pueden permitirse desplegarlo en departamentos completos para tareas como consultas de bases de conocimiento, resúmenes de investigación automatizados y procesamiento de documentos sin preocuparse por costos descontrolados.
La familia de modelos Nemotron 3 de NVIDIA, lanzada el 15 de diciembre, trae arquitectura híbrida Mamba-Transformer a GPUs de consumo. Es una familia de modelos súper nueva que vale la pena vigilar.
Chat Bots
Estos son los modelos que son excelentes todoterreno: versátiles, conocedores y lo suficientemente baratos para hablar contigo durante mucho tiempo.
El Mejor
GPT-5.2 sigue siendo la opción más equilibrada. Mantiene una cuota de mercado del 60,5% y aproximadamente 800 millones de usuarios activos semanales, con una característica que los competidores aún carecen: Memoria. El modelo recuerda conversaciones anteriores y construye relaciones con los usuarios con el tiempo, eliminando la configuración repetitiva de contexto.
OpenAI también se aseguró de hacer este modelo más accesible para apaciguar al culto de GPT-4o que exigió a la empresa traer de vuelta ese modelo antiguo. En teoría, esto debería tener el poder de GPT-5 con la "humanidad" de GPT-4o.
Mejor Valor
El Qwen 2.5 de Alibaba se convirtió en la base para el 40% de los nuevos modelos ajustados globalmente. Soporta múltiples idiomas y mantiene una licencia Apache 2.0 que permite uso comercial sin restricciones. Las organizaciones pueden ajustarlo con documentos internos y desplegarlo localmente sin enviar datos a APIs de terceros. También es código abierto, lo que significa que los usuarios pueden entrenar, modificar y usarlo gratis si tienen el hardware, y viene en diferentes tamaños y variantes.
Escritura Creativa
2025 fue el año en que las IA fueron medidas por la complejidad de las tareas lógicas que resolvieron. Pero cuando se trata de creatividad, imaginación y arte, las cosas son mucho más complicadas. El salto en calidad puede no ser tan grande como en las otras áreas, pero eso no significa que no haya modelos para este tipo de usuarios.
El Mejor
Basándose puramente en números, GPT-5 Pro de OpenAI obtiene 8,474 en el Lechmazur Writing Benchmark V4, el más alto registrado para cualquier LLM. También requiere bolsillos profundos con la suscripción siendo de $200 mensuales.
Puedes querer probarlo si realmente lo deseas, pero para la mayoría, esos $200 se gastarían mejor en otro lugar. En nuestra opinión, los LLM no son realmente increíbles en escritura creativa, y las empresas de IA parecen no preocuparse demasiado por esto.
Mejor Valor

El modelo Muse de Sudowrite es otro gran modelo para escritores creativos ya que fue construido específicamente para ficción. Muse ofrece pipelines de ingeniería narrativa que ayudan a los capítulos a mantenerse en curso sin divagar, aunque es exclusivo de la plataforma Sudowrite y está menos filtrado sobre temas adultos que las alternativas mainstream.
Mejor Alternativa de Código Abierto
Dicho esto, para historias largas, todavía recomendaríamos el antiguo "Longwriter", de 2024. No es el mejor de ninguna manera, pero es capaz de producir páginas y páginas de contenido creativo de una vez. Úsalo para redactar una base rápida y luego alimenta eso a tu modelo de elección para refinar los capítulos o trabajar en los detalles, torcer la historia, etc.
Sin censura y para contenido de adultos
¿Necesitas una IA para ayudarte con tu próximo guion de Hellraiser? ¿Quieres ponerte travieso con tu IA? Entonces necesitas un modelo sin censura... y olvídate de las grandes tecnológicas para esto. Esta categoría no se trata de inteligencia. Si realmente necesitas escritura de IA sin censura, debes preocuparte por las restricciones inherentes de los modelos. Y la mejor opción es ir local.
Para ser justos, cualquier versión abliterada de un modelo de código abierto debería hacer el truco. Cuando un modelo es abliterado, básicamente pierde su capacidad de rechazar salidas.
El Mejor
Los modelos Dolphin son una elección clásica. La variante de 70 mil millones de parámetros elimina todas las restricciones de seguridad mediante entrenamiento de "desintoxicación de alineación".
Vale la pena señalar: si estás construyendo localmente en la línea Llama de Meta, no es Apache, está bajo la Licencia Comunitaria Llama 3.3 con sus propios términos y restricciones.
Qwq-abliterated es otro que destaca aquí. El modelo es una versión ajustada diseñada específicamente para ser tan sin censura como puede ser un modelo.
Ciencia, Investigación y Negocios
El Mejor
El 91,9% es para Gemini 3 Pro con GPQA Diamond y el perfecto 100% en AIME 2025 representan logros históricos en razonamiento de IA. El modo Deep Think le permite trabajar a través de problemas científicos complejos metódicamente. Su contexto de 10 millones de tokens permite a los investigadores cargar artículos completos y sus referencias para análisis integral.
Mejor Valor
Si priorizas la estabilidad sobre el rendimiento de vanguardia, el GLM-4.6 de Z.AI se ha labrado una posición sólida. La licencia abierta bajo MIT otorga a las empresas libertad para personalizar, auto-hospedar y ajustar sin dependencia del proveedor o restricciones de cumplimiento. Con aproximadamente un tercio del costo de API de modelos occidentales comparables, es una buena elección práctica para herramientas internas de alto volumen.
Más Versátil
Los pesos abiertos de Qwen3 de Alibaba permiten a los investigadores estudiar el comportamiento del modelo, ajustarlo para dominios especializados y desplegarlo sin dependencias de API. Sus capacidades multilingües lo hacen particularmente valioso para colaboraciones de investigación internacional.
Lo que hace especial a este modelo para negocios y ciencia es que ofrece el mejor agente de investigación del mercado, gratis, si lo usas en la plataforma oficial Qwen Chat.

