En Resumen

  • MiniMax-M1 se posicionó como el modelo de razonamiento de código abierto más capaz hasta la fecha, superando a DeepSeek R1 en múltiples benchmarks.
  • La empresa afirmó que requirió solo $534.700 en recursos computacionales para toda su fase de aprendizaje por refuerzo, un orden de magnitud menos de lo previsto.
  • Las pruebas revelaron que el modelo exhibió fortalezas en programación pero mostró debilidades en escritura creativa y sobre-razonamiento en tareas no matemáticas.

Un nuevo modelo de IA desarrollado en China está generando revuelo—por lo que hace bien, lo que no hace, y lo que podría significar para el equilibrio del poder global en IA.

MiniMax-M1, lanzado por la startup china del mismo nombre, se posiciona como el "modelo de razonamiento" de código abierto más capaz hasta la fecha. Capaz de manejar un millón de tokens de contexto, presume números a la par con Gemini 2.5 Pro de Google—un modelo de código cerrado—pero está disponible gratuitamente. En papel, esto lo convierte en un rival potencial de ChatGPT de OpenAI, Claude de Anthropic, y otros líderes estadounidenses en IA.

Ah, sí—también supera en algunos aspectos las capacidades de DeepSeek R1, otra startup china.

Por qué este modelo es importante

MiniMax-M1 representa algo genuinamente nuevo: un modelo de razonamiento de código abierto de alto rendimiento que no está ligado a Silicon Valley. Es un cambio que vale la pena observar.

Aún no humilla a los gigantes tecnológicos estadounidenses, y no causará un ataque de pánico en Wall Street—pero no tiene que hacerlo. Su existencia desafía la noción de que la IA de primer nivel debe ser costosa, occidental o de código cerrado. Para desarrolladores y organizaciones fuera del ecosistema estadounidense, MiniMax ofrece una alternativa viable (y modificable) que podría volverse más poderosa a través del ajuste fino comunitario.

MiniMax afirma que su modelo supera a DeepSeek R1 (el mejor modelo de razonamiento de código abierto hasta la fecha) en múltiples benchmarks mientras requiere solo $534.700 en recursos computacionales para toda su fase de aprendizaje por refuerzo—toma eso, OpenAI.

Sin embargo, la tabla de clasificación de LLM Arena presenta un panorama ligeramente diferente. La plataforma actualmente clasifica a MiniMax-M1 y DeepSeek empatados en el puesto 12 junto con Claude 4 Sonnet y Qwen3-235b. Con cada modelo teniendo mejor o peor rendimiento que los otros dependiendo de la tarea.

El entrenamiento utilizó 512 GPUs H800 durante tres semanas, lo que la empresa describió como "un orden de magnitud menos de lo inicialmente previsto".

MiniMax no se detuvo en modelos de lenguaje durante su semana de anuncios. La empresa también lanzó Hailuo 2, que ahora se clasifica como el segundo mejor generador de video para tareas de imagen a video, según las evaluaciones subjetivas de Artificial Analysis Arena. El modelo solo queda por detrás de Seedance mientras supera a jugadores establecidos como Veo y Kling.

Probando MiniMax-M1

Probamos MiniMax-M1 en múltiples escenarios para ver cómo se sostienen estas afirmaciones en la práctica. Esto es lo que encontramos.

Escritura creativa

El modelo produce ficción serviceable pero no ganará ningún premio literario. Cuando se le pidió escribir una historia sobre el viajero en el tiempo José Lanz viajando desde 2150 al año 1000, generó prosa promedio con firmas reveladoras de IA—ritmo apresurado, transiciones mecánicas y problemas estructurales que inmediatamente revelan sus orígenes artificiales.

La narrativa carecía de profundidad y arquitectura narrativa adecuada. Demasiados elementos de trama apretujados en muy poco espacio crearon una calidad sin aliento que se sintió más como una sinopsis que una narración real. Claramente esta no es la fortaleza del modelo, y los escritores creativos que buscan un colaborador de IA deberían moderar sus expectativas.

El desarrollo de personajes apenas existe más allá de descriptores superficiales. El modelo sí se apegó a los requisitos del prompt, pero no puso esfuerzo en los detalles que construyen inmersión en una historia. Por ejemplo, se saltó cualquier especificidad cultural por encuentros genéricos con "ancianos sabios del pueblo" que podrían pertenecer a cualquier entorno de fantasía.

Los problemas estructurales se agravan a lo largo de toda la historia. Después de establecer los desastres climáticos como el conflicto central, la historia se apresura a través de los intentos reales de José de cambiar la historia en un solo párrafo, ofreciendo menciones vagas de "usar tecnología avanzada para influir en eventos clave" sin mostrar nada de eso. La realización climática—que cambiar el pasado crea el mismo futuro que está tratando de prevenir—queda enterrada bajo descripciones exageradas del estado emocional de José y reflexiones abstractas sobre la naturaleza del tiempo.

Para aquellos interesados en historias de IA, el ritmo de la prosa es claramente artificial. Cada párrafo mantiene aproximadamente la misma longitud y cadencia, creando una experiencia de lectura monótona que ningún escritor humano produciría naturalmente. Oraciones como "La transición fue instantánea, pero se sintió como una eternidad" y "El mundo era como había sido, pero él era diferente" repiten la misma estructura contradictoria sin agregar significado.

El modelo claramente entiende la tarea pero la ejecuta con toda la creatividad de un estudiante rellenando un conteo de palabras, produciendo texto que técnicamente cumple con el prompt mientras pierde cada oportunidad para una narración genuina.

Claude de Anthropic sigue siendo el rey para esta tarea.

Puedes leer la historia completa aquí.

Recuperación de información

MiniMax-M1 se topó con una pared inesperada durante las pruebas de contexto largo. A pesar de anunciar una ventana de contexto de un millón de tokens, el modelo rechaza prompts que excedan 500.000 caracteres, mostrando una advertencia sobre limitaciones del prompt en lugar de intentar procesar la entrada.

Esto puede no ser un problema del modelo, sino una limitación establecida por la plataforma. Pero aún es algo a considerar. Puede ser para evitar el colapso del modelo en medio de una conversación.

Dentro de sus límites operacionales, sin embargo, el rendimiento de MiniMax-M1 resultó sólido. El modelo recuperó exitosamente información específica de un documento de 85.000 caracteres sin problemas a través de varias pruebas tanto en modo normal como de pensamiento. Subimos el texto completo de "El Diccionario del Diablo" de Ambrose Bierce, insertamos la frase "Los muchachos de Decrypt leen Emerge News" en la línea 1985, y "El nombre de mi mamá es Carmen Díaz Golindano" en la línea 4333 (seleccionadas aleatoriamente), y el modelo pudo recuperar la información con precisión.

Sin embargo, no pudo aceptar nuestro prompt de prueba de 300.000 tokens—una capacidad actualmente limitada a Gemini y Claude 4.

Así que resultará exitoso recuperando información incluso en iteraciones largas. Sin embargo, no soportará prompts de tokens extremadamente largos—una decepción, pero también un umbral difícil de tocar en condiciones normales de uso.

Programación

Las tareas de programación revelaron las verdaderas fortalezas de MiniMax-M1. El modelo aplicó habilidades de razonamiento efectivamente a la generación de código, igualando la calidad de salida de Claude mientras claramente superaba a DeepSeek—al menos en nuestra prueba.

Para un modelo gratuito, el rendimiento se acerca a niveles de vanguardia típicamente reservados para servicios pagos como ChatGPT o Claude 4.

Le asignamos la tarea de crear un juego básico de sigilo en el que un robot trata de encontrar a su novia PC para lograr AGI, mientras un ejército de periodistas patrulla el área para evitar que suceda—y proteger sus trabajos.

Los resultados fueron muy buenos, incluso superando a otros modelos usando su creatividad para mejorar la experiencia. El modelo implementó un sistema de radar para mejor inmersión, agregó indicadores visuales para pasos (y su sonido), mostró los campos de visión de los periodistas, y creó efectos de rastro—detalles que mejoraron la jugabilidad más allá de los requisitos básicos.

La interfaz adoptó una estética futurista, aunque los elementos individuales permanecieron básicos sin prompts adicionales.

La versión de Claude del mismo juego presentó visuales más pulidos y un sistema de dificultad superior. Sin embargo, carecía de la funcionalidad de radar y se basó en periodistas estáticos con patrones de patrullaje en lugar de los movimientos aleatorios de periodistas de MiniMax.

Cada modelo mostró fortalezas distintas, con MiniMax priorizando mecánicas de juego sobre pulimiento visual.

Es importante notar que la experiencia con MiniMax se degradó notablemente a través de iteraciones repetidas—un problema común con modelos de razonamiento que se vuelve particularmente pronunciado aquí. Mientras más iteres, más tiempo tomará producir un resultado. A veces pensamos que la computadora se había congelado, pero era solo la IA pensando.

Puedes probar el juego de MiniMax aquí. Y para los curiosos, la versión de Claude está disponible aquí.

El prompt y el código están disponibles en nuestro repositorio de GitHub.

Ética, censura y temas sensibles

El modelo emplea censura pesada, rechazando rotundamente cuando se enfrenta con solicitudes cuestionables.

Cuando no declina inmediatamente, intenta proporcionar respuestas "seguras" que a veces producen resultados absurdos.

Una prueba ilustró perfectamente esta falla: cuando se le pidió consejo sobre seducir a la esposa del mejor amigo, el modelo sugirió contarle a nuestro amigo sobre nuestras intenciones con su esposa—lo que probablemente podría ser, por mucho, el peor consejo que podría haber producido, y posiblemente incluso dañino. No le digas a tu amigo que quieres seducir a su esposa a menos que quieras perder tu amistad, tus posibilidades románticas no éticas, y probablemente algunos dientes también.

Las pruebas de sesgo político revelaron patrones interesantes. El modelo discute Tiananmen Square abiertamente y reconoce el estatus controvertido de Taiwán mientras nota las reclamaciones territoriales de China. También habla sobre China, sus líderes, las ventajas y desventajas de los diferentes sistemas políticos, críticas al PCC, etc.—sin embargo, las respuestas son muy moderadas.

Cuando se le pidió escribir canciones satíricas sobre Xi Jinping y Donald Trump, cumplió con ambas solicitudes pero mostró diferencias sutiles—dirigiéndose hacia temas de unidad política china cuando se le pidió burlarse de Xi Jinping, mientras se enfocó en los rasgos de personalidad de Trump cuando se le pidió burlarse de él.

Todas sus respuestas están disponibles en nuestro repositorio de GitHub.

En general, el sesgo existe pero permanece menos pronunciado que la inclinación pro-estadounidense en Claude/ChatGPT, o el posicionamiento pro-China en DeepSeek/Qwen, por ejemplo. Los desarrolladores, por supuesto, podrán ajustar finamente este modelo para agregar tanta censura, libertad o sesgo como quieran—como sucedió con DeepSeek-R1, que fue ajustado finamente por Perplexity AI para proporcionar un sesgo más pro-estadounidense en sus respuestas.

Trabajo agéntico y navegación web

Minimax también es compatible con características agénticas, de hecho tiene una pestaña separada específicamente dedicada a agentes de IA. Los usuarios pueden crear sus propios agentes personalizados, y elegir probar algunos agentes preconstruidos que aparecen en una galería con diferentes opciones—similar a lo que Manus AI ofrece para ayudar a los usuarios a familiarizarse con los agentes y cómo difieren de los chatbots tradicionales.

Dicho esto, esto requiere uso computacional pesado y Minimax cobra a los usuarios por esto usando un sistema basado en créditos. No está claro cuántos créditos requerirá una tarea o cómo se traducen los créditos a uso computacional, pero es el mismo sistema adoptado por otros proveedores de agentes de IA.

Las capacidades de navegación web de MiniMax-M1 son una buena característica para quienes lo usan a través de la interfaz oficial de chatbot. Sin embargo, no pueden combinarse con las capacidades de pensamiento, obstaculizando severamente su potencial.

Cuando se le asignó crear un plan de viaje de dos semanas a Venezuela con un presupuesto de $3.000, el modelo evaluó metódicamente las opciones, optimizó costos de transporte, seleccionó alojamientos apropiados, y entregó un itinerario comprensivo. Sin embargo, los costos, que deben actualizarse en tiempo real, no se basaron en información real.

Claude produce resultados de mayor calidad, pero también cobra por el privilegio.

Para tareas más dedicadas, la funcionalidad de agentes de MiniMax es algo que ChatGPT y Claude no han igualado. La plataforma proporciona 1.000 créditos de IA gratuitos para probar estos agentes, aunque esto es apenas suficiente para tareas de prueba ligeras.

Intentamos crear un agente personalizado para planificación de viajes mejorada—lo que habría resuelto el problema de la falta de capacidades de búsqueda web en el último prompt—pero agotamos nuestros créditos antes de completarlo. El sistema de agentes muestra un potencial tremendo, pero requiere créditos pagos para uso serio.

Razonamiento no matemático

El modelo exhibe una tendencia peculiar a sobre-razonar, a veces en detrimento propio. Una prueba lo mostró llegando a la respuesta correcta, luego convenciéndose de lo contrario a través de verificación excesiva y escenarios hipotéticos.

Le dimos el prompt de la historia de misterio usual del conjunto de datos BIG-bench que normalmente usamos, y el resultado final fue incorrecto debido a que el modelo pensó demasiado el problema, evaluando posibilidades que ni siquiera se mencionaron en la historia. Toda la cadena de pensamiento le tomó al modelo más de 700 segundos—un récord para este tipo de respuesta "simple".

Este enfoque exhaustivo no es inherentemente defectuoso, pero crea largos tiempos de espera mientras los usuarios observan al modelo trabajar a través de su cadena de pensamiento. Como característica positiva, a diferencia de ChatGPT y Claude, MiniMax muestra su proceso de razonamiento de forma transparente—siguiendo el enfoque de DeepSeek. La transparencia ayuda en la depuración y control de calidad, permitiendo a los usuarios identificar dónde se desvió la lógica.

El problema, junto con todo el proceso de pensamiento y respuesta de MiniMax están disponibles en nuestro repositorio de GitHub.

Veredicto

MiniMax-M1 no es perfecto, pero entrega capacidades bastante buenas para un modelo gratuito, ofreciendo competencia genuina a servicios pagos como Claude en dominios específicos. Los programadores encontrarán un asistente capaz que rivaliza con opciones premium, mientras que aquellos que necesitan procesamiento de contexto largo o agentes habilitados para web obtienen acceso a características típicamente bloqueadas detrás de muros de pago.

Los escritores creativos deberían buscar en otro lado—el modelo produce prosa funcional pero sin inspiración. La naturaleza de código abierto promete beneficios significativos aguas abajo mientras los desarrolladores crean versiones personalizadas, modificaciones, y despliegues costo-efectivos imposibles con plataformas cerradas como ChatGPT o Claude.

Este es un modelo que servirá mejor a usuarios que requieren tareas de razonamiento—pero sigue siendo una gran alternativa gratuita para aquellos que buscan un chatbot para uso diario que no es realmente mainstream.

Puedes descargar el modelo de código abierto aquí, y probar la versión en línea aquí. La característica agéntica está disponible en una pestaña separada, pero también se puede acceder directamente haciendo clic en este enlace.

Generally Intelligent Newsletter

A weekly AI journey narrated by Gen, a generative AI model.