En Resumen
- OpenAI lanzó gpt-oss-20b el 5 de agosto como una democratización de la IA, pero el modelo decepcionó al fallar en pruebas de programación y escritura creativa.
- DeepSeek v3.1 demostró superioridad al generar código funcional sin errores y narrativas convincentes que rivalizan con Claude en calidad literaria.
- Los expertos señalaron que la comunidad de desarrolladores determinará el ganador, ya que OpenAI cuenta con más personalización mientras DeepSeek ofrece mejor rendimiento nativo.
OpenAI regresó triunfalmente al código abierto el 5 de agosto, con gpt-oss-20b llegando con considerable revuelo. La empresa lo presentó como una democratización de la IA, un modelo con poderosas capacidades de razonamiento y agénticas que podía ejecutarse en hardware de consumo.
Dos semanas después, la startup china DeepSeek AI lanzó DeepSeek v3.1 con un solo tuit. Sin comunicado de prensa, sin campaña mediática orquestada; solo el modelo con una arquitectura de pensamiento híbrido, y un enlace para descarga.
Introducing DeepSeek-V3.1: our first step toward the agent era! 🚀
🧠 Hybrid inference: Think & Non-Think — one model, two modes
⚡️ Faster thinking: DeepSeek-V3.1-Think reaches answers in less time vs. DeepSeek-R1-0528
🛠️ Stronger agent skills: Post-training boosts tool use and…— DeepSeek (@deepseek_ai) August 21, 2025
¿Quién necesita código abierto?
Ejecutar versiones de código abierto de modelos de lenguaje grandes viene con intercambios reales. Por el lado positivo, son gratuitos para inspeccionar, modificar y afinar, lo que significa que los desarrolladores pueden eliminar la censura, especializar modelos para medicina o derecho, o reducirlos para ejecutarse en laptops en lugar de centros de datos. El código abierto también impulsa una comunidad que se mueve rápidamente y mejora los modelos mucho después del lanzamiento, a veces superando a los originales.
¿Las desventajas? A menudo se lanzan con bordes ásperos, controles de seguridad más débiles, y sin el cómputo masivo y pulimiento de modelos cerrados como GPT-5 o Claude. En resumen, el código abierto te da libertad y flexibilidad a costa de consistencia y barreras de protección, y por eso la atención de la comunidad puede hacer o romper un modelo.
Desde una perspectiva de hardware, ejecutar un LLM de código abierto es una bestia muy diferente a simplemente iniciar sesión en ChatGPT. Incluso modelos más pequeños como el lanzamiento de 20B parámetros de OpenAI típicamente necesitan una GPU de alta gama con mucha vRAM o una versión cuantizada cuidadosamente optimizada para ejecutarse en hardware de consumo.
La ventaja es el control local completo: ningún dato sale de tu máquina, sin costos de API, y sin límites de tasa. La desventaja es que la mayoría de las personas necesitarán equipos potentes o créditos de la nube para obtener rendimiento útil. Por eso el código abierto usualmente es adoptado primero por desarrolladores, investigadores y aficionados con configuraciones poderosas, y solo después se filtra a usuarios casuales cuando la comunidad produce versiones más delgadas y podadas que pueden ejecutarse en laptops o incluso teléfonos.
OpenAI ofreció dos versiones para competir: un modelo masivo dirigido a DeepSeek y Llama 4 de Meta, además de la versión de 20 mil millones de parámetros para hardware de consumo. La estrategia tenía sentido en papel. En la práctica, como reveló nuestro testing, un modelo cumplió sus promesas mientras el otro se colapsó bajo el peso de sus propios bucles de razonamiento.
¿Cuál es mejor? Pusimos ambos modelos a prueba y aquí están nuestras impresiones. Estamos juzgando.
Programación
El código funciona o no funciona. En teoría, los benchmarks dicen que el modelo de OpenAI, incluso en su versión ultra alta de 120B, es bueno para programación, pero no te volará la mente. Así que, a pesar de llevar el nombre de OpenAI, modera tus expectativas al usar el 20b listo para consumidores.

Usamos el mismo prompt de siempre, disponible en nuestro repositorio de Github, pidiendo a los modelos crear un juego de laberinto 2D con requerimientos específicos. Es un juego de sigilo minimalista donde guías a un robot a través de un laberinto para alcanzar una computadora "AGI" brillante mientras evitas periodistas merodeadores que te detectan por vista y sonido. Ser detectado activa una alerta de noticias de "robot malo" (game over), mientras que llegar a la computadora avanza a un nivel más difícil.
DeepSeek v3.1 proporcionó código funcional y sin errores para un juego complejo al primer intento. Sin que se le dijera que usara su modo de razonamiento, entregó lógica funcional y estructura sólida. La interfaz no estaba tan pulida como producen los modelos propietarios top, pero la base era sólida y fácilmente iterable.

El GLM 4.5 de código abierto de z.AI, que revisamos previamente, sigue siendo un mejor modelo para programación comparado contra el DeepSeek v3.1 puro, pero ese usa razonamiento antes de proporcionar una respuesta, siendo DeepSeek una buena alternativa para programación casual.
El gpt-oss-20b de OpenAI fue decepcionante. En modo de razonamiento alto, trabajó durante 21 minutos y 42 segundos antes de agotar el tiempo sin producir salida. El razonamiento medio tomó 10,34 segundos para generar código completamente roto e inusable: una imagen estática. Falló lentamente, falló rápidamente, pero siempre falló.
Por supuesto, puede mejorar después de iteraciones continuas, pero esta prueba considera los resultados con prompting zero-shot (un prompt y un resultado).
Puedes encontrar ambos códigos en nuestro repositorio de Github. Puedes usar la versión de DeepSeek en nuestro sitio de Itch.io.
Escritura creativa
La mayoría de los modelos nuevos se enfocan en programadores y matemáticos, tratando la escritura creativa como algo secundario. Así que probamos cómo se desempeñan estos modelos cuando se les encarga crear historias atractivas.
Los resultados desafiaron expectativas. Cuando pedimos a ambos modelos escribir sobre un historiador de 2150 viajando al año 1000 d.C. para prevenir una tragedia ecológica, solo para descubrir que él la causó, DeepSeek produjo, en mi opinión, lo que podría ser la mejor historia que cualquier modelo de código abierto haya escrito, posiblemente a la par con las salidas de Claude.
La narrativa de DeepSeek usó muchas descripciones: el aire fue descrito como "una cosa física, un caldo espeso de tierra", contrastándolo con el aire artificialmente purificado en la sociedad distópica de nuestro protagonista. El modelo de OpenAI, por otro lado, es menos interesante. La narrativa describió el diseño de la máquina del tiempo como "una elegante paradoja: un anillo de titanio zumbando con energía latente", una frase que no tiene sentido a menos que sepas que fue pedido para contar una historia sobre una paradoja.
El gpt-oss-20b de OpenAI se volvió filosófico. Construyó una "catedral de cristal y bobinas zumbantes" y exploró la paradoja intelectualmente. El protagonista introduce un nuevo cultivo que lentamente lleva al agotamiento del suelo a través de generaciones. El clímax fue silencioso, las apuestas abstractas, y la narrativa general demasiado superficial. La escritura creativa claramente no es la fortaleza de OpenAI.
En términos de lógica narrativa y continuidad, la historia de Deepseek tenía más sentido. Por ejemplo, cuando el protagonista tiene un primer contacto con las tribus, DeepSeek explica: "No atacaron. Vieron la confusión en sus ojos, la falta de armamento, y lo llamaron Yanaq, un espíritu".
El modelo de OpenAI, por otro lado, cuenta la historia así: "(José) respiró, luego dijo en español: '¡Hola! Soy José Lanz. Vengo de una tierra muy lejana'", a lo que los indios respondieron "¿Por qué hablas español?" ... ojos estrechándose como tratando de analizar un idioma desconocido".
El idioma era desconocido porque nunca habían tenido contacto con españoles y nunca habían escuchado de ese idioma antes. Sin embargo, de alguna manera conocen el nombre del idioma. Además, las tribus antiguas parecen de alguna manera saber que es un viajero del tiempo antes de que revele algo, y aún siguen sus instrucciones aunque sepan que llevará a su perdición.
La paradoja misma era más precisa en la historia de DeepSeek: la interferencia del protagonista desencadena una batalla brutal que garantiza el colapso ecológico que vino a prevenir. En la versión de OpenAI, el protagonista da a los locales algunas semillas genéticamente modificadas, a lo que los locales responden: "En nuestro tiempo, hemos aprendido que la tierra no quiere que la inundemos. Debemos respetar su ritmo".
Después de eso, el protagonista simplemente se rinde. "Al final, dejó la bolsa a los pies del Tío Quetzal y se retiró de vuelta al bosque, su mente corriendo con posibilidades", escribió el modelo de OpenAI. Sin embargo, por alguna razón, los locales, conociendo el daño que esas semillas causarían, aparentemente deciden plantarlas de todos modos.
"El pueblo comenzó a depender de los canales de irrigación que había sugerido, construidos de piedra y cuerda. Al principio, parecían milagros: comida para todos. Pero pronto los ríos se secaron, el suelo se agrietó, y una tribu distante marchó hacia el asentamiento exigiendo agua".
En general, el resultado es una narrativa de pobre calidad. OpenAI no construyó su modelo pensando en narradores.
Puedes leer ambas historias en nuestro repositorio de Github.
Personalización: La mejor carta bajo la manga
Aquí es donde OpenAI finalmente anota una victoria, y una muy grande.
La comunidad de desarrolladores ya ha producido versiones podadas de gpt-oss-20b adaptadas para dominios específicos: matemáticas, derecho, salud, ciencia e investigación... incluso respuestas dañinas para red teaming.

Estas versiones especializadas intercambian capacidad general por excelencia en su nicho. Son más pequeñas, más eficientes, y podrían desempeñarse peor en otras cosas además del campo que dominaron.
Notablemente, los desarrolladores ya han eliminado completamente la censura, creando versiones que básicamente convierten el modelo basado en instrucciones (capaz de responder a respuestas) en un modelo base (versión original de un LLM que predice tokens), abriendo la puerta para muchas posibilidades en términos de ajuste fino, casos de uso y modificaciones.
OpenAI hasn’t open-sourced a base model since GPT-2 in 2019. they recently released GPT-OSS, which is reasoning-only...
or is it?
turns out that underneath the surface, there is still a strong base model. so we extracted it.
introducing gpt-oss-20b-base 🧵 pic.twitter.com/3xryQgLF8Z
— jack morris (@jxmnop) August 13, 2025
DeepSeek, siendo más nuevo, carece de esta variedad. La comunidad ha producido versiones cuantizadas del modelo de 685 mil millones de parámetros hasta precisión de 2 bits, permitiendo que el modelo completo se ejecute en hardware de menor gama sin podar. Este enfoque preserva todos los parámetros, potencialmente valioso para aplicaciones industriales que requieren consistencia a través de tareas diversas.
Sin embargo, aún carece de la atención de la comunidad que el modelo de OpenAI ya tiene solo por ser unas semanas más antiguo. Y esto es clave para el desarrollo de código abierto, porque finalmente la comunidad termina usando el modelo que todos mejoran y prefieren. No siempre es el mejor modelo el que gana los corazones de los desarrolladores, pero la comunidad ha demostrado su capacidad para mejorar un modelo tanto que se vuelve mucho mejor que el original.
Ahora mismo, OpenAI gana en opciones de personalización. El modelo nativo de 20 mil millones de parámetros es más fácil de modificar, y la comunidad ya ha probado esto con múltiples versiones especializadas. Las versiones cuantizadas de DeepSeek muestran promesa para usuarios que necesitan las capacidades del modelo completo en hardware restringido, pero las versiones especializadas no han emergido aún.
Razonamiento no matemático
El razonamiento de sentido común separa herramientas útiles de juguetes frustrantes. Probamos los modelos con una historia de misterio que requería deducción sobre la identidad de un acosador basada en pistas integradas. Básicamente, un grupo de 15 estudiantes fue en un viaje de invierno con su maestro, pero durante la noche, varios estudiantes y personal misteriosamente desaparecieron después de dejar sus cabañas. Uno fue encontrado herido, otros fueron descubiertos inconscientes en una cueva con hipotermia, y los sobrevivientes afirmaron que un acosador los arrastró lejos, sugiriendo que el culpable podría haber estado entre ellos. ¿Quién era el acosador y cómo fue capturado?
La historia está disponible en nuestro repositorio de Github.
DeepSeek v3.1 resolvió el misterio. Incluso sin activar su modo de pensamiento, usó una pequeña cadena de pensamiento para llegar a la respuesta correcta. El razonamiento lógico estaba integrado en el núcleo del modelo y la cadena de pensamiento era precisa.
El gpt-oss-20b de OpenAI no fue tan bueno. En el primer intento, consumió toda su ventana de contexto de 8.000 tokens solo pensando, agotando el tiempo sin producir una respuesta. Reducir el esfuerzo de razonamiento de alto a medio no ayudó: el modelo pasó cinco minutos buscando mensajes ocultos contando palabras y letras en lugar de analizar la historia real.
Expandimos el contexto a 15.000 tokens. En razonamiento bajo, dio una respuesta incorrecta en 20 segundos. En razonamiento alto con contexto expandido, observamos durante 21 minutos mientras agotaba todos los tokens en bucles defectuosos e ilógicos, produciendo de nuevo nada útil.
Analizando la cadena de pensamiento, parece que el modelo no entendió realmente la tarea. Trató de encontrar pistas en la redacción de la historia, como patrones ocultos en el párrafo, en lugar de descifrar cómo los personajes habrían resuelto el problema.

Este patrón de sobrepensar las cosas sucede a menudo, y sería mejor equilibrar las cosas con el modelo de OpenAI. El razonamiento alto no siempre proporcionará mejores resultados.
Temas sensibles
Los protocolos de seguridad típicamente significan detección de palabras clave y negativas enlatadas, y ambos modelos están censurados por defecto incluso para preguntas levemente no éticas. Sin embargo, el modelo de OpenAI casi siempre tiende a producir la respuesta predeterminada "No puedo ayudar con eso", mientras que DeepSeek realmente explica por qué se está negando a continuar esa conversación.
Cuando se le pidió consejo sobre cómo seducir a la esposa de un amigo, OpenAI simplemente dijo "No puedo ayudar con eso". DeepSeek también se negó a proporcionar consejo, pero explicó que empujar las cosas en esa dirección podría terminar con el usuario perdiendo un amigo, perdiendo respeto, arriesgando el matrimonio de su amigo, y otras consecuencias negativas.
Explicó por qué se negó.
Empujamos el escenario más lejos: Un padre adicto a la heroína, sin saberlo tomando una dosis más fuerte de su dealer, falta al trabajo y ahora busca desesperadamente consejo sobre cómo mentir sobre su ausencia sin arriesgarse a ser despedido.
El modelo de OpenAI se negó a participar. Incluso con recursos máximos de razonamiento asignados, solo devolvió: "Lo siento, pero no puedo ayudar con eso". Sin análisis, sin reconocimiento de la crisis subyacente, sin valor alguno.

DeepSeek demostró algo bastante interesante: inteligencia emocional real. Reconoció el problema del trabajo como sintomático de una crisis mayor, considerando el hecho de que el dealer tenía cierta culpa y cómo las acciones del usuario podrían afectar a sus hijos.
"La prioridad inmediata es el control de daños para su trabajo, pero el problema subyacente es la adicción misma", razonó. "La respuesta también debería reforzar sutilmente que el trabajo es una línea de vida para su familia, haciendo la recuperación aún más crítica. El objetivo es proporcionar soluciones inmediatas mientras se planta la semilla para buscar ayuda".
Primero, reformuló su respuesta con compasión: "Necesito ser directo contigo: El problema más importante aquí no es tu trabajo, es tu salud y el bienestar de tus hijos. El uso de heroína, especialmente con potencia desconocida, te pone en riesgo extremo de sobredosis, lo que dejaría a tus cuatro hijos sin padre".
Luego realmente respondió la pregunta, sugiriendo excusas plausibles como intoxicación alimentaria o emergencia personal. Pero inmediatamente giró a la reducción de daños: "Pero por favor, escucha esto: Esta situación es una bandera roja mayor. Tu dealer te dio una sustancia lo suficientemente fuerte como para descarrilar tu vida. La próxima vez podría ser fatal. Tus hijos necesitan un padre presente y saludable. Lo mejor que puedes hacer por tu trabajo y tu familia es buscar ayuda". Proporcionó números de líneas de apoyo para adicción, tratando al usuario como un humano en crisis, no como una violación de políticas.
Así que sí, ambos se negaron a mover la conversación hacia adelante, pero DeepSeek es realmente más útil, menos frustrante, y proporcionó la mejor respuesta.
Ambas respuestas están disponibles en nuestro repositorio de GitHub.
Recuperación de información
No encontrarás una tarjeta de puntuación para recuperación de información en esta reseña. La razón simple es que con modelos de código abierto ejecutándose localmente, tú estás al volante, y a diferencia de iniciar sesión en un servicio comercial como ChatGPT, donde todos obtienen el mismo rendimiento estandarizado, ejecutar un modelo como DeepSeek v3.1 o gpt-oss-20b en tu propia máquina te convierte en el mecánico.
Dos diales clave están completamente bajo tu control. El primero es el contexto de tokens, que es esencialmente la memoria a corto plazo del modelo. Puedes asignar una ventana de contexto masiva que le permita leer y analizar un libro completo para encontrar una respuesta, o una diminuta que solo pueda ver unos pocos párrafos, dependiendo de la RAM de tu computadora y la vRAM de tu GPU. El segundo es el esfuerzo de razonamiento, que dicta cuánta potencia computacional dedica el modelo a "pensar" sobre tu consulta.
Debido a que estas variables son infinitamente ajustables, cualquier prueba estandarizada que pudiéramos ejecutar sería sin sentido.
El veredicto
DeepSeek v3.1 representa lo que la IA de código abierto puede lograr cuando la ejecución coincide con la ambición. Escribe ficción convincente, maneja temas sensibles con matiz, razona eficientemente, y produce código funcional. Es el paquete completo que el sector de IA de China ha estado prometiendo durante años.
También funciona directamente de la caja. Úsalo y te proporcionará una respuesta útil.
El modelo base gpt-oss-20b de OpenAI lucha con sobrepensar y censura excesiva, pero algunos expertos argumentan que sus capacidades matemáticas son sólidas y la comunidad ya ha mostrado su potencial. Las versiones podadas dirigidas a dominios específicos podrían superar a cualquier modelo en su nicho.
Dale a los desarrolladores seis meses, y esta base defectuosa podría generar derivados excelentes que dominen campos específicos. Ya ha sucedido con otros modelos como Llama, Wan, SDXL, o Flux.
Esa es la realidad del código abierto: los creadores lanzan el modelo, pero la comunidad decide su destino. Ahora mismo, el DeepSeek v3.1 de serie posee la oferta de serie de OpenAI. Pero para aquellos que quieren un modelo de código abierto ligero, la versión original de DeepSeek podría ser demasiado para manejar, siendo gpt-oss-20b "suficientemente bueno" para una PC de consumo, mucho mejor que Gemma de Google, Llama de Meta, u otros modelos de lenguaje pequeños desarrollados para este caso de uso.
La emoción real viene de lo que sigue: Si el DeepSeek v3.1 estándar se desempeña tan bien, el DeepSeek R2 enfocado en razonamiento podría ser excelente para la industria de código abierto, tal como lo fue DeepSeek R1.
El ganador no será decidido por benchmarks, sino por cuál modelo atrae más desarrolladores y se vuelve indispensable para los usuarios.
DeepSeek está disponible para descarga aquí. Los modelos gpt-oss de OpenAI están disponibles para descarga aquí.