7 min lectura
Si has seguido la escena local de IA, probablemente conozcas Qwopus—el modelo de código abierto que intentó destilar el razonamiento de Claude Opus 4.6 en el Qwen de Alibaba, para que pudieras ejecutar algo parecido a Opus en tu propio hardware de forma gratuita. Funcionó sorprendentemente bien. El inconveniente obvio: Qwen es un modelo chino, y no todos se sienten cómodos con eso.
Jackrong, el mismo desarrollador mejor conocido como el creador de ese proyecto, escuchó los comentarios. Su respuesta es Gemopus—una nueva familia de modelos ajustados al estilo de Claude Opus construidos íntegramente sobre el Gemma 4 de código abierto de Google. ADN completamente estadounidense, misma idea: razonamiento de nivel frontier, ejecutándose localmente en el hardware que ya tienes.
La familia viene en dos versiones. Gemopus-4-26B-A4B es la opción más robusta—un modelo de Mezcla de Expertos con 26.000 millones de parámetros en total, pero que solo activa alrededor de 4.000 millones durante la inferencia, lo que significa que rinde muy por encima de su peso en hardware limitado.
Los parámetros determinan la capacidad de una IA para aprender, razonar y almacenar información. Contar con 26.000 millones de parámetros en total le otorga al modelo una enorme amplitud de conocimiento. Sin embargo, al "despertar" únicamente los 4.000 millones de parámetros relevantes para tu prompt específico, entrega resultados de alta calidad propios de una IA masiva, siendo lo suficientemente liviano como para ejecutarse sin problemas en hardware cotidiano.
La otra es Gemopus-4-E4B, un modelo edge de 4.000 millones de parámetros diseñado para ejecutarse cómodamente en un iPhone moderno o en un MacBook ultradelgado, sin necesidad de GPU.
La elección del modelo base importa aquí. Gemma 4 de Google, lanzado el 2 de abril, fue construido directamente a partir de la misma investigación y tecnología que Gemini 3—la compañía lo confirmó explícitamente en su lanzamiento. Eso significa que Gemopus lleva consigo algo que ningún modelo ajustado basado en Qwen puede reclamar: el ADN del propio modelo cerrado de vanguardia de Google bajo el capó, envuelto en el estilo de razonamiento de Anthropic encima. Lo mejor de ambos mundos, más o menos.
Lo que diferencia a Gemopus de la oleada de otros modelos ajustados sobre Gemma que inundan Hugging Face en este momento es la filosofía detrás de él. Jackrong optó deliberadamente por no forzar las trazas de razonamiento en cadena de Claude en los pesos de Gemma—un atajo que la mayoría de los lanzamientos competidores toma.
Su argumento, respaldado por investigaciones recientes, es que llenar un modelo estudiante con el texto de razonamiento superficial de un modelo maestro no transfiere realmente la capacidad de razonar. Enseña imitación, no lógica. "No hay necesidad de imaginación excesiva ni de replicación supersticiosa del chain of thought al estilo de Claude", indica la tarjeta del modelo. En cambio, se enfocó en la calidad de las respuestas, la claridad estructural y la naturalidad conversacional—corrigiendo el rígido tono enciclopédico de Gemma y su tendencia a aleccionarte sobre cosas que no preguntaste.
El ingeniero de infraestructura de IA Kyle Hessling realizó benchmarks independientes y publicó los resultados directamente en la tarjeta del modelo. Su veredicto sobre la variante de 26B fue bastante favorable. "Me alegra haber evaluado este modelo bastante a fondo y es un excelente ajuste fino de un modelo ya excepcional", señaló en X. "Es muy bueno en solicitudes one-shot sobre contextos largos, y corre increíblemente rápido gracias a la arquitectura MoE (mezcla de expertos)".
La variante E4B más pequeña superó las 14 pruebas de competencia central—seguimiento de instrucciones, programación, matemáticas, razonamiento en múltiples pasos, traducción, seguridad, caché—y completó las 12 pruebas de contexto largo a 30K y 60K tokens. En recuperación needle-in-haystack, pasó 13 de 13 pruebas, incluyendo una prueba extendida a un millón de tokens con YaRN 8× RoPE scaling.
El modelo de 26B se extiende nativamente hasta 131K de contexto y hasta 524K con YaRN, lo que Hessling también sometió a pruebas de estrés: "¡También aplastó mis simples pruebas needle-in-the-haystack hasta un contexto extendido de 524K!"
En hardware edge, el E4B es genuinamente rápido. Jackrong reporta entre 45 y 60 tokens por segundo en el iPhone 17 Pro Max, y entre 90 y 120 tokens por segundo en MacBook Air M3/M4 vía MLX. La arquitectura MoE del modelo de 26B permite una descarga eficiente en sistemas de memoria unificada o GPUs con menos de 10 GB de VRAM. Hessling lo calificó como su recomendación de uso diario para configuraciones con VRAM limitada.
Ambos modelos están disponibles en formato GGUF, lo que significa que puedes integrarlos directamente en LM Studio o llama.cpp sin ninguna configuración. El código de entrenamiento completo y una guía paso a paso de ajuste fino están en el GitHub de Jackrong—el mismo pipeline que usó para Qwopus, el mismo setup de Unsloth y LoRA, reproducible en Colab.
Gemopus no está exento de deficiencias. La llamada a herramientas sigue siendo problemática en toda la serie Gemma 4 en llama.cpp y LM Studio—fallos en las llamadas, incompatibilidades de formato, bucles—así que si tu flujo de trabajo depende de agentes que usen herramientas externas, este aún no es tu modelo. El propio Jackrong lo describe como "una referencia de exploración de ingeniería más que una solución completamente lista para producción", y recomienda su propia serie Qwopus 3.5 para quienes necesiten algo más estable para cargas de trabajo reales.
Y debido a que Jackrong evitó deliberadamente la destilación agresiva del chain of thought al estilo de Claude, no esperes que se sienta tan profundamente Opus-brained como Qwopus—eso fue un sacrificio consciente por estabilidad, no un descuido.
Para quienes quieran profundizar en el ajuste fino de Gemma para razonamiento específicamente, también hay un proyecto comunitario separado que vale la pena seguir: Ornstein, del desarrollador mejor conocido como DJLougen, que toma la misma base Gemma 4 de 26B y se enfoca específicamente en mejorar sus cadenas de razonamiento sin depender de la lógica ni el estilo de ningún modelo de terceros específico.
Una advertencia honesta: la dinámica de entrenamiento de Gemma es más complicada que la de Qwen para quienes realizan ajustes finos—mayores fluctuaciones en la pérdida, mayor sensibilidad a los hiperparámetros. Jackrong lo reconoce él mismo. Si necesitas un modelo local más probado para flujos de trabajo en producción, su serie Qwopus 3.5 sigue siendo la opción más sólidamente validada. Sin embargo, si quieres un modelo estadounidense con el refinamiento al estilo de Opus, Gemopus es actualmente tu mejor opción disponible. También hay una variante Gemopus de 31B más densa en desarrollo, con Hessling anticipando que será "un golazo".
Si quieres probar ejecutar modelos locales en tu propio hardware, consulta nuestra guía sobre cómo comenzar con IA local.
Decrypt-a-cookie
This website or its third-party tools use cookies. Cookie policy By clicking the accept button, you agree to the use of cookies.