5 min lectura
OpenAI lanzó el martes dos modelos de lenguaje de peso abierto que ofrecen un rendimiento equiparable a sus ofertas comerciales mientras funcionan en hardware para consumidores: el gpt-oss-120b necesita una sola GPU de 80GB y el gpt-oss-20b opera en dispositivos con solo 16GB de memoria.
Los modelos, disponibles bajo licencia Apache 2.0, logran casi la misma paridad que el o4-mini de OpenAI en benchmarks de razonamiento. La versión de 120.000 millones de parámetros activa solo 5,1 mil millones de parámetros por token a través de su arquitectura de mezcla de expertos, mientras que el modelo de 20.000 millones de parámetros activa 3,6 mil millones. Ambos manejan longitudes de contexto de hasta 128.000 tokens, igual que GPT-4o.
El hecho de que se lancen bajo esa licencia específica es algo bastante importante. Significa que cualquiera puede usar, modificar y obtener ganancias de esos modelos sin restricciones. Esto incluye a cualquiera, desde el usuario promedio hasta los competidores de OpenAI como la startup china DeepSeek.
El lanzamiento llega mientras aumentan las especulaciones sobre la llegada inminente de GPT-5 y se intensifica la competencia en el espacio de IA de código abierto. Los modelos OSS son los últimos modelos de lenguaje de peso abierto de OpenAI desde GPT-2 en 2019.
Realmente no hay una fecha de lanzamiento para GPT-5, pero Sam Altman insinuó que podría suceder más temprano que tarde. "Tenemos muchas cosas nuevas para ustedes en los próximos días", tuiteó temprano hoy, prometiendo "una gran actualización más tarde esta semana".
Los modelos de código abierto que se lanzaron ayer son muy poderosos. "Estos modelos superan a modelos abiertos de tamaño similar en tareas de razonamiento, demuestran fuertes capacidades de uso de herramientas y están optimizados para implementación eficiente en hardware para consumidores", declaró OpenAI en su anuncio. La empresa los entrenó usando aprendizaje por refuerzo y técnicas de sus sistemas o3 y otros sistemas de frontera.
En competencias de programación de Codeforces, gpt-oss-120b obtuvo una calificación Elo de 2.622 con herramientas y 2.463 sin ellas, superando la calificación de 2.719 de o4-mini y acercándose a los 2.706 de o3. El modelo alcanzó una precisión del 96,6% en competencias de matemáticas AIME 2024 comparado con el 87,3% de o4-mini y logró 57,6% en la evaluación HealthBench, superando el puntaje de 50,1% de o3.
Imagen: OpenAI
El gpt-oss-20b más pequeño igualó o superó a o3-mini en estos benchmarks a pesar de su tamaño. Obtuvo 2.516 Elo en Codeforces con herramientas, alcanzó 95,2% en AIME 2024 y logró 42,5% en HealthBench, todo mientras se ajustaba a las limitaciones de memoria que lo harían viable para implementación en el borde.
Ambos modelos admiten tres niveles de esfuerzo de razonamiento: bajo, medio y alto, que intercambian latencia por rendimiento. Los desarrolladores pueden ajustar estas configuraciones con una sola oración en el mensaje del sistema. Los modelos fueron post-entrenados usando procesos similares a o4-mini, incluyendo ajuste fino supervisado y lo que OpenAI describió como una "etapa de RL de alto cómputo".
Pero no pienses que solo porque cualquiera puede modificar esos modelos a voluntad, tendrás una tarea fácil. OpenAI filtró ciertos datos dañinos relacionados con amenazas químicas, biológicas, radiológicas y nucleares durante el pre-entrenamiento. La fase de post-entrenamiento usó alineación deliberativa y jerarquía de instrucciones para enseñar el rechazo de prompts inseguros y defensa contra inyecciones de prompts.
En otras palabras, OpenAI afirma haber diseñado sus modelos para hacerlos tan seguros que no pueden generar respuestas dañinas incluso después de modificaciones.
Eric Wallace, un experto en alineación de OpenAI, reveló que la empresa realizó pruebas de seguridad sin precedentes antes del lanzamiento. "Ajustamos finamente los modelos para maximizar intencionalmente sus capacidades bio y cibernéticas", publicó Wallace en X. El equipo seleccionó datos específicos del dominio para biología y entrenó los modelos en entornos de programación para resolver desafíos de captura la bandera.
Las versiones ajustadas finamente de manera adversarial fueron sometidas a evaluación por tres grupos de expertos independientes. "En nuestras evaluaciones de riesgo de frontera, nuestro gpt-oss ajustado maliciosamente tiene un rendimiento inferior a OpenAI o3, un modelo por debajo de la capacidad High de Preparedness", declaró Wallace. Las pruebas indicaron que incluso con un ajuste fino robusto usando la pila de entrenamiento de OpenAI, los modelos no pudieron alcanzar niveles de capacidad peligrosos según el Marco de Preparación de la empresa.
Dicho esto, los modelos mantienen razonamiento de cadena de pensamiento no supervisado, que OpenAI dijo es de suma importancia para mantener un ojo vigilante sobre la IA. "No pusimos ninguna supervisión directa en el CoT para ninguno de los modelos gpt-oss", declaró la empresa. "Creemos que esto es crítico para monitorear el mal comportamiento, engaño y mal uso del modelo".
OpenAI oculta la cadena completa de pensamiento en sus mejores modelos para evitar que la competencia replique sus resultados y para evitar otro evento DeepSeek, que ahora puede suceder aún más fácil.
Los modelos están disponibles en Huggingface. Pero como dijimos al principio, necesitarás una GPU gigantesca con al menos 80GB de VRAM (como la Nvidia A100 de $17.000) para ejecutar la versión con 120.000 millones de parámetros.
La versión más pequeña con 20.000 millones de parámetros requerirá al menos 16GB de VRAM (como la Nvidia RTX 4090 de $3.000) en tu GPU, lo que es mucho, pero tampoco tan loco para hardware de grado consumidor.
Decrypt-a-cookie
This website or its third-party tools use cookies. Cookie policy By clicking the accept button, you agree to the use of cookies.