En Resumen
- OpenAI presentó una nueva familia de modelos, OpenAI o1, disponible en ChatGPT Plus, afirmando que proporciona importantes mejoras en rendimiento y capacidades de razonamiento.
- Los nuevos modelos utilizan un razonamiento de "cadena de pensamiento" para ser más efectivos en tareas complejas, superando al GPT-4o en varias áreas clave.
- OpenAI describió estos modelos como un gran avance, destacando su capacidad para realizar razonamientos complejos y deliberativos, aunque aún enfrentan desafíos en tareas creativas.
OpenAI ha presentado una nueva familia de modelos y los ha puesto a disposición del público el jueves en su nivel de suscripción de pago de ChatGPT Plus, afirmando que proporciona importantes mejoras en rendimiento y capacidades de razonamiento.
“Estamos presentando OpenAI o1, un nuevo Modelo de Lenguaje Grande o Large Language Model (LLM) entrenado con aprendizaje por refuerzo para realizar razonamientos complejos”, afirmó OpenAI en una publicación de blog oficial, “o1 piensa antes de responder”. Los observadores de la industria de la IA esperaban que el principal desarrollador de IA desplegara un nuevo modelo “fresa” durante semanas, aunque las distinciones entre los diferentes modelos en desarrollo no se hacen públicas.
OpenAI describe esta nueva familia de modelos como un gran avance, tanto que cambiaron su esquema de denominación habitual, rompiendo con la serie ChatGPT-3, ChatGPT-3.5 y ChatGPT-4o.
“Para tareas de razonamiento complejas, este es un avance significativo y representa un nuevo nivel de capacidad de IA”, dijo OpenAI. “Dado esto, estamos reiniciando el contador de nuevo a uno y nombrando esta serie OpenAI o1.”
La clave para el funcionamiento de estos nuevos modelos es que “se toman su tiempo” para pensar antes de actuar, señaló la compañía, y utilizan un razonamiento de “cadena de pensamiento” para hacerlos extremadamente efectivos en tareas complejas.
Cabe destacar que incluso el modelo más pequeño de esta nueva línea supera al GPT-4o de primera categoría en varias áreas clave, según las pruebas de IA compartidas por Open AI, en particular las comparaciones de OpenAI sobre desafíos considerados de complejidad a nivel de doctorado.
Los modelos recién lanzados enfatizan lo que OpenAI llama "razonamiento deliberativo", donde el sistema se toma más tiempo para trabajar internamente en sus respuestas. Este proceso tiene como objetivo producir respuestas más reflexivas y coherentes, especialmente en tareas que requieren razonamiento.
OpenAI también publicó resultados de pruebas internas que muestran mejoras sobre GPT-4o en tareas como codificación, cálculo y análisis de datos. Sin embargo, la empresa reveló que OpenAI 01 mostró una mejora menos drástica en tareas creativas como la escritura creativa. (Nuestras propias pruebas subjetivas colocaron las ofertas de OpenAI por detrás de Claude AI en estas áreas). No obstante, los resultados de su nuevo modelo fueron bien valorados en general por evaluadores humanos.
El nuevo modelo implementa el proceso de inteligencia artificial de cadena de pensamiento durante la inferencia. Esto significa que el modelo utiliza un enfoque segmentado para razonar a través de un problema paso a paso antes de proporcionar un resultado final, que es lo que los usuarios ven en última instancia.
“La serie de modelos o1 está entrenada con aprendizaje por refuerzo a gran escala para razonar utilizando una cadena de pensamiento”, dice OpenAI en la tarjeta del sistema de la familia o1. “Entrenar modelos para incorporar una cadena de pensamiento antes de responder tiene el potencial de desbloquear beneficios sustanciales, al tiempo que aumenta los riesgos potenciales derivados de una inteligencia más elevada.”
La afirmación general deja espacio para el debate sobre la verdadera novedad de la arquitectura del modelo entre los observadores técnicos. OpenAI no ha aclarado cómo el proceso difiere de la generación basada en tokens: ¿es una asignación real de recursos para el razonamiento, o un comando oculto de cadena de pensamiento—o tal vez una mezcla de ambas técnicas?
Un modelo anterior de IA de código abierto llamado Reflection había experimentado con un enfoque similar basado en el razonamiento, pero enfrentó críticas por su falta de transparencia. Ese modelo utilizaba etiquetas para separar los pasos de su razonamiento, lo que, según sus desarrolladores, supuso una mejora respecto a los resultados de los modelos convencionales.
I'm excited to announce Reflection 70B, the world’s top open-source model.
Trained using Reflection-Tuning, a technique developed to enable LLMs to fix their own mistakes.
405B coming next week - we expect it to be the best model in the world.
Built w/ @GlaiveAI.
Read on ⬇️: pic.twitter.com/kZPW1plJuo
— Matt Shumer (@mattshumer_) September 5, 2024
Incrustar más directrices en el proceso de cadena de pensamiento no solo hace que el modelo sea más preciso, sino también menos propenso a técnicas de jailbreaking, ya que tiene más tiempo y pasos para detectar cuando se está produciendo un resultado potencialmente dañino.
La comunidad de jailbreaking parece ser tan eficiente como siempre en encontrar formas de eludir los controles de seguridad de la IA, con los primeros jailbreaks exitosos de OpenAI 01 reportados minutos después de su lanzamiento.
Aún no está claro si este enfoque de razonamiento deliberativo puede escalarse de manera efectiva para aplicaciones en tiempo real que requieran tiempos de respuesta rápidos. OpenAI ha anunciado que, mientras tanto, tiene la intención de ampliar las capacidades de los modelos, incluyendo la funcionalidad de búsqueda web y mejoras en las interacciones multimodales.
Además, el modelo será ajustado con el tiempo para cumplir con los estándares mínimos de seguridad, prevención de jailbreak y autonomía de OpenAI.
Se esperaba que el modelo se lanzara completamente el jueves, sin embargo, podría ser lanzado en fases, ya que algunos usuarios han informado que el modelo aún no está disponible para ser probado por ellos.
La versión más pequeña eventualmente estará disponible de forma gratuita, y el acceso a la API será un 80% más barato que OpenAI o1-preview, según el anuncio de OpenAI. Pero no te emociones demasiado: actualmente hay una tasa semanal de solo 30 mensajes por semana para probar este nuevo modelo para o1-preview y 50 para o1-mini, así que elige tus prompts sabiamente.