En Resumen

  • OpenAI lanzó Sora 2 el martes, combinando su último modelo de generación de video con una nueva app social que permite crear clips generados por IA con audio sincronizado.
  • La empresa señaló que Sora 2 obedece mejor las leyes de la física en comparación con sistemas anteriores, generando interacciones físicas complejas sin distorsión aparente.
  • OpenAI afirmó que Sora 2 eventualmente ofrecerá la opción de pagar por generaciones adicionales si la demanda excede los recursos informáticos disponibles.

OpenAI lanzó Sora 2, combinando su último modelo de generación de video con una nueva app social que permite a los usuarios crear, compartir y protagonizar clips generados por IA. La empresa calificó el lanzamiento como un gran avance en la simulación de la realidad física, ya que el modelo ahora produce audio sincronizado junto con el video por primera vez.

El modelo actualizado puede generar clips de video que muestran interacciones físicas complejas con las que los sistemas anteriores tenían dificultades. En algunos de los ejemplos, Sora generó rutinas de gimnasia olímpica, volteretas hacia atrás en tablas de paddle y personajes realizando triples axels sin ninguna distorsión o deformación aparente. A diferencia de los generadores de video anteriores que doblan la física para cumplir con las instrucciones de texto, Sora 2 intenta modelar resultados realistas, incluido el fracaso.

"Los modelos de video anteriores son demasiado optimistas: deforman objetos y alteran la realidad para ejecutar exitosamente una instrucción de texto", señaló OpenAI en su anuncio. Sora 2 "es mejor al obedecer las leyes de la física en comparación con los sistemas anteriores".

El modelo genera paisajes sonoros de fondo, habla y efectos de sonido directamente desde instrucciones de texto. Hasta ahora, el único modelo con esa capacidad era Veo 3 de Google. El sistema también maneja secuencias de múltiples tomas mientras mantiene la continuidad a través de los cambios de escena, lo cual también es muy complejo y requiere una gran comprensión tanto de los personajes como del entorno.

OpenAI está vendiendo Sora 2 como el "momento GPT-3.5 para video", comparándolo con el modelo de lenguaje que precedió a ChatGPT. El Sora original, lanzado en febrero de 2024, representó lo que la empresa llamó el "momento GPT-1": la primera indicación de que la generación de video estaba comenzando a funcionar a escala.

Muchos mejores modelos rápidamente dejaron a Sora atrás, tanto que para cuando OpenAI decidió lanzar su modelo, las alternativas chinas podían generar videos mejores y más coherentes usando las mismas instrucciones.

Por ahora, la única forma de probar el modelo es mediante invitación a través de la nueva app de iOS, simplemente llamada Sora. A diferencia del modelo anterior, al que solo se podía acceder a través de un sitio web y se centraba en generaciones de video aisladas, la app parece ser más pulida y versátil, introduciendo una función llamada "cameos" que permite a los usuarios insertarse en escenas generadas.

Después de grabar un video corto para verificar la identidad y capturar la apariencia y la voz, los usuarios pueden aparecer en cualquier entorno creado por Sora. La función funciona para humanos, animales u objetos, y los usuarios controlan quién puede usar su imagen.

Durante la demostración, el equipo de OpenAI generó videos de ellos mismos presentando anuncios, haciendo kickflips y siendo presentados en diferentes situaciones en un estilo similar a un video de TikTok o un Reel de Instagram.

La app incluye un feed personalizable usando lo que OpenAI describió como una nueva clase de algoritmos de recomendación que aceptan instrucciones en lenguaje natural. El sistema muestra por defecto contenido de personas que los usuarios siguen o con las que interactúan, y la empresa señaló que no optimiza el tiempo que se pasa desplazándose. Los mecanismos integrados sondean periódicamente a los usuarios sobre su bienestar y ofrecen opciones para ajustar la configuración del feed.

Para adolescentes, la app incluye límites predeterminados en las generaciones diarias visibles en el feed y permisos más estrictos en los cameos. Los padres pueden acceder a controles a través de ChatGPT para gestionar los límites de desplazamiento, la personalización del algoritmo y la configuración de mensajes directos.

Los usuarios mantendrán el control total sobre sus cameos y podrán revocar el acceso o eliminar videos que contengan su imagen en cualquier momento. La app muestra a los usuarios todos los videos que presentan su cameo, incluidos los borradores creados por otros que no se han publicado.

Sora 2 se está lanzando en Estados Unidos y Canadá a través del sistema basado en invitaciones, con planes de expansión rápida a otros países. El servicio será gratuito con lo que OpenAI llamó "límites generosos", aunque estos siguen sujetos a restricciones de cómputo. Los suscriptores de ChatGPT Pro obtienen acceso a una versión experimental de mayor calidad llamada Sora 2 Pro. La empresa planea lanzar Sora 2 a través de su API y mantendrá disponible el modelo anterior Sora 1 Turbo.

OpenAI afirmó que Sora 2 eventualmente ofrecerá a los usuarios la opción de pagar por generaciones adicionales si la demanda excede los recursos informáticos disponibles.

Por ahora, si no tienes un código de invitación, iPhone o ChatGPT Pro, la única opción es optar por las ejecuciones limitadas de Veo 3 o usar generadores de video locales como Wan. También hay opciones más económicas como Kling, Seedance, Hailuo o Runway, pero el atractivo de tener un modelo de video altamente realista con funciones de redes sociales es sin duda una ventaja que nadie más en la industria ofrece.

Generally Intelligent Newsletter

A weekly AI journey narrated by Gen, a generative AI model.