En Resumen

  • Midjourney, conocido por su herramienta de imágenes generativas en Discord, planea introducir un modelo "texto a video" en los próximos meses, según anunció el CEO David Holz.
  • La compañía comenzará a entrenar sus modelos de video a partir de enero, progresando desde su exitoso modelo de imagen, para competir en la industria de videos generativos.
  • La reciente actualización V6 de Midjourney, enfocada en mejorar la capacidad de seguimiento de instrucciones y el realismo de las imágenes, demuestra su esfuerzo constante por mantenerse relevante y competitivo en un campo emergente.

Midjourney, la herramienta de creación de imágenes generativas, quizás más conocida por funcionar dentro de un servidor de Discord, está expandiendo sus alas de IA. Los creadores de Midjourney anunciaron el martes que planean introducir un modelo de "texto a video" en los próximos meses.

La compañía comenzará a entrenar sus modelos de video a partir de enero, dijo el CEO David Holz durante una sesión de Discord llamada "Office Hour". Este movimiento representa una progresión natural para la plataforma, construyendo sobre un modelo de imagen maduro para impulsar la dinámica competitiva de la industria de videos generativos.

Las notas de la sesión de Discord incluyeron ajustes planeados para V6 Niji, el modelo generador de manga/anime de Midjourney, y correcciones de consistencia para el próximo lanzamiento oficial de Midjourney V6. La compañía también escribió que su lista de tareas incluye "comenzar el entrenamiento para nuevos modelos de video", que podrían estar listos "en unos meses".

No se compartió más información sobre el modelo ni por Holz ni por el equipo de Midjourney.

Midjourney es conocido por enfatizar la calidad y la experiencia del usuario por encima de la velocidad bruta, incluso si eso significaba quedarse atrás de los competidores.

La compañía implementó mejoras como inpainting y outpainting meses después de que estas características se convirtieran en algo de facto en otras plataformas como Stable Diffusion, y su incursión reciente en la generación de texto rudimentario se produjo después de que ya fuera una capacidad común en otros modelos como Dall-E 3, SDXL, o incluso algunos generadores menos populares como Ideogram o IF.

Ingresando a un campo concurrido

Esta incursión en los videos llega después de los lanzamientos de la competencia. Stability AI anunció recientemente Stable Video Diffusion; Meta acaba de mostrar su generador de video EMU, y modelos existentes como Pika y Runway ML están marcando su territorio, dejando que la entrada de Midjourney emerja en un paisaje competitivo sólido. Además, otros generadores de imágenes como Leonardo AI que ya han implementado capacidades de generación de video, intensificando aún más la competencia.

La reciente actualización v6 de Midjourney, que presume de una mejor capacidad de seguimiento de instrucciones y de imágenes más realistas, es el esfuerzo más reciente de la empresa por mantenerse relevante y competitiva. Si sus modelos muestran cierta cohesión, podrían ganar terreno sólido en un campo tan incipiente, incluso con modelos que aún están lejos de ser perfectos.

Las implicaciones de estos avances van mucho más allá de una carrera corporativa por la supremacía. A medida que Midjourney y otros innovan y perfeccionan sus ofertas, las industrias creativas y de medios se encuentran al borde de una era transformadora. La capacidad de generar, manipular e interactuar con contenido de video a través de la inteligencia artificial está abriendo muchas ventanas, desde facilitar las cosas para los artistas y los publicistas hasta potencialmente remodelar nuestra percepción de la realidad.

Editado por Ryan Ozawa.

Generally Intelligent Newsletter

A weekly AI journey narrated by Gen, a generative AI model.