En Resumen

  • La startup de IA Stability AI presenta Stable Diffusion XL v0.9, un modelo de generación de imágenes ultra-fotorealistas.
  • El nuevo modelo supera a las versiones anteriores en sofisticación y calidad visual.
  • SDXL v0.9 destaca en respuesta a indicaciones basadas en texto, ofreciendo composiciones detalladas y realistas, convirtiéndose en una competencia sólida para otros generadores de imágenes de IA.

La startup de inteligencia artificial Stability AI acaba de presentar su última versión de Stable Diffusion—y el modelo no decepciona.

Stable Diffusion XL (SDXL) v0.9 ofrece imágenes ultra-fotorealistas, superando las iteraciones anteriores en términos de sofisticación y calidad visual.

Esto significa, entre otras cosas, que el nuevo modelo de Stability AI no generará esas molestas "manos de espagueti" tan a menudo. Además, no tendrás que introducir docenas de palabras para obtener una imagen increíble, porque el modelo fue entrenado para hacer la mayor parte del trabajo pesado por ti, por lo tanto, la comunicación con el modelo será más natural.

La compañía anunció ayer el lanzamiento en Twitter, señalando que la nueva versión "proporciona un salto en los casos de uso para la generación de imágenes de inteligencia artificial".

AD

Apodado SDXL v0.9, el generador de imágenes destaca en respuesta a indicaciones basadas en texto, demostrando una composición detallada superior a su versión beta anterior, lanzada en abril. Una meticulosa comparación de las imágenes generadas por ambas versiones destaca la ventaja distintiva del último modelo.

Por ejemplo, la indicación o el prompt "Un lobo en el Parque Nacional Yosemite, fotografía de documental de naturaleza fría" generó una imagen más realista con el nuevo modelo de IA, superando a la versión anterior que se quedó corta en su representación de detalles fieles a la vida. Tales mejoras significativas se atribuyen a un mayor número de parámetros en SDXL v0.9, ofreciendo una mayor profundidad de aprendizaje en comparación con su predecesor.

Comparación entre imágenes generadas con SDXL beta (izquierda) vs SDXL v0.9 (derecha) Imagen: Stability AI

Comparación entre imágenes generadas con SDXL beta (izquierda) vs SDXL v0.9 (derecha) Imagen: Stability AI

AD

Stability AI, conocida por llevar el generador de imágenes de código abierto Stable Diffusion a la vanguardia en agosto de 2022, ha alimentado aún más su competencia con Dall-E y MidJourney de OpenAI. Stable Diffusion es actualmente el generador de imágenes de IA de código abierto más popular del mundo.

La compañía fue reconocida por TIME ayer como una de las empresas más influyentes de 2023. Otras empresas de IA que aparecen en la lista son OpenAI (ChatGPT), Hugging Face (plataforma colaborativa de IA de código abierto), Runway AI (video generativo), Nvidia, y Google Deepmind. En el espacio cripto, Polygon y Chainalysis (forense de blockchain) también aparecen en la lista.

Imágenes hermosas con menos trabajo

En un cambio notable, SDXL v0.9 abandona las indicaciones complicadas, generando mejores resultados a partir de entradas más simples y menos estructuradas. Esto se demuestra vívidamente cuando Decrypt envió la breve indicación "dos manos apuntándose mutuamente arte brillante", lo que produjo un resultado impresionantemente realista con SDXL v0.9 y garabatos menos inspiradores con las versiones 1.5 y 2.1 estándar de Stable Diffusion.

Resultados proporcionados por diferentes modelos de Stable Diffusion utilizando la misma indicación. Imagen: Decrypt

Resultados proporcionados por diferentes modelos de Stable Diffusion utilizando la misma indicación. Imagen: Decrypt

Esta nueva facilidad de uso podría representar una seria amenaza para MidJourney, cuyo principal atractivo es su facilidad de uso. Además, la estética cinematográfica y la representación precisa de objetos por SDXL v0.9 podrían servir como un sólido punto de venta para Stability AI, recordando el estilo visual de MidJourney.

La última joya de Stability AI estará disponible a través de Clipdrop, la herramienta de generación y edición de imágenes de IA desarrollada por Init ML, una adquisición reciente de Stability. Los clientes de la API de la compañía también tendrán acceso temprano. Sin embargo, el modelo aún no está listo para entrenamiento o refinamiento y no se ejecuta localmente. Cuando sea lanzado públicamente, requerirá un sistema con al menos 16GB de RAM y una GPU con 8GB de VRAM.

Mientras tanto, Stability AI continúa desarrollando el modelo junto con otros dos proyectos: un modelo de lenguaje grande (LLM) languideciente llamado StableLM y el impresionante DeepFloyd IF, un generador avanzado de texto a imagen capaz de incrustar texto legible en imágenes, un logro aún no alcanzado por los modelos existentes.

Según Stability AI, se espera que a mediados de julio se divulgue públicamente este modelo revolucionario como software de código abierto, marcando otro hito importante para la empresa.

AD

Daily Debrief Newsletter

Start every day with the top news stories right now, plus original features, a podcast, videos and more.