SD3 vs SDXL, MidJourney e Ideogram, ¿Cuál es el Mejor Creador de Imágenes de IA?

La última versión de Stability AI es un intérprete sólido, simplemente no le pidas que represente a alguien acostado en el césped.

Por Jose Antonio Lanz

Jun 16, 2024

7 min lectura

A woman lying on grass. Generations with SDXL and SD3. Images created by Decrypt using AI

En Resumen

SD3, el último lanzamiento de Stability AI, ha generado un gran revuelo en la comunidad de IA, prometiendo mejorar la adherencia a indicaciones, eficiencia y calidad. Recientemente lanzado, SD3 busca establecer un nuevo estándar en la generación de imágenes.
En nuestra comparación, SD3 destacó al mostrar una mayor precisión y detalle en escenarios específicos, como ilustraciones detalladas de escenas de terror. Sus competidores, como MidJourney e Ideogram, mostraron interpretaciones creativas pero menos fieles a las indicaciones.
Sin embargo, SD3 enfrentó críticas por su incapacidad para generar imágenes realistas de personas acostadas, lo que limitó su utilidad en ciertos contextos comparado con sus rivales.

El último gran lanzamiento de Stability AI, SD3, ha generado un considerable revuelo en la comunidad de IA. Con promesas de una mayor adherencia a las indicaciones, eficiencia, precisión y calidad general, SD3 se puso reciénteme en marcha con la esperanza de establecer un nuevo punto de referencia en la generación de imágenes. Rápidamente, nos dispusimos a ver qué tan bien se compara SD3 con su predecesor, SDXL, así como con otros modelos líderes, como MidJourney e Ideogram.

Nuestra comparación cara a cara utilizó las mismas indicaciones para cada modelo para garantizar una lucha justa, aunque pueda parecer poco convencional debido a las diferencias intrínsecas entre los modelos. La evaluación incluyó una variedad de escenarios, probando la capacidad de los modelos para manejar indicaciones artísticas detalladas y escenarios cotidianos por igual. Con el mismo prompt utilizado para SD3 y SDXL e indicaciones negativas estandarizadas para las generaciones de Stable Diffusion, el terreno de juego se niveló.

Aquí están nuestros resultados en una variedad de tipos de imágenes. Todas las imágenes se presentan en el mismo orden: SD3 (arriba a la izquierda), SDXL (arriba a la derecha), MidJourney (abajo a la izquierda) e Ideograma (abajo a la derecha). Compartiremos nuestras opiniones sobre cada una, pero también puedes juzgar por ti mismo.

Ilustraciones

Indicación: Ilustración a mano de una araña gigante persiguiendo a una mujer en la jungla, extremadamente aterradora, angustia, escenario oscuro y espeluznante, horror, con influencia de la fotografía analógica, boceto.

SD3 y SDXL adoptaron ambos un estilo en blanco y negro que recuerda a los cómics antiguos. Sin embargo, la salida de SD3 fue significativamente más detallada, capturando elementos intrincados como las patas de la araña y la expresión angustiada de la mujer. MidJourney tomó un enfoque más artístico, produciendo una ilustración vibrante que, aunque visualmente atractiva, se desviaba de las directrices "hecho a mano" y "boceto" del prompt. La interpretación de Ideogram reflejaba el enfoque estilístico de SD3, pero añadía un tono azulado que no estaba especificado en el prompt y no era un boceto.

En cuanto a la precisión, SD3 e Ideogram representaron correctamente a la mujer huyendo de la araña, alineándose estrechamente con la narrativa del prompt. Por el contrario, SDXL y MidJourney mostraron de manera inexacta a la mujer acercándose a la araña, lo que contradecía el prompt. Dado que el promp tespecificaba un boceto, la ilustración en blanco y negro altamente detallada de SD3 fue más precisa que la composición a color de Ideogram, que carecía de detalles faciales.

Ganador: SD3.

Generaciones no estándar

Prompt: Un lagarto vistiendo un traje.

SD3 entregó una representación precisa de un lagarto con traje, siguiendo de cerca la indicación. El lagarto mantuvo su apariencia natural, con escamas y rasgos reptilianos, integrados de manera impecable en un traje bien confeccionado. En contraste, SDXL, MidJourney e Ideograma antropomorfizaron al lagarto, creando lagartos humanoides en su lugar.

Las versiones de SDXL y MidJourney eran altamente detalladas y realistas, pareciendo fotografías. La salida de MidJourney tenía una textura y profundidad realistas, casi parecida a la fotografía analógica, pero no generaba el traje. El retrato de Ideogram fue editado en gran medida, similar a las fotos oficiales tomadas por políticos, con un aspecto pulido y formal. A pesar de la alta calidad de estas salidas, SD3 destacó en realismo, cumplimiento de la indicación y precisión, haciendo que su resultado sea el más creíble.

Ganador: SD3.

Imágenes de personas "acosatadas": ¡Un problema que resolver!

Prompt: Una mujer hermosa acostada en el césped.

Algo claramente salió mal con SD3.

Esta imagen fue seleccionada porque una de las primeras cosas que la comunidad de arte de IA notó fue la incapacidad de SD3 para generar imágenes de personas acostadas en el césped. De hecho, esto se ha convertido rápidamente en un meme.

SDXL presentó una foto de la mujer de la cintura hacia arriba, centrándose en la parte superior de su cuerpo y su rostro. MidJourney e Ideogram optaron por imágenes de primer plano. El resultado de MidJourney fue el más realista, mostrando detalles finos en las características de la mujer y en el césped a su alrededor. Sin embargo, exageró el efecto bokeh, desenfocando no solo el fondo, sino también partes del cuerpo de la mujer. Ideogram evitó el problema de bokeh excesivo, manteniendo la claridad en el cuerpo de la mujer y en el césped.

SD3, fue un fracaso inexplicable. De hecho, SD3 parece tener dificultades para generar imágenes de humanos "acostados" no solo en el césped, sino en cualquier cosa. Probamos fotos, ilustraciones, renders. Intentamos generar hombres, mujeres, ancianos, niños y cualquier cosa que se pareciera a una persona. La pose de "acostado" los convierte a todos en monstruosidades colosales.

Ganador: Con SD3 descartado, este es un empate entre MidJourney e Ideogram.

Estilos artísticos

Prompt: Un hombre y una mujer cenando en un restaurante futurista, ilustración, postimpresionismo, impasto.

Esta prueba evaluó la capacidad de los modelos para reproducir movimientos artísticos específicos. SD3 se destacó, generando pinceladas de impasto y capturando la esencia del postimpresionismo. La textura y capas de pintura en la salida de SD3 eran evidentes, mostrando un profundo entendimiento del estilo.

SDXL logró una segunda posición, emulando con éxito el estilo postimpresionista pero careciendo de la técnica de impasto pronunciada. MidJourney e Ideogram no demostraron una comprensión clara de los estilos artísticos, produciendo ilustraciones genéricas que no se alineaban con las especificaciones del prompt.

Ganador: SD3.

Artistas específicos y sus estilos

Prompt: Un hombre y una mujer cenando en un restaurante futurista, ilustración en el estilo de Vincent Van Gogh.

SD3 demostró una fuerte capacidad para replicar el estilo de Van Gogh, incorporando sus pinceladas distintivas y paleta de colores a lo largo de la obra, y notablemente con la representación de la pareja. La composición también representó con precisión un restaurante futurista. SDXL siguió de cerca, fusionando personajes de estilo cómico realista con un entorno inspirado en Van Gogh.

Ganador: SD3.

Fotorrealismo

Prompt: Foto profesional, primer plano de un hombre caucásico, con suéter negro, rostro serio, iluminación dramática, naturaleza, clima sombrío, nublado, bokeh.

SDXL produjo una imagen siguiendo el estilo tradicional de retrato generado por inteligencia artificial, con un cielo nublado y follaje en el fondo borroso. Sin embargo, el rostro parecía estar muy editado, careciendo de imperfecciones realistas. La versión de MidJourney presentaba una paleta de colores cálidos y un fondo urbano, alejándose del aspecto natural indicado en el prompt.

La composición de Ideogram cumplió con todos los criterios, ofreciendo un encuadre de primer plano, un suéter negro, una expresión seria, iluminación exterior sombría y un toque de desenfoque en el fondo. También fue la foto más realista entre los modelos.

Ganador: Ideogram.

Generación de Texto

Prompt: Una mujer posando frente a una pared en una ciudad futurista con un letrero que dice "Emerge by Decrypt".

La generación de texto resultó desafiante para todos los modelos. Ninguno de los modelos logró representar con precisión el texto "Emerge by Decrypt". SDXL proporcionó el paisaje urbano más futurista, pero no incluyó todos los elementos especificados en el prompt. SD3 logró generar la pared, el letrero y la ciudad, aunque con inexactitudes en el texto.

Ganador: MidJourney—pero esta fue una generación afortunada, ya que Ideogram tiende a ser más consistente en la generación de texto en imágenes en general.

Conclusión

SD3 demuestra mejoras significativas sobre su predecesor SDXL y un rendimiento competitivo contra MidJourney e Ideogram en una variedad de escenarios. SD3 sobresale en la adherencia rápida, como se prometió, así como en la reproducción de detalles y estilo artístico. SD3 ha demostrado su potencial como un modelo base robusto.

Sin embargo, su fuerte censura y limitaciones desconcertantes en la generación de personas en ciertas posiciones sugieren que puede ser mejor utilizarlo en conjunto con otras herramientas.

Editado por Ryan Ozawa.

Generally Intelligent Newsletter

A weekly AI journey narrated by Gen, a generative AI model.

Coin Prices