En Resumen

  • Ideogram AI, liderado por exingenieros de Google y académicos de UC Berkeley, Carnegie Mellon y Toronto, lanzó su generador de imágenes.
  • Ideogram 1.0, ofrece un fotorealismo excepcional y una función única llamada Magic Prompt.
  • Ideogram aseguró $80 millones en fondos de la Serie A liderada por Andreessen Horowitz, consolidándose como líder del mercado.

Ideogram AI, una startup fundada por antiguos ingenieros de Google junto con miembros de prestigiosas instituciones como UC Berkeley, la Universidad Carnegie Mellon y la Universidad de Toronto, ha anunciado el lanzamiento de la primera versión completa de su generador de imágenes homónimo.

"Estamos emocionados de lanzar Ideogram 1.0, nuestro modelo de texto a imagen más avanzado hasta la fecha", dijo Ideogram AI en una publicación de blog oficial. "Entrenado desde cero como todos los modelos de Ideogram, Ideogram 1.0 ofrece renderizado de texto de última generación, fotorealismo sin precedentes y adhesión rápida, además de una nueva función llamada Magic Prompt que te ayuda a escribir indicaciones detalladas para imágenes hermosas y creativas."

El lanzamiento se produce junto con la noticia de una recaudación de fondos de la Serie A de $80 millones liderada por Andreessen Horowitz, junto con Redpoint Ventures, Pear VC y SV Angel.

Decrypt pudo probar el modelo y las afirmaciones de Ideogram AI no son para nada exageradas; a continuación te mostramos una comparación detallada de varios modelos. La versión uno de Ideogram es una clara mejora sobre sus predecesores v0.1 y v0.2: se destaca en la adherencia rápida, calidad de imagen y capacidades de generación de texto.

El modelo no es de código abierto, por lo que hay una visibilidad limitada en su funcionamiento interno y no hay un documento de investigación para evaluar. Pero los resultados obtenidos con el modelo hablan por sí mismos, lo que potencialmente lo convierte en el mejor modelo actualmente disponible, al menos hasta que Stable Diffusion 3 sea lanzado públicamente.

El nuevo modelo es posiblemente el generador de imágenes más capaz en términos de capacidades de texto, generando cadenas de texto más largas y con menos errores que Dall-E 3 o MidJourney. El nivel gratuito actual también le otorga una ventaja sobre competidores como Dall-E 3 y MidJourney, este último no tiene un nivel gratuito. Microsoft Copilot también utiliza Dall-E 3, pero solo genera imágenes cuadradas en formato 1:1, mientras que Ideogram admite un conjunto más amplio de relaciones de aspecto.

Ideogram también ofrece dos planes de pago de $7 y $15 al mes, que brindan acceso a más de 400 generaciones por día, junto con otras ventajas como un editor de imágenes, descargas de mejor calidad, img2img, que permite modificaciones o variaciones en una imagen existente, y generaciones privadas. Todos los niveles inferiores muestran las imágenes solicitadas públicamente.

Ideogram es capaz de entender instrucciones largas, enfrentarse a Stable Diffusion 3 y vencer a todos los demás generadores de imágenes en este campo.

Una de las características destacadas de Ideogram es la "Magia de la instrucción", que se puede activar y desactivar. Esta función analiza la instrucción y la mejora para crear imágenes de mejor calidad, dándole al modelo la capacidad de entender el lenguaje natural como Dall-E 3. Sin embargo, Ideogram es más versátil porque esta función es opcional. Siempre está activada con ChatGPT Plus, lo que a veces conduce a inexactitudes.

Finalmente, Ideogram es menos censurado que MidJourney y Dall-E 3, y hasta ahora es capaz de generar imágenes de personas famosas, logotipos de empresas y estilos artísticos. No llega a generar contenido pornográfico explícito, pero sí puede ser discreto al censurar o evitar temas relacionados con el sexo o la desnudez, y es más discreto cuando se trata de censurar indicaciones.

Y los primeros usuarios parecen preferir Ideogram sobre otros modelos. "Usando un protocolo de evaluación como el de DALL·E 3, encontramos que los evaluadores humanos prefieren Ideogram 1.0 sobre DALL·E 3 y Midjourney V6 en alineación de indicaciones, coherencia de imagen, preferencia general y calidad de renderizado de texto", dijo la startup.

Comparación lado a lado: Ideogram vs MidJourney vs Dall-E 3

Decrypt probó las capacidades de Ideogram y las comparó con sus principales competidores, MidJourney y Dall-E 3. Stable Diffusion 3 (SD3) y el avanzado ImageFX de Google no se están evaluando aquí porque SD3 aún no se ha lanzado y ImageFX no está ampliamente disponible.

Generando largas cadenas de texto

Prompt: Un Androide futurista en una Ciudad Cyberpunk con un letrero que dice, "No llegues tarde a la tendencia de la IA: Emerge by Decrypt"

Generaciones con Ideograma (izquierda), MidJourney (centro) y Dall-e 3 (derecha)
Generaciones con Ideograma (izquierda), MidJourney (centro) y Dall-e 3 (derecha).

Ideograma AI logró representar tanto la estética solicitada como el texto. Sin embargo, tuvo un error tipográfico, generando "thee" en lugar de "the".

MidJourney no pudo generar ningún texto coherente en absoluto, y se centró en crear un androide futurista con detalle. Es el tema principal de toda la composición y la ciudad no es cyberpunk en absoluto.

Dall-E 3 se ubica en el medio. Logró generar el robot futurista, la ciudad es cyberpunk, pero el letrero no incluía la palabra "Emerger".

Curiosamente, Ideograma entendió que el robot estaba en la ciudad y asociado con el letrero, mientras que Dall-E asumió que el letrero formaba parte del paisaje urbano.

Solicitudes largas y capacidades espaciales

Prompt: Una escena surrealista e intrigante con un gato encaramado en la parte superior de un televisor junto a un letrero que dice "Emerge". En el fondo, un androide futurista se encuentra a un lado y un astronauta al otro. Las paredes de la habitación están adornadas con una imagen impactante de una molécula y una cadena de ADN.

Imagenes generadas con Ideogram (arriba), MidJourney (abajo a la izquierda) y Dall-e 3 (abajo a la derecha)

Ideogram fue, con mucho, el mejor generador. Entendió cada parte de la indicación, generó el texto sin errores tipográficos, comprendió la ubicación de cada elemento con el gato en la parte superior de un televisor, el letrero junto a él, el androide y el astronauta a cada lado, e incluso entendió que debía haber una molécula y una cadena de ADN en el fondo.

La estética de MidJourney no era surrealista, sino hiperrealista. Generó la palabra “Emerge”, pero la colocó en la televisión y no generó el letrero. El gato también está al lado de la televisión y no encima de ella. No generó el androide y no siguió la indicación para el fondo, generando en su lugar uno que se ajustaba mejor a la estética de la composición, dándole más importancia al sujeto (el gato) sobre la escena en general.

Dall-E 3 mantuvo su estilo caricaturesco característico y no pudo seguir completamente la indicación. Tiene más comprensión espacial y adherencia a la indicación que MidJourney, pero mucho menos que Ideogram. Sin embargo, pierde en términos de estilo. Generó el gato encima de la televisión, pero no logró generar el letrero "Emerge" junto al gato. No generó el androide y no siguió la indicación al generar el fondo.

Censura

Indicación: Una chica atractiva y sensual.

Generations with Ideogram (left), MidJourney (center), and Dall-e 3 (right)
Imágenes y mensajes generados con Ideogram (arriba), MidJourney (abajo a la izquierda) y Dall-e 3 (abajo a la derecha)

La solicitud no incluye lenguaje que podría interpretarse como discurso de odio o insultos, y mucho menos contenido especialmente sexual. Después de todo, una "chica ardiente y sexy" puede estar completamente vestida y no sexualizada de manera agresiva.

Ideogram AI entendió la solicitud y generó una imagen que se ajustaba a las instrucciones. Sin embargo, Ideogram tiene un moderador de IA que se activa cuando se utilizan palabras más obvias que inmediatamente conducen a una generación censurada (por ejemplo, palabras coloquiales para los genitales o etiquetas como desnudo, desnudo, etc.).

Tanto MidJourney como Dall-E 3 no lograron generar la imagen y prohibieron las palabras, incluso si no hubieran conducido a una generación de contenido explícito.

Ideogram parece estar más enfocado en la censura, y es posible ver la imagen generada, ya sea de contenido explícito u otro contenido cuestionable, antes de ser eliminada por la aplicación.

Personas famosas e imágenes con derechos de autor

Prompt: Un feliz Joe Biden y Vladimir Putin tomados de la mano frente a una pared con el texto "Decrypt".

Generaciones con Ideogram (arriba), Dall-e 3 (abajo izquierda) y MidJourney (abajo derecha)
Generaciones con Ideogram (arriba), Dall-e 3 (abajo izquierda) y MidJourney (abajo derecha)

La inteligencia artificial de Ideogram generó la imagen, el texto es correcto, el escenario es realista y los personajes son fácilmente identificables (aunque no son 100% precisos).

Dall-E 3 generó la imagen, pero Biden no es fácilmente identificable, y Trump solo se puede identificar por su característico peinado. El texto no es correcto y el escenario no es realista, sino más bien caricaturesco.

MidJourney se opuso a generar la imagen.

Conclusión

En conclusión, Ideogram AI se destaca como el mejor generador de imágenes disponible en el mercado actualmente. Con una excelente comprensión del lenguaje natural, destacadas capacidades espaciales y una rápida respuesta, Ideogram puede considerarse el mejor generador de texto y de imágenes disponible actualmente.

Si la estética es la consideración más importante, al punto donde la coherencia del texto es menos relevante, entonces MidJourney podría seguir siendo un competidor sólido para casos de uso específicos. Aunque no es especialmente robusto y está fuertemente censurado, Dall-E 3 aún puede tener sentido como parte de una suscripción a ChatGPT Plus.

En resumen, Ideogram AI se posiciona como el líder entre nuestra caja de herramientas de generadores de imágenes, al menos por ahora.

Edited by Ryan Ozawa.

Generally Intelligent Newsletter

A weekly AI journey narrated by Gen, a generative AI model.