En Resumen

  • Tongyi Lab de Alibaba lanzó Z-Image Turbo la semana pasada, como un modelo de 6.000 millones de parámetros que funciona con tan solo 6 GB de VRAM y genera imágenes en 30 segundos.
  • El modelo acumuló más de 1.200 reseñas positivas en CivitAI desde el jueves pasado, superando ampliamente a Flux2 que obtuvo 157 reseñas en el mismo periodo.
  • Alibaba planea lanzar dos variantes adicionales: Z-Image-Base para ajuste fino y Z-Image-Edit para modificaciones basadas en instrucciones del usuario.

Z-Image Turbo de Tongyi Lab de Alibaba, un modelo de generación de imágenes de 6.000 millones de parámetros, se lanzó la semana pasada con una promesa simple: calidad de última generación en hardware que realmente posees.

Esa promesa está causando impacto. A pocos días de su lanzamiento, los desarrolladores han estado creando LoRAs—adaptaciones personalizadas ajustadas—a un ritmo que ya supera a Flux2, el sucesor muy promocionado de Black Forest Labs del popular modelo Flux.

El truco de Z-Image es la eficiencia. Mientras competidores como Flux2 exigen un mínimo de 24 GB de VRAM (y hasta 90 GB para el modelo completo), Z-Image funciona en configuraciones cuantizadas con tan solo 6 GB.

Eso es territorio de RTX 2060, básicamente hardware de 2019. Dependiendo de la resolución, los usuarios pueden generar imágenes en tan solo 30 segundos.

Para aficionados y creadores independientes, esta es una puerta que antes estaba cerrada.

La comunidad de arte de IA fue rápida en elogiar el modelo.

"Esto es lo que se suponía que debía ser SD3", escribió el usuario Saruhey en CivitAI, el repositorio más grande del mundo de herramientas de arte de IA de código abierto. "La adherencia al prompt es bastante exquisita... un modelo que puede hacer texto de inmediato es revolucionario. Esta cosa tiene el mismo poder, si no mejor, que Flux, es magia negra por sí sola. Los chinos están muy adelantados en el juego de la IA".

Z-Image Turbo ha estado disponible en Civitai desde el jueves pasado y ya ha recibido más de 1.200 reseñas positivas. Para contextualizar, Flux2—lanzado unos días antes de Z-Image—tiene 157.

El modelo está completamente sin censura desde el principio. Celebridades, personajes ficticios y, sí, contenido explícito están sobre la mesa.

A partir de hoy, hay alrededor de 200 recursos (ajustes finos, LoRAs, flujos de trabajo) para el modelo solo en Civitai, muchos de los cuales son NSFW.

En Reddit, el usuario Regular-Forever5876 probó los límites del modelo con prompts de gore y quedó impresionado: "¡Caramba! ¡Esta cosa entiende gore a la perfección! Lo genera impecablemente", escribió.

El secreto técnico detrás de Z-Image Turbo es su arquitectura S3-DiT, un transformador de flujo único que procesa datos de texto e imagen juntos desde el inicio, en lugar de fusionarlos después. Esta integración estrecha, combinada con técnicas de destilación agresivas, permite que el modelo alcance estándares de calidad que generalmente requieren modelos cinco veces su tamaño.

Probando el modelo

Ejecutamos Z-Image Turbo a través de pruebas exhaustivas en múltiples dimensiones. Esto es lo que encontramos.

Velocidad: Ritmo SDXL, Calidad de Próxima Generación

En nueve pasos, Z-Image Turbo genera imágenes aproximadamente a la misma velocidad que SDXL, con los 30 pasos habituales, un modelo que se lanzó en 2023.

La diferencia es que la calidad de salida de Z-Image iguala o supera a Flux. En una laptop con una GPU RTX 2060 con 6 GB de VRAM, una imagen tardó 34 segundos.

Flux2, en comparación, tarda aproximadamente diez veces más en generar una imagen comparable.

Realismo: El nuevo estándar

Z-Image Turbo es el modelo de código abierto más fotorrealista disponible ahora para hardware de consumo. Supera a Flux2 directamente, y el modelo destilado base supera a los ajustes finos dedicados al realismo de Flux.

La textura de la piel y el cabello se ven detalladas y naturales. El infame "mentón de Flux" y la "piel de plástico" han desaparecido en su mayoría. Las proporciones corporales son consistentemente sólidas, y los LoRAs que mejoran aún más el realismo ya están circulando.

Generación de texto: Finalmente, palabras que funcionan

Aquí es donde Z-Image realmente brilla. Es el mejor modelo de código abierto para generación de texto dentro de imágenes, rindiendo a la par con Nanobanana de Google y Seedream, modelos que establecen el estándar actual.

Para los hablantes de mandarín, Z-Image es la opción obvia. Entiende el chino de forma nativa y representa los caracteres correctamente.

Consejo profesional: Algunos usuarios han reportado que hacer prompts en mandarín realmente ayuda al modelo a producir mejores resultados, y los desarrolladores incluso publicaron un "potenciador de prompts" en mandarín.

El texto en inglés es igualmente fuerte, con una excepción: palabras largas poco comunes como "descentralizado" pueden confundirlo, una limitación que también comparte Nanobanana.

Conciencia espacial y adherencia al prompt: Excepcional

La adherencia al prompt de Z-Image es sobresaliente. Entiende el estilo, las relaciones espaciales, las posiciones y las proporciones con notable precisión.

Por ejemplo, toma este prompt:

Un perro con un sombrero rojo parado encima de un televisor que muestra las palabras "Decrypt 是世界上最好的加密货币与人工智能媒体网站" en la pantalla. A la izquierda, hay una mujer rubia en traje de negocios sosteniendo una moneda; a la derecha, hay un robot parado encima de un botiquín de primeros auxilios, y una pirámide verde está detrás de la caja. El escenario general es surrealista. Un gato está parado al revés encima de un balón de fútbol blanco, junto al perro. Un astronauta de la NASA sostiene un letrero que dice "Emerge" y está colocado junto al robot.

Como es notable, tuvo solo un error tipográfico, probablemente debido a la mezcla de idiomas, pero aparte de eso, todos los elementos están representados con precisión.

El sangrado de prompts es mínimo, y las escenas complejas con múltiples sujetos permanecen coherentes. Supera a Flux en esta métrica y se mantiene firme contra Nanobanana.

¿Qué sigue?

Alibaba planea lanzar dos variantes más: Z-Image-Base para ajuste fino, y Z-Image-Edit para modificaciones basadas en instrucciones. Si llegan con el mismo pulido que Turbo, el panorama de código abierto está a punto de cambiar dramáticamente.

Por ahora, el veredicto de la comunidad es claro: Z-Image ha tomado la corona de Flux, al igual que Flux una vez destronó a Stable Diffusion.

El verdadero ganador será quien atraiga a más desarrolladores para construir sobre él.

Pero si nos preguntan, sí, Z-Image es nuestro modelo de código abierto orientado al hogar favorito en este momento.

Generally Intelligent Newsletter

A weekly AI journey narrated by Gen, a generative AI model.