En Resumen

  • Microsoft presentó MAI-Image-2, su generador de imágenes propio, que ya ocupa el tercer lugar en Arena.ai, detrás de Google y OpenAI.
  • El modelo destaca por fotorrealismo, generación de texto en imágenes y manejo de escenas complejas, superando a GPT-Image en pruebas prácticas.
  • Sus limitaciones incluyen solo resolución 1:1, 15 imágenes antes de un bloqueo de 24 horas y ausencia de edición, inpainting o imágenes de referencia.

Microsoft ha estado desarrollando en silencio su propio generador de imágenes. Anunciado el jueves por el equipo de IA Superinteligencia de la compañía, MAI-Image-2 ya se ha posicionado en el #3 del ranking de Arena.ai—solo por detrás de los modelos de Google y OpenAI—convirtiendo a Microsoft en un jugador legítimo en un espacio que anteriormente había tercerizado a sus socios.

Vale la pena detenerse en ese último punto. Microsoft ha estado pagando miles de millones a OpenAI para impulsar Copilot y Bing Image Creator. Desarrollar un modelo de imágenes propio es una interesante jugada comercial.

MAI-Image-2 ya está disponible en el MAI Playground, con una implementación gradual en Copilot y Bing Image Creator en curso. El acceso a la API está actualmente limitado a clientes empresariales seleccionados, con una disponibilidad más amplia en Microsoft Foundry próximamente.

El equipo señala que desarrolló el modelo conversando directamente con fotógrafos, diseñadores y narradores visuales. De esas conversaciones surgieron tres aspectos: mejor fotorrealismo, generación de texto dentro de imágenes más confiable y mayor capacidad para construir escenas detalladas e imaginativas. Si ese proceso se tradujo en una herramienta realmente útil es otra pregunta.

Poniendo a Prueba MAI-Image-2

Lo primero que notas al abrir el MAI Playground es lo sobrio que es. La interfaz es minimalista y limpia, visualmente ubicada entre Claude y Hume, sin nada de la energía de dashboard maximalista de Midjourney ni la experiencia de chatbot de Gemini.

Las imágenes en sí son genuinamente bastante sólidas. El fotorrealismo es un punto fuerte real aquí—el modelo tiene un buen dominio de la luz natural, la textura de las superficies y las relaciones espaciales. No alcanza del todo el nivel del Nano Banana Pro de Google, que sigue liderando el ranking por una razón, pero en algunas pruebas de realismo se acerca sorprendentemente.

Un mejor prompting probablemente lo lleva más lejos; nuestros resultados iniciales mejoraron notablemente a medida que afinamos nuestras descripciones.

Incluso escenas complejas e irreales con parámetros que desafiaban la lógica fueron manejadas correctamente por el modelo, superando a otros en detalles como las proporciones corporales, la posición de las extremidades, la profundidad y el posicionamiento espacial.

Por ejemplo, esta imagen de un perro montando una bicicleta en medio del océano es, sin duda, la más precisa que hemos generado en pruebas sin instrucciones previas.

La generación de texto es un punto destacado real. MAI-Image-2 manejó tipografías complejas con mucha más consistencia de la esperada—grandes bloques de texto en imágenes, carteles, señalética—sin el típico desorden que se ve en la mayoría de los modelos.

Incluso lo pusimos a prueba con texto multilingüe: logró generar algunos caracteres chinos hanzi, aunque la precisión no fue perfecta. Aun así, el hecho de que lo intentara y llegara parcialmente es notable.

El modelo entiende bien el estilo artístico, alternando entre realismo fotográfico, estéticas de diseño gráfico y estilos ilustrados sin mayor fricción. Lee los prompts con cuidado, incluidas las instrucciones estilísticas, y entrega algo coherente al final. Para una amplia gama de tareas visuales, es versátil.

Ahora, las verdades más difíciles.

MAI-Image-2 tiene filtros agresivos—más que Google Imagen y más que DALL-E de OpenAI. Realizamos nuestra prueba habitual con un dibujo animado de una araña persiguiendo a una mujer, y obtuvimos un rechazo directo. Insistimos: es un dibujo—de una araña. La moderación de contenido aquí está calibrada a un nivel que frustrará a cualquiera que trabaje en áreas creativas grises, ilustración de terror o cualquier cosa que se perciba como remotamente tensa.

Los límites de uso son igualmente restrictivos. Cada generación activa un tiempo de espera de 30 segundos. Después de 15 imágenes, quedas bloqueado durante 24 horas. Para experimentación casual, es manejable. Para cualquier tipo de flujo de trabajo de producción, es un impedimento total en la interfaz nativa.

Además, solo hay una resolución: 1:1. Sin paisaje, sin retrato, sin proporciones personalizadas. En 2026, esa es una limitación significativa—especialmente para contenido en redes sociales, que es precisamente donde Microsoft presumiblemente quiere integrarlo en Copilot.

Y hablando de Copilot: MAI-Image-2 aún no está ahí. La implementación está en curso, pero a día de hoy, el producto donde realmente se querría no lo tiene disponible.

Una pieza más que falta: esto es puramente una herramienta de texto a imagen. Sin imagen a imagen, sin inpainting, sin outpainting, sin soporte para imágenes de referencia. Para los usuarios que esperan algo cercano a las capacidades de edición de Firefly o Midjourney, esto se sentirá incompleto.

Nuestra Opinión

MAI-Image-2 rinde mejor de lo que sugiere su posición en el ranking. En nuestras pruebas prácticas, superó a GPT-Image en calidad de imagen y renderización de texto, lo cual es interesante dado que GPT-Image se ubica por encima en el ranking de Arena.ai. Las posiciones en los benchmarks no siempre cuentan la historia completa.

La lógica estratégica detrás de su desarrollo es clara. Microsoft ha estado licenciando los modelos de imágenes de OpenAI para Copilot mientras simultáneamente financiaba al mayor competidor de OpenAI, Anthropic. Tener un modelo propio capaz reduce la dependencia, recorta costos a escala y le da a Microsoft algo en qué iterar sin pedir permiso.

Desde ese ángulo, MAI-Image-2 no necesita superar a Nano Banana. Solo necesita ser lo suficientemente bueno—y lo es.

El problema son las restricciones del producto. Los límites de generación, la política de contenido estricta, la salida solo en 1:1, las funciones de edición ausentes, etc.; estas son el tipo de limitaciones que ponen un techo a la utilidad en el mundo real. Un modelo tan capaz merece una infraestructura que esté a la altura.

MAI-Image-2 es una sólida base técnica obstaculizada por decisiones de producto conservadoras. Una vez que Microsoft afloje las restricciones, esto se convierte en un contendiente serio. Por ahora, es una prometedora vista previa de lo que el stack de imágenes de Microsoft podría llegar a ser.

Daily Debrief Newsletter

Start every day with the top news stories right now, plus original features, a podcast, videos and more.