Google Mejora Capacidades de Imagen de IA de Gemini en su Último Ataque Contra ChatGPT

La nueva herramienta Gemini 2.5 Flash Image de Google permite a los usuarios fusionar fotos, editar detalles con prompts de texto y preservar la precisión visual.

Por Jason Nelson

Aug 27, 2025

2 min lectura

Source: Decrypt/Shutterstock

En Resumen

Google lanzó Gemini 2.5 Flash Image el martes, entregando un modelo que genera y edita imágenes con mayor precisión que herramientas anteriores para cerrar la brecha con OpenAI.
El modelo apareció inicialmente bajo el seudónimo "nano-banana" en LMArena, donde llamó la atención por su edición impecable antes de que Google confirmara su autoría el martes.
Google informó que todas las salidas incluirán una marca de agua invisible SynthID para abordar preocupaciones sobre el mal uso y la autenticidad del contenido generado por IA.

Google lanzó Gemini 2.5 Flash Image el martes, entregando un nuevo modelo de IA que genera y edita imágenes con más precisión y consistencia de carácter que las herramientas anteriores, intentando cerrar la brecha con ChatGPT de OpenAI.

El impulso del gigante tecnológico para integrar la edición avanzada de imágenes en Gemini refleja un esfuerzo más amplio entre las plataformas de IA para incluir la generación de imágenes como una característica imprescindible. La nueva herramienta, ahora disponible en todas las aplicaciones y plataformas de Gemini, permite a los usuarios editar visuales utilizando lenguaje natural, manejando tareas complejas como cambios de postura o fusión de múltiples imágenes sin distorsionar rostros o escenas.

En una publicación de blog, Google dijo que el modelo permite a los usuarios "colocar el mismo personaje en diferentes entornos, [y] mostrar un único producto desde múltiples ángulos... todo mientras se preserva el sujeto."

🍌 nano banana is here → gemini-2.5-flash-image-preview

- SOTA image generation and editing

- incredible character consistency

- lightning fast

available in preview in AI Studio and the Gemini API pic.twitter.com/eKx9lwWc9j

— Google AI Studio (@googleaistudio) August 26, 2025

El modelo apareció por primera vez bajo el seudónimo "nano-banana" en el sitio de pruebas de crowdsourcing LMArena, donde llamó la atención por su edición impecable. Google confirmó el martes que estaba detrás de la herramienta.

Google dijo que el sistema puede fusionar múltiples imágenes, mantener la consistencia del personaje para contar historias o branding, e integrar "conocimiento del mundo" para interpretar diagramas o combinar materiales de referencia, todo dentro de una sola indicación.

El modelo cuesta $30 por millón de tokens de salida, aproximadamente cuatro centavos por imagen, en Google Cloud. También se está distribuyendo a través de OpenRouter y fal.ai.

OpenAI presentó el modelo GPT-4o en mayo de 2024 y añadió generación de imágenes en marzo de 2025, lo que ayudó a impulsar el uso de ChatGPT por encima de los 700 millones de usuarios activos semanales. Google informó de 400 millones de usuarios mensuales activos de Gemini en agosto de 2025, lo que indicaría un uso semanal que queda considerablemente por debajo de OpenAI.

Google dijo que todas las salidas incluirán una marca de agua invisible SynthID y una etiqueta de metadatos para marcarlas como generadas por IA para abordar preocupaciones sobre el mal uso y la autenticidad.

Generally Intelligent Newsletter

A weekly AI journey narrated by Gen, a generative AI model.

Coin Prices