En Resumen
- Google presentó Gemini Omni, un modelo multimodal de IA que combina Gemini con sus herramientas Veo, Nano Banana y Genie.
- Demis Hassabis, CEO de DeepMind, describió a Omni como un paso hacia la inteligencia artificial general durante Google I/O 2026.
- La compañía indicó que Gemini Omni Flash debutará en Flow y Flow Music, manteniendo personajes y escenas consistentes tras ediciones.
Google el martes presentó Gemini Omni, un nuevo modelo de IA multimodal que combina los modelos de IA Gemini de la compañía con sus herramientas de generación de medios, como Veo, Nano Banana y Genie.
El anuncio se realizó durante Google I/O 2026, donde el CEO de DeepMind, Demis Hassabis, describió a Gemini Omni como "nuestro nuevo modelo que puede crear cualquier cosa a partir de cualquier entrada".
"Combina la inteligencia de Gemini con lo mejor de nuestros modelos de medios generativos para un nuevo nivel de comprensión del mundo, multimodalidad y edición", dijo Hassabis.
Google dijo que el primer lanzamiento, Gemini Omni Flash, se llevará a cabo a través de Flow, la plataforma de creación cinematográfica con IA de la compañía, y Flow Music, que se centra en la creación musical asistida por IA.
We’re dropping Gemini Omni: our first step towards a model that can create anything from anything - starting with video.
It combines Gemini’s intelligence with our generative media systems - representing a leap forward in world understanding, multimodality, and editing 🧵 pic.twitter.com/GAtqzr0VIV
— Google DeepMind (@GoogleDeepMind) May 19, 2026
Luego de calificar a Omni como un "paso hacia la inteligencia artificial general", Hassabis dijo que Google ha pasado el último año extendiendo Gemini a "una IA de modelo del mundo que puede entender y simular el mundo".
El lanzamiento de Omni de Google se basa en la popularidad de Nano Banana, el modelo anterior de edición de imágenes con IA de la compañía que ayudó a impulsar a Gemini al primer puesto de la App Store de Apple el pasado septiembre. Nano Banana se utilizó ampliamente para la generación de memes y la edición conversacional de imágenes, ayudando brevemente a Gemini a superar a ChatGPT en descargas de aplicaciones e interés en la búsqueda de Google por primera vez desde que el chatbot de OpenAI se lanzó en 2022.
En la comparación de Decrypt a principios de este mes, Nano Banana 2 superó a GPT Image 2 de OpenAI en las pruebas de ilustración anime y composición espacial, mientras que el modelo de OpenAI tuvo un mejor desempeño con el fotorrealismo y la representación de texto. Google ahora parece estar extendiendo muchas de esas funciones de edición al video a través de Gemini Omni.
Durante la presentación, Google demostró cómo Omni generaba un video educativo en estilo claymation que explicaba el plegamiento de proteínas. La compañía también mostró herramientas de edición conversacional que modificaron un video selfie agregando nuevos elementos visuales y cambiando el entorno circundante.
Google dice que Omni puede mantener los mismos personajes, fondos y movimiento consistentes incluso después de que los usuarios realicen cambios en un video, algo con lo que muchos modelos de video con IA tienen dificultades. La compañía también dice que Omni utiliza las capacidades de razonamiento de Gemini para comprender instrucciones más amplias, de modo que los usuarios puedan describir el tipo de escena que desean sin tener que explicar manualmente cada detalle.
La compañía también presentó Flow Agent, un asistente de IA integrado en Google Flow que puede generar ideas para escenas, organizar activos, recomendar cambios de trama y editar proyectos por lotes.
Las actualizaciones adicionales incluyen Flow Tools, que permite a los usuarios crear flujos de trabajo de edición personalizados utilizando prompts en lenguaje natural sin experiencia en programación.
Hassabis dijo que Google está comenzando con la generación de video, pero planea expandir el acceso a Omni, describiéndolo como la visión a largo plazo detrás del diseño multimodal de Gemini.
"Este siempre fue nuestro objetivo con Gemini, y por eso lo construimos para que fuera multimodal desde el principio", afirmó.
Google no respondió de inmediato a una solicitud de comentarios de Decrypt.

