6 min lectura
Google DeepMind lanzó dos modelos de IA que buscan hacer a los robots más inteligentes que nunca. En lugar de enfocarse en seguir comandos, el actualizado Gemini Robotics 1.5 y su compañero Gemini Robotics-ER 1.5 hacen que los robots piensen a través de problemas, busquen información en internet y transfieran habilidades entre diferentes agentes robóticos.
Según Google, estos modelos marcan un "paso fundamental que puede navegar las complejidades del mundo físico con inteligencia y destreza".
"Gemini Robotics 1.5 marca un hito importante hacia la resolución de la AGI en el mundo físico", señaló Google en el anuncio. "Al introducir capacidades agénticas, nos estamos moviendo más allá de modelos que reaccionan a comandos y creando sistemas que pueden verdaderamente razonar, planificar, usar herramientas activamente y generalizar".
Y este término "generalización" es importante porque los modelos luchan con ello.
Los robots impulsados por estos modelos ahora pueden manejar tareas como clasificar ropa por color, empacar una maleta basándose en pronósticos del tiempo que encuentran en línea, o verificar las reglas locales de reciclaje para tirar la basura correctamente. Ahora, como humano, puedes decir "obvio, ¿y qué?". Pero para hacer esto, las máquinas requieren una habilidad llamada generalización: la capacidad de aplicar conocimiento a nuevas situaciones.
Los robots, y los algoritmos en general, usualmente luchan con esto. Por ejemplo, si enseñas a un modelo a doblar un pantalón, no será capaz de doblar una camiseta a menos que los ingenieros programen cada paso por adelantado.
Los nuevos modelos cambian eso. Pueden captar señales, leer el entorno, hacer suposiciones razonables y llevar a cabo tareas de múltiples pasos que solían estar fuera de alcance, o al menos extremadamente difíciles para las máquinas.
Pero mejor no significa perfecto. Por ejemplo, en uno de los experimentos, el equipo mostró a los robots un conjunto de objetos y les pidió que los enviaran a la basura correcta. Los robots usaron su cámara para identificar visualmente cada artículo, consultar las últimas pautas de reciclaje de San Francisco en línea, y luego colocarlos donde deberían ir idealmente, todo por su cuenta, tal como lo haría un humano local.
Este proceso combina búsqueda en línea, percepción visual y planificación paso a paso, tomando decisiones conscientes del contexto que van más allá de lo que los robots más antiguos podían lograr. La tasa de éxito registrada fue entre 20% y 40% del tiempo; no ideal, pero sorprendente para un modelo que no era capaz de entender esos matices antes.
Los dos modelos dividen el trabajo. Gemini Robotics-ER 1.5 actúa como el cerebro, determinando qué necesita suceder y creando un plan paso a paso. Puede recurrir a Google Search cuando necesita información. Una vez que tiene un plan, pasa instrucciones en lenguaje natural a Gemini Robotics 1.5, que maneja los movimientos físicos reales.
Hablando más técnicamente, el nuevo Gemini Robotics 1.5 es un modelo de visión-lenguaje-acción (VLA) que convierte información visual e instrucciones en comandos motores, mientras que el nuevo Gemini Robotics-ER 1.5 es un modelo de visión-lenguaje (VLM) que crea planes de múltiples pasos para completar una misión.
Cuando un robot clasifica ropa, por ejemplo, razona internamente a través de la tarea usando una cadena de pensamiento: entendiendo que "clasificar por color" significa que las blancas van en un contenedor y las de colores en otro, luego desglosando los movimientos específicos necesarios para recoger cada prenda de vestir. El robot puede explicar su razonamiento en inglés simple, haciendo sus decisiones menos una caja negra.
El CEO de Google Sundar Pichai intervino en X, señalando que los nuevos modelos permitirán a los robots razonar mejor, planificar con anticipación, usar herramientas digitales como la búsqueda, y transferir aprendizaje de un tipo de robot a otro. Lo llamó el "próximo gran paso de Google hacia robots de propósito general que son verdaderamente útiles".
El lanzamiento pone a Google en el centro de atención compartido con desarrolladores como Tesla, Figure AI y Boston Dynamics, aunque cada empresa está tomando enfoques diferentes. Tesla se enfoca en la producción en masa para sus fábricas, con Elon Musk prometiendo miles de unidades para 2026. Boston Dynamics continúa empujando los límites del atletismo robótico con su Atlas que hace volteretas hacia atrás. Google, mientras tanto, apuesta por IA que hace a los robots adaptables a cualquier situación sin programación específica.
El momento importa. Las empresas de robótica estadounidenses están presionando por una estrategia nacional de robótica, incluyendo el establecimiento de una oficina federal enfocada en promover la industria en un momento cuando China está haciendo de la IA y los robots inteligentes una prioridad nacional. China es el mercado más grande del mundo para robots que trabajan en fábricas y otros entornos industriales, con aproximadamente 1.8 millones de robots operando en 2023, según la Federación Internacional de Robótica con sede en Alemania.
El enfoque de DeepMind difiere de la programación robótica tradicional, donde los ingenieros codifican meticulosamente cada movimiento. En cambio, estos modelos aprenden de la demostración y pueden adaptarse sobre la marcha. Si un objeto se desliza del agarre de un robot o alguien mueve algo a mitad de tarea, el robot se ajusta sin perder el ritmo.
Los modelos se basan en el trabajo anterior de DeepMind de marzo, cuando los robots solo podían manejar tareas individuales como desabrochar una bolsa o doblar papel. Ahora están abordando secuencias que desafiarían a muchos humanos, como empacar apropiadamente para un viaje después de verificar el pronóstico del tiempo.
Para los desarrolladores que quieran experimentar, hay un enfoque dividido para la disponibilidad. Gemini Robotics-ER 1.5 se lanzó el jueves a través de la API de Gemini en Google AI Studio, lo que significa que cualquier desarrollador puede comenzar a construir con el modelo de razonamiento. El modelo de acción, Gemini Robotics 1.5, permanece exclusivo para socios "selectos" (que significa "ricos", probablemente).
Decrypt-a-cookie
This website or its third-party tools use cookies. Cookie policy By clicking the accept button, you agree to the use of cookies.