La empresa de tecnología Google anunció una asociación con Boston Dynamics para integrar sus modelos de razonamiento incorporado Gemini Robotics en el robot cuadrúpedo Spot, marcando un avance en la aplicación de inteligencia artificial a la robótica del mundo real. La colaboración permite al robot interpretar mejor su entorno, identificar objetos y ejecutar tareas basadas en instrucciones en lenguaje natural, en lugar de depender únicamente de rutinas preprogramadas.
La integración se basa en trabajo experimental realizado durante un hackathon interno en 2025, donde los desarrolladores exploraron cómo los modelos de lenguaje grandes y los sistemas de razonamiento visual podrían mejorar la autonomía de Spot. Al aprovechar Gemini Robotics, el robot puede procesar la entrada visual de sus cámaras y traducir instrucciones de alto nivel, como organizar objetos en una habitación, en acciones físicas coordinadas.
A diferencia de la programación robótica tradicional, que a menudo depende de una lógica rígida paso a paso, el sistema introduce una Interfaz más flexible basada en indicaciones conversacionales. Los desarrolladores crearon una capa de software intermediaria utilizando el kit de desarrollo de software de Spot, permitiendo que los modelos Gemini se comuniquen con la Interfaz de programación de aplicaciones del robot. Este marco permite a la IA seleccionar de un conjunto definido de acciones, incluyendo navegación, detección de objetos, captura de imágenes, agarre y colocación.
En demostraciones prácticas, el sistema mostró la capacidad de interpretar instrucciones generales y adaptarse a entornos dinámicos. Por ejemplo, cuando se le asignó la tarea de organizar elementos, el modelo de IA analizó datos visuales, identificó objetos relevantes y dirigió al robot a través de una secuencia de acciones. La retroalimentación del robot, como la finalización de tareas o restricciones físicas, se incorporó en tiempo real, permitiendo que el sistema ajuste su comportamiento sin intervención manual.
El enfoque mantiene límites operacionales al restringir la IA a capacidades predefinidas dentro de la API del robot, asegurando un rendimiento predecible y controlado. Este diseño equilibra la adaptabilidad con la seguridad, una consideración clave para implementar IA en sistemas físicos.
La asociación también destaca posibles ganancias de eficiencia para los desarrolladores. Al reducir la necesidad de codificación manual extensa, las interfaces de lenguaje natural permiten a los ingenieros centrarse en definir objetivos en lugar de programar cada secuencia de acciones. Este cambio podría acelerar el desarrollo de aplicaciones robóticas en industrias como manufactura, inspección y logística.
Aunque la implementación sigue siendo experimental, la demostración refleja tendencias más amplias en IA física, donde los modelos fundamentales se utilizan cada vez más para mejorar la percepción y la toma de decisiones de las máquinas. Ambas empresas han indicado que hay más desarrollos en curso, incluida la integración continua de sistemas basados en Gemini en plataformas robóticas.
La colaboración sugiere una transición hacia una interacción humano-máquina más intuitiva, donde el comportamiento robótico complejo puede guiarse mediante entradas simplificadas. A medida que los modelos de IA continúan evolucionando, tales integraciones pueden expandir el alcance funcional de los sistemas autónomos mientras reducen las barreras técnicas para su implementación.
La publicación Google y Boston Dynamics integran modelos de robótica Gemini en Spot para percepción avanzada y ejecución de tareas apareció primero en Metaverse Post.


