Технологічна компанія Google оголосила про партнерство з Boston Dynamics для інтеграції своїх моделей втіленого мислення Gemini Robotics у чотириногого робота Spot, що знаменує крок вперед у застосуванні штучного інтелекту до реальної робототехніки. Співпраця дозволяє роботу краще інтерпретувати своє оточення, ідентифікувати об'єкти та виконувати завдання на основі інструкцій природною мовою, а не покладатися виключно на попередньо запрограмовані процедури.
Інтеграція базується на експериментальній роботі, проведеній під час внутрішнього хакатону 2025 року, де розробники досліджували, як великі мовні моделі та системи візуального мислення можуть покращити автономність Spot. Використовуючи Gemini Robotics, робот може обробляти візуальну інформацію зі своїх камер і перетворювати інструкції високого рівня — наприклад, організацію об'єктів у кімнаті — у скоординовані фізичні дії.
На відміну від традиційного програмування робототехніки, яке часто залежить від жорсткої покрокової логіки, система впроваджує більш гнучкий інтерфейс на основі діалогових підказок. Розробники створили проміжний програмний рівень, використовуючи комплект розробки програмного забезпечення Spot, що дозволяє моделям Gemini спілкуватися з інтерфейсом прикладного програмування робота. Ця структура дозволяє ШІ вибирати з визначеного набору дій, включаючи навігацію, виявлення об'єктів, захоплення зображень, захоплення та розміщення.
У практичних демонстраціях система показала здатність інтерпретувати загальні інструкції та адаптуватися до динамічних середовищ. Наприклад, коли її попросили організувати предмети, модель ШІ аналізувала візуальні дані, ідентифікувала відповідні об'єкти та керувала роботом через послідовність дій. Зворотний зв'язок від робота — такий як завершення завдання або фізичні обмеження — включався в режимі реального часу, дозволяючи системі коригувати свою поведінку без ручного втручання.
Підхід зберігає операційні межі, обмежуючи ШІ попередньо визначеними можливостями в межах API робота, забезпечуючи передбачувану та контрольовану продуктивність. Цей дизайн балансує адаптивність із безпекою, що є ключовим фактором для розгортання ШІ у фізичних системах.
Партнерство також підкреслює потенційні переваги ефективності для розробників. Зменшуючи потребу в обширному ручному кодуванні, інтерфейси природної мови дозволяють інженерам зосередитися на визначенні цілей, а не на програмуванні кожної послідовності дій. Цей зсув може прискорити розробку робототехнічних додатків у таких галузях, як виробництво, інспекція та логістика.
Хоча реалізація залишається експериментальною, демонстрація відображає ширші тенденції у фізичному ШІ, де базові моделі все частіше використовуються для покращення машинного сприйняття та прийняття рішень. Обидві компанії зазначили, що ведуться подальші розробки, включаючи продовження інтеграції систем на базі Gemini у робототехнічні платформи.
Співпраця свідчить про перехід до більш інтуїтивної взаємодії людини з машиною, де складна поведінка робота може керуватися через спрощені вхідні дані. У міру того, як моделі ШІ продовжують розвиватися, такі інтеграції можуть розширити функціональні можливості автономних систем, водночас зменшуючи технічні бар'єри для їх розгортання.
Публікація Google та Boston Dynamics інтегрують моделі Gemini Robotics у Spot для вдосконаленого сприйняття та виконання завдань вперше з'явилася на Metaverse Post.


