Google DeepMind Releases Gemini Robotics On-Device: Local AI Model for Real-Time Robotic Dexterity
Google DeepMind представил Gemini Robotics On-Device — компактную локальную версию своей мощной модели «видео-язык-действие» (VLA), которая приносит переданный интеллект напрямую на устройства. Это важный шаг вперед в области воплощенного ИИ, позволяющий устранить необходимость в постоянном подключении к облаку, сохраняя при этом гибкость и высокую точность, характерные для модели Gemini.
Местный ИИ для реальной робототехники
Традиционно модели VLA высокой мощности зависели от облачного вычисления из-за ограничений по вычислительным ресурсам и памяти. С выходом Gemini Robotics On-Device DeepMind предлагает архитектуру, которая полностью работает на локальных GPU, встроенных в роботы. Это особенно актуально для сценариев, где важны высокая скорость реакции и ограниченная пропускная способность — например, в домах, больницах и на производственных площадках.
Ключевые особенности Gemini Robotics On-Device
- Полная локальная работа: Модель функционирует непосредственно на бортовом GPU робота, обеспечивая замкнутое управление без зависимости от интернета.
- Двурукая ловкость: Она выполняет сложные координированные задачи манипуляции двумя руками благодаря предварительному обучению на наборе данных ALOHA и последующей донастройке.
- Совместимость с многими платформами: Хотя модель обучалась на конкретных роботах, она обобщает свои возможности для различных платформ, включая гуманоидов и промышленные манипуляторы с двумя руками.
- Обучение с несколькими примерами: Модель поддерживает быстрое освоение новых задач с помощью всего 50-100 демонстраций, что значительно сокращает время разработки.
Практические возможности и приложения
Задачи манипуляции, такие как складывание одежды, сборка компонентов или открытие банок, требуют тонкого моторного контроля и интеграции обратной связи в реальном времени. Gemini Robotics On-Device предоставляет эти возможности, снижаая задержки в коммуникации и улучшая реакцию. Это особенно критично для применения в условиях, где связь ненадежна, или где требуется защита данных.
Возможные приложения включают:
- Роботы для помощи по дому, способные выполнять повседневные дела.
- Медицинские роботы, помогающие в реабилитации или заботе о пожилых людях.
- Системы автоматизации на производстве, нуждающиеся в адаптивных работниках для сборочных линий.
Инструменты для разработчиков
Вместе с моделью DeepMind выпустил SDK для Gemini Robotics, который предоставляет инструменты для тестирования, донастройки и интеграции локальной модели в индивидуальные рабочие процессы. SDK поддерживает:
- Тренировочные конвейеры для задачи-ориентированной настройки.
- Совместимость с различными типами роботов и настройками камер.
- Оценку в физическом симуляторе MuJoCo, который был Open Source с новыми бенчмарками, специально разработанными для оценки двуручной ловкости.
Gemini Robotics и будущее локального воплощенного ИИ
Широкая инициатива Gemini Robotics сосредоточена на объединении восприятия, рассуждений и действий в физических средах. Этот релиз локальной модели сокращает разрыв между основными исследованиями в области ИИ и развертываемыми системами, которые могут функционировать автономно в реальном мире.
Хотя большие модели VLA, такие как Gemini 1.5, показали впечатляющую обобщаемость, их задержка в выводе и зависимость от облака ограничивали их применение в робототехнике. Локальная версия решает эти проблемы с помощью оптимизированных вычислительных графиков, сжатия моделей и архитектур, специфичных для задач, адаптированных для встроенных GPU.
Широкие последствия для робототехники и развертывания ИИ
Отсоединение мощных моделей ИИ от облака с Gemini Robotics On-Device открывает путь к масштабируемой и защищенной от данных робототехники. Это соответствует растущему тренду к edge AI, где вычислительные нагрузки смещаются ближе к источникам данных. Это не только повышает безопасность и скорость реакции, но и гарантирует, что роботизированные агенты могут работать в условиях строгих требований к задержке или конфиденциальности.
Как только DeepMind продолжит расширять доступ к своему стеку робототехники — включая открытие своей платформы симуляции и выпуск бенчмарков — исследователи по всему миру получают лучшие возможности для экспериментов, итераций и создания надежных, работающих в реальном времени роботизированных систем.