Google DeepMind представила Gemini Robotics-ER 1.6: как новая модель меняет индустриальных роботов
Google DeepMind анонсировала релиз Gemini Robotics-ER 1.6 — новой модели для воплощенного ризонинга, которая на 93% точнее распознает показания аналоговых и цифровых приборов. Модель улучшила детекцию в мультикамерных системах, стала безопаснее на 6-10% и доступна через Gemini AP.

- Google DeepMind выпустила Gemini Robotics-ER 1.6 — модель для воплощенного ризонинга, которая отвечает за пространственное понимание и планирование задач роботов, но не управляет приводами.
- Точность чтения приборов (манометры, уровнемеры, смотровые стёкла) достигла 93% благодаря связке визуального ризонинга и исполнения кода, что на 7% выше, чем у предыдущей версии без ризонинга.
- Модель научилась точнее указывать пиксельные координаты, обрабатывать отношения «from-to» и строить траектории, а также лучше детектировать сцены в мультикамерных системах.
- Gemini Robotics-ER 1.6 на 6% точнее распознаёт травмоопасные ситуации на текстовых сценариях и на 10% — на видео по сравнению с Gemini 3.0 Flash.
- Новая модель доступна через Gemini API и Google AI Studio, а DeepMind опубликовал Colab с примерами промптов для типовых задач воплощенного ризонинга.
Google DeepMind представила обновленную модель Gemini Robotics-ER 1.6, которая стала на 93% точнее при чтении показаний промышленных приборов. Новая модель отвечает за пространственное понимание, планирование задач и детекцию успеха робота, но не управляет моторными командами — за них по-прежнему отвечает отдельная VLA-модель Gemini Robotics 1.5.
Обновление критично для индустриальных роботов, таких как Spot от Boston Dynamics, которые используются для обходов промышленных объектов. Совместная разработка с Boston Dynamics позволила модели интерпретировать аналоговые манометры, уровнемеры, смотровые стёкла и цифровые табло. Задача осложняется необходимостью распознавания стрелок, рисок, единиц измерения и корректного сложения разрядов. Для смотровых стёкол модель оценивает уровень жидкости с поправкой на перспективу камеры.
Точность достигается за счёт связки визуального ризонинга и исполнения кода: сначала модель зумит целевой участок снимка, затем расставляет точки по ключевым элементам шкалы и через код считает пропорции и интервалы.
Помимо чтения приборов, модель улучшила базовые навыки: точность указания пиксельных координат выросла на 15%, а обработка отношений «from-to» и построение траекторий стали более надёжными. Значительно повысилась детекция в мультикамерных системах, где сцену одновременно снимают обзорная камера и камера на манипуляторе. Это критично для динамичных сценариев, где робот должен понимать, завершил ли он текущий этап или требуется повторная попытка.
По безопасности Gemini Robotics-ER 1.6 показала лучшие результаты в линейке: стабильность соблюдения физических ограничений выросла на 6% на текстовых сценариях и на 10% — на видео по сравнению с Gemini 3.0 Flash. DeepMind заявляет, что модель стала более надёжной в распознавании травмоопасных ситуаций, что критично для применения в реальных производственных условиях.
Новая модель доступна через Gemini API и Google AI Studio, а DeepMind опубликовал Colab с примерами промптов для типовых задач воплощенного ризонинга. Это упрощает интеграцию модели в существующие системы и позволяет разработчикам быстро тестировать новые сценарии применения.
Выход Gemini Robotics-ER 1.6 — важный шаг в развитии промышленных роботов. Улучшение точности чтения приборов до 93% и рост безопасности на 6-10% открывают новые возможности для автоматизации опасных и монотонных задач на заводах и складах. Особенно примечательно, что модель стала лучше работать в мультикамерных системах, что критично для роботов, действующих в сложных средах. Доступность через API и наличие примеров в Colab ускорят внедрение технологии, но ключевой вопрос остаётся: как быстро отрасль сможет интегрировать такие решения в производственные линии без существенных изменений инфраструктуры.
Владимир Платонов
