Введение в ComputerRL от Zhipu AI
В быстро меняющемся мире автоматизации на основе ИИ компания Zhipu AI представила ComputerRL — фреймворк, который наделяет агентов возможностью эффективно использовать сложные цифровые рабочие пространства. Это нововведение решает важную задачу в развитии ИИ-агентов: преодоление разрыва между компьютерными агентами и графическими пользовательскими интерфейсами (GUI), созданными людьми.
API-GUI парадигма: Соединение человеко-машинных взаимодействий
Традиционные GUI-агенты часто сталкиваются с трудностями в средах, оптимизированных для человеческих пользователей. ComputerRL вводит API-GUI парадигму, которая объединяет точность API-вызовов с гибкостью действий на основе GUI. Этот гибридный подход позволяет агентам использовать программные API для задач, которые выигрывают от программного контроля, и возвращаться к действиям GUI для более широкой адаптивности.
Автоматизация и упрощение работы с API
Фреймворк автоматизирует создание API с помощью больших языковых моделей (LLMs). Пользователи предоставляют примеры задач, а система анализирует требования, реализует API с использованием соответствующих библиотек Python и генерирует тестовые кейсы. Например, API для приложений Ubuntu, таких как GIMP и LibreOffice, позволяют выполнять задачи, такие как обработка изображений или форматирование документов, значительно быстрее, чем методы только на основе GUI.
Масштабируемая инфраструктура для обучения с подкреплением
Одной из основных проблем при обучении настольных агентов является неэффективность виртуальных сред. ComputerRL преодолевает это с помощью распределенной инфраструктуры обучения с подкреплением, основанной на Docker и gRPC, которая поддерживает тысячи параллельных виртуальных машин Ubuntu. Эта настройка совместима с бенчмарками, такими как AgentBench, и решает проблемы предыдущих систем, такие как ресурсоемкость и узкие места в сети.
Ключевые особенности инфраструктуры
- Легковесное развертывание виртуальных машин через qemu-in-docker.
- Многоузловая кластеризация для масштабируемости.
- Веб-интерфейс для мониторинга.
В сочетании с фреймворком AgentRL это позволяет проводить полностью асинхронное обучение, отделяя сбор данных от обновлений параметров, что значительно повышает эффективность.
Entropulse: Устранение проблем с исследовательским поведением
Чтобы справиться с коллапсом энтропии — распространенной проблемой, когда агенты теряют исследовательское поведение во время длительного обучения с подкреплением — ComputerRL включает в себя метод Entropulse. Этот метод чередует фазы RL с контролируемой доработкой (SFT) на успешных траекториях, восстанавливая энтропию и позволяя поддерживать приросты производительности.
Экспериментальная проверка на бенчмарке OSWorld
Исследовательская группа применяла ComputerRL к открытым моделям, таким как GLM-4-9B-0414 и Qwen2.5-14B, что привело к созданию вариантов AutoGLM-OS. На бенчмарке OSWorld, который оценивает агентов в интерактивных средах Ubuntu, AutoGLM-OS-9B достиг коэффициента успеха 48.1%, обогнав проприетарные модели, такие как OpenAI’s CUA o3 (42.9%) и Claude 4.0 (30.7%).
Практические примеры и анализ ошибок
Кейс-стадии демонстрируют практическую эффективность, например, создание таблиц сводных продаж в LibreOffice Calc или генерация системных отчетов через терминальные команды. Однако анализ ошибок показывает проблемы, такие как визуальные восприятия (25.8% неудач) и координация между несколькими приложениями (34.4%), что указывает на области для доработки.
Будущее автономии на настольных платформах
Смотрим в будущее: ComputerRL закладывает основу для более совершенных агентов, способных справляться с динамическими средами и долгосрочными задачами. Потенциальные новшества включают расширение разнообразия обучения, интеграцию мультимодального восприятия и разработку иерархического планирования.
Заключение
ComputerRL представляет собой важный шаг вперед в области ИИ-агентов, объединяя масштабируемое обучение с подкреплением с инновационными парадигмами взаимодействия, что трансформирует интеллектуальные возможности настольных компьютеров. С открытыми моделями, такими как AutoGLM-OS, которые раздвигают границы возможностей, этот фреймворк прокладывает путь к более способным, универсальным агентам в повседневных вычислениях.
Не забудьте ознакомиться с техническим документом и посетить нашу страницу на GitHub для получения учебных материалов и кодов. Также следите за нами в Twitter и присоединяйтесь к нашему сообществу на Reddit, где уже более 100 000 участников.















