Itinai.com it development details code screens blured futuris ee00b4e7 f2cd 46ad 90ca 3140ca10c792 2

Компьютерные агенты нового поколения: Zhipu AI представляет ComputerRL

Itinai.com it development details code screens blured futuris ee00b4e7 f2cd 46ad 90ca 3140ca10c792 2

Введение в ComputerRL от Zhipu AI

В быстро меняющемся мире автоматизации на основе ИИ компания Zhipu AI представила ComputerRL — фреймворк, который наделяет агентов возможностью эффективно использовать сложные цифровые рабочие пространства. Это нововведение решает важную задачу в развитии ИИ-агентов: преодоление разрыва между компьютерными агентами и графическими пользовательскими интерфейсами (GUI), созданными людьми.

API-GUI парадигма: Соединение человеко-машинных взаимодействий

Традиционные GUI-агенты часто сталкиваются с трудностями в средах, оптимизированных для человеческих пользователей. ComputerRL вводит API-GUI парадигму, которая объединяет точность API-вызовов с гибкостью действий на основе GUI. Этот гибридный подход позволяет агентам использовать программные API для задач, которые выигрывают от программного контроля, и возвращаться к действиям GUI для более широкой адаптивности.

Автоматизация и упрощение работы с API

Фреймворк автоматизирует создание API с помощью больших языковых моделей (LLMs). Пользователи предоставляют примеры задач, а система анализирует требования, реализует API с использованием соответствующих библиотек Python и генерирует тестовые кейсы. Например, API для приложений Ubuntu, таких как GIMP и LibreOffice, позволяют выполнять задачи, такие как обработка изображений или форматирование документов, значительно быстрее, чем методы только на основе GUI.

Масштабируемая инфраструктура для обучения с подкреплением

Одной из основных проблем при обучении настольных агентов является неэффективность виртуальных сред. ComputerRL преодолевает это с помощью распределенной инфраструктуры обучения с подкреплением, основанной на Docker и gRPC, которая поддерживает тысячи параллельных виртуальных машин Ubuntu. Эта настройка совместима с бенчмарками, такими как AgentBench, и решает проблемы предыдущих систем, такие как ресурсоемкость и узкие места в сети.

Ключевые особенности инфраструктуры

  • Легковесное развертывание виртуальных машин через qemu-in-docker.
  • Многоузловая кластеризация для масштабируемости.
  • Веб-интерфейс для мониторинга.

В сочетании с фреймворком AgentRL это позволяет проводить полностью асинхронное обучение, отделяя сбор данных от обновлений параметров, что значительно повышает эффективность.

Entropulse: Устранение проблем с исследовательским поведением

Чтобы справиться с коллапсом энтропии — распространенной проблемой, когда агенты теряют исследовательское поведение во время длительного обучения с подкреплением — ComputerRL включает в себя метод Entropulse. Этот метод чередует фазы RL с контролируемой доработкой (SFT) на успешных траекториях, восстанавливая энтропию и позволяя поддерживать приросты производительности.

Экспериментальная проверка на бенчмарке OSWorld

Исследовательская группа применяла ComputerRL к открытым моделям, таким как GLM-4-9B-0414 и Qwen2.5-14B, что привело к созданию вариантов AutoGLM-OS. На бенчмарке OSWorld, который оценивает агентов в интерактивных средах Ubuntu, AutoGLM-OS-9B достиг коэффициента успеха 48.1%, обогнав проприетарные модели, такие как OpenAI’s CUA o3 (42.9%) и Claude 4.0 (30.7%).

Практические примеры и анализ ошибок

Кейс-стадии демонстрируют практическую эффективность, например, создание таблиц сводных продаж в LibreOffice Calc или генерация системных отчетов через терминальные команды. Однако анализ ошибок показывает проблемы, такие как визуальные восприятия (25.8% неудач) и координация между несколькими приложениями (34.4%), что указывает на области для доработки.

Будущее автономии на настольных платформах

Смотрим в будущее: ComputerRL закладывает основу для более совершенных агентов, способных справляться с динамическими средами и долгосрочными задачами. Потенциальные новшества включают расширение разнообразия обучения, интеграцию мультимодального восприятия и разработку иерархического планирования.

Заключение

ComputerRL представляет собой важный шаг вперед в области ИИ-агентов, объединяя масштабируемое обучение с подкреплением с инновационными парадигмами взаимодействия, что трансформирует интеллектуальные возможности настольных компьютеров. С открытыми моделями, такими как AutoGLM-OS, которые раздвигают границы возможностей, этот фреймворк прокладывает путь к более способным, универсальным агентам в повседневных вычислениях.

Не забудьте ознакомиться с техническим документом и посетить нашу страницу на GitHub для получения учебных материалов и кодов. Также следите за нами в Twitter и присоединяйтесь к нашему сообществу на Reddit, где уже более 100 000 участников.

Новости в сфере искусственного интеллекта