Введение в CoAct-1
Система CoAct-1, разработанная командой исследователей из USC, Salesforce AI и Университета Вашингтона, представляет собой новаторский многоагентный компьютерный агент, который значительно улучшает автономные операции на компьютере. Эта система сочетает в себе управление через графический интерфейс (GUI) и программное выполнение, что позволяет преодолеть традиционные ограничения, связанные с эффективностью и надежностью в сложных задачах.
Почему CoAct-1? Преодоление разрыва эффективности
Обычные компьютерные агенты работают, полагаясь исключительно на взаимодействие с графическим интерфейсом, имитируя действия человека. Однако такая модель часто оказывается неэффективной, особенно при выполнении сложных, многоэтапных задач. Ошибки, такие как неверный клик, могут полностью сорвать рабочий процесс. CoAct-1 решает эту проблему, предлагая гибридную архитектуру, которая объединяет три специализированных агента.
Гибридная архитектура CoAct-1
- Оркестратор: Высокоуровневый планировщик, который разбивает сложные задачи и динамически распределяет подзадачи между Программистом и Оператором GUI.
- Программист: Выполняет операции на заднем плане, такие как управление файлами и обработка данных, используя Python или Bash, что позволяет избежать громоздких последовательностей действий в GUI.
- Оператор GUI: Использует модель визуального языка для взаимодействия с графическими интерфейсами, когда необходимо человеческое навигационное поведение.
Такой подход позволяет CoAct-1 заменять ненадежные операции с мышью и клавиатурой на более надежное и краткое выполнение кода, сохраняя при этом возможность взаимодействия с GUI, когда это необходимо.
Оценка на OSWorld: Рекордные результаты
OSWorld — это ведущий бенчмарк, который включает 369 задач, охватывающих офисные приложения, IDE, браузеры и многоуровневые рабочие процессы. Каждая задача отражает реальные языковые цели и оценивается по строгой системе баллов.
Результаты
CoAct-1 достигла рекордного уровня успешности — 60.76% в категории задач с более чем 100 шагами, став первым агентом, который превысил 60%. Это значительно опережает таких конкурентов, как GTA-1 и OpenAI CUA 4o.
Ключевые преимущества CoAct-1
- Замена избыточных последовательностей GUI: Для операций, таких как пакетная обработка изображений, один скрипт заменяет десятки кликов, что снижает риск ошибок.
- Динамическое распределение задач: Оркестратор гибко назначает задачи, обеспечивая оптимальное использование кода и GUI.
- Эффективность и надежность: Меньшее количество шагов напрямую снижает вероятность ошибок, что является важным фактором успешного выполнения.
Заключение: Прорыв в автоматизации
CoAct-1 представляет собой значительный шаг вперед в области автоматизации. Система делает кодирование полноценным действием наряду с манипуляциями GUI, что приводит к значительному увеличению успешности и эффективности. Гибридная архитектура и динамическая логика выполнения задают новый стандарт для автономных компьютерных агентов, открывая новые горизонты в реальной автоматизации.
Дополнительные ресурсы
Вы можете ознакомиться с научной статьей и техническими деталями. Также загляните на нашу страницу на GitHub для получения учебных материалов, кода и блокнотов. Не забудьте подписаться на наш Twitter и присоединиться к нашему сообществу на Reddit с более чем 100 тысячами участников.