Itinai.com ai compare futuristic offices of it companies imag 4a5cb5c8 72fd 4257 b1c1 d3aa2dcb17a6 0

КоАкт-1: Новый многопользовательский агент для автоматизации вычислительных задач

Itinai.com ai compare futuristic offices of it companies imag 4a5cb5c8 72fd 4257 b1c1 d3aa2dcb17a6 0

Введение в CoAct-1

Система CoAct-1, разработанная командой исследователей из USC, Salesforce AI и Университета Вашингтона, представляет собой новаторский многоагентный компьютерный агент, который значительно улучшает автономные операции на компьютере. Эта система сочетает в себе управление через графический интерфейс (GUI) и программное выполнение, что позволяет преодолеть традиционные ограничения, связанные с эффективностью и надежностью в сложных задачах.

Почему CoAct-1? Преодоление разрыва эффективности

Обычные компьютерные агенты работают, полагаясь исключительно на взаимодействие с графическим интерфейсом, имитируя действия человека. Однако такая модель часто оказывается неэффективной, особенно при выполнении сложных, многоэтапных задач. Ошибки, такие как неверный клик, могут полностью сорвать рабочий процесс. CoAct-1 решает эту проблему, предлагая гибридную архитектуру, которая объединяет три специализированных агента.

Гибридная архитектура CoAct-1

  • Оркестратор: Высокоуровневый планировщик, который разбивает сложные задачи и динамически распределяет подзадачи между Программистом и Оператором GUI.
  • Программист: Выполняет операции на заднем плане, такие как управление файлами и обработка данных, используя Python или Bash, что позволяет избежать громоздких последовательностей действий в GUI.
  • Оператор GUI: Использует модель визуального языка для взаимодействия с графическими интерфейсами, когда необходимо человеческое навигационное поведение.

Такой подход позволяет CoAct-1 заменять ненадежные операции с мышью и клавиатурой на более надежное и краткое выполнение кода, сохраняя при этом возможность взаимодействия с GUI, когда это необходимо.

Оценка на OSWorld: Рекордные результаты

OSWorld — это ведущий бенчмарк, который включает 369 задач, охватывающих офисные приложения, IDE, браузеры и многоуровневые рабочие процессы. Каждая задача отражает реальные языковые цели и оценивается по строгой системе баллов.

Результаты

CoAct-1 достигла рекордного уровня успешности — 60.76% в категории задач с более чем 100 шагами, став первым агентом, который превысил 60%. Это значительно опережает таких конкурентов, как GTA-1 и OpenAI CUA 4o.

Ключевые преимущества CoAct-1

  • Замена избыточных последовательностей GUI: Для операций, таких как пакетная обработка изображений, один скрипт заменяет десятки кликов, что снижает риск ошибок.
  • Динамическое распределение задач: Оркестратор гибко назначает задачи, обеспечивая оптимальное использование кода и GUI.
  • Эффективность и надежность: Меньшее количество шагов напрямую снижает вероятность ошибок, что является важным фактором успешного выполнения.

Заключение: Прорыв в автоматизации

CoAct-1 представляет собой значительный шаг вперед в области автоматизации. Система делает кодирование полноценным действием наряду с манипуляциями GUI, что приводит к значительному увеличению успешности и эффективности. Гибридная архитектура и динамическая логика выполнения задают новый стандарт для автономных компьютерных агентов, открывая новые горизонты в реальной автоматизации.

Дополнительные ресурсы

Вы можете ознакомиться с научной статьей и техническими деталями. Также загляните на нашу страницу на GitHub для получения учебных материалов, кода и блокнотов. Не забудьте подписаться на наш Twitter и присоединиться к нашему сообществу на Reddit с более чем 100 тысячами участников.

Новости в сфере искусственного интеллекта