Введение: Появление GUI-агентов
Современные вычисления все больше ориентируются на графические пользовательские интерфейсы — будь то мобильные устройства, настольные компьютеры или веб. Автоматизация задач в этих средах традиционно ограничивалась скриптами или хрупкими, ручными правилами. Однако недавние достижения в области моделей «визуального языка» открывают новые горизонты для агентов, способных понимать экраны, рассуждать о задачах и выполнять действия, как это делает человек. Команда исследователей Alibaba Qwen представила GUI-Owl и Mobile-Agent-v3, чтобы преодолеть эти вызовы.
GUI-Owl: Основная модель
GUI-Owl — это нативная, многомодальная модель, построенная на базе Qwen2.5-VL и дополнительно обученная на больших объемах данных взаимодействия с GUI. Она объединяет восприятие, понимание, планирование и выполнение действий в одной сети, что позволяет эффективно взаимодействовать на разных платформах и проводить многоходовые рассуждения.
Ключевые инновации GUI-Owl
- Единая политика сети: Интегрирует восприятие, планирование и выполнение в одной нейронной сети, что позволяет принимать решения в несколько этапов.
- Масштабируемая инфраструктура обучения: Облачная среда, охватывающая Android, Ubuntu, macOS и Windows, генерирует качественные данные взаимодействия.
- Разнообразная синтетика данных: Использует различные стратегии синтеза данных для надежного понимания и рассуждения.
Mobile-Agent-v3: Координация многоагентной системы
Mobile-Agent-v3 — это универсальная агентная структура, предназначенная для сложных многоступенчатых и межприложенческих рабочих процессов. Она разбивает задачи на подцели, динамически обновляет планы на основе обратной связи и сохраняет контекстную память.
Обучение и поток данных
Одним из значительных ограничений в разработке GUI-агентов является нехватка качественных и масштабируемых данных для обучения. Команда GUI-Owl решает эту проблему с помощью саморазвивающегося потока данных:
- Генерация запросов: Моделирует реалистичные навигационные потоки и пользовательские вводы.
- Генерация траекторий: Создает последовательности действий и переходов состояний через взаимодействие с виртуальной средой.
- Оценка корректности траектории: Двухуровневая система критиков оценивает каждый шаг и общую траекторию.
Бенчмаркинг и производительность
GUI-Owl и Mobile-Agent-v3 проходят строгую оценку по бенчмаркам автоматизации GUI, охватывающим понимание интерфейса, принятие решений и завершение задач.
Преимущества для бизнеса
Внедрение GUI-Owl и Mobile-Agent-v3 может значительно повысить эффективность бизнеса. Например, компании могут автоматизировать рутинные задачи, такие как обработка заказов или управление клиентскими запросами, что позволяет сократить затраты на трудозатраты и повысить скорость обслуживания.
Заключение: К универсальным GUI-агентам
GUI-Owl и Mobile-Agent-v3 представляют собой значительный шаг к созданию универсальных, автономных GUI-агентов. Объединяя восприятие, понимание, рассуждение и действие в одной модели, команда достигла выдающихся результатов как на мобильных, так и на настольных платформах.















