Революция в автоматизации программной инженерии с Nebius AI
Современный ландшафт автоматизации программной инженерии стремительно меняется благодаря достижениям в области больших языковых моделей (LLMs). Однако большинство методов обучения эффективных агентов основываются на закрытых моделях или дорогостоящих подходах, что оставляет открытые модели LLM с ограниченными возможностями в реальных сценариях. Команда исследователей из Nebius AI и Humanoid представила новый подход к обучению программных агентов с помощью обучения с подкреплением (RL), используя модифицированный алгоритм Decoupled Advantage Policy Optimization (DAPO).
Проблема одностороннего обучения
Большинство методов RL для LLM оптимизируют задачи, такие как математическое мышление или однократная генерация кода, где действия агента вознаграждаются только в конце. Однако программная инженерия требует, чтобы агенты работали с длинными последовательностями действий, интерпретировали сложные обратные связи и сохраняли контекст на протяжении сотен тысяч токенов. Это значительно превышает типичные циклы взаимодействия.
Основные вызовы в RL для SWE
- Долгосрочное рассуждение: Агенты должны поддерживать логическую последовательность на протяжении множества шагов.
- Обратная связь из состояния среды: Действия приводят к значимым наблюдениям, которые направляют последующие решения.
- Разреженные/задержанные вознаграждения: Сигналы успеха обычно появляются только в конце сложных взаимодействий.
- Сложность оценки: Измерение прогресса требует полного развертывания траекторий, что может быть шумным из-за нестабильности тестов.
Техническое решение: модифицированный DAPO и дизайн агентов
Исследовательская команда разработала двухступенчатый процесс обучения для тренировки агента Qwen2.5-72B-Instruct:
- Отказное тонкое обучение (RFT): Агент проходит через 7,249 тщательно отфильтрованных задач SWE, что позволяет улучшить базовую точность с 11% до 20%.
- Обучение с подкреплением с использованием модифицированного DAPO: Включает асимметричное обрезание, динамическую фильтрацию выборки и штрафы за длину эпизодов.
Масштабирование к длинным контекстам и реальным бенчмаркам
Изначально агент обучается с длиной контекста 65k токенов, но на этом этапе производительность останавливается на уровне 32%. Второй этап RL расширяет контекст до 131k токенов и удваивает потолок длины эпизодов, что позволяет обрабатывать более сложные задачи.
Результаты: сокращение разрыва с базовыми моделями
Финальный RL-обученный агент достигает 39% точности Pass@1 на SWE-bench Verified, что вдвое превышает базовый уровень отказного обучения.
Ключевые выводы
- Назначение вознаграждений: RL в условиях разреженных вознаграждений остается сложной задачей.
- Оценка неопределенности: Реальные агенты должны уметь определять, когда воздержаться от действий.
- Инфраструктура: Обучение использовало параллелизм контекста на 16 узлах H200 с распределенной оркестрацией.
Заключение
Данное исследование подтверждает, что RL является мощным инструментом для создания автономных программных инженеров с использованием открытых LLM. Преодолевая долгосрочные, многоповоротные задачи в реальной среде, методология открывает путь к масштабируемой разработке агентов без учителей. С дальнейшими доработками такие RL-процессы обещают эффективную, надежную и универсальную автоматизацию для будущего программной инженерии.