Microsoft AI представляет rStar2-Agent: Модель математического вывода на 14 миллиардов параметров, обученная с помощью агентного обучения с подкреплением для достижения передового уровня производительности
Проблема «долгого мышления»
Большие языковые модели добились впечатляющих успехов в математическом выводе, расширяя свои процессы Chain-of-Thought (CoT) — по сути, «думая дольше» через более детализированные шаги рассуждений. Однако у этого подхода есть фундаментальные ограничения. Когда модели сталкиваются с тонкими ошибками в своих цепочках рассуждений, они часто накапливают эти ошибки, а не обнаруживают и исправляют их. Внутренняя саморефлексия часто оказывается неэффективной, особенно когда изначальный подход к рассуждению изначально ошибочен.
Исследовательский отчет Microsoft вводит rStar2-Agent, который использует другой подход: вместо того чтобы просто думать дольше, он обучает модели думать умнее, активно используя инструменты кодирования для проверки, исследования и уточнения своего процесса рассуждения.
Агентный подход
rStar2-Agent представляет собой переход к агентному обучению с подкреплением, где модель с 14 миллиардами параметров взаимодействует с средой выполнения Python на протяжении всего процесса рассуждения. Вместо того чтобы полагаться исключительно на внутреннюю рефлексию, модель может писать код, выполнять его, анализировать результаты и корректировать свой подход на основе конкретной обратной связи.
Это создает динамический процесс решения задач. Когда модель сталкивается со сложной математической задачей, она может сгенерировать начальное рассуждение, написать Python-код для тестирования гипотез, проанализировать результаты выполнения и итеративно двигаться к решению. Такой подход напоминает, как работают человеческие математики — используя вычислительные инструменты для проверки интуиций и исследования различных путей решения.
Проблемы инфраструктуры и решения
Масштабирование агентного обучения с подкреплением представляет собой значительные технические препятствия. Во время обучения одна партия может генерировать десятки тысяч параллельных запросов на выполнение кода, создавая узкие места, которые могут остановить использование GPU. Исследователи решили эту проблему с помощью двух ключевых инфраструктурных нововведений.
- Дистрибутивная служба выполнения кода: Она способна обрабатывать 45,000 параллельных вызовов инструментов с задержкой менее одной секунды. Система изолирует выполнение кода от основного процесса обучения, поддерживая высокую пропускную способность за счет тщательного распределения нагрузки между CPU.
- Динамический планировщик развертывания: Он распределяет вычислительные работы на основе доступности кэша GPU в реальном времени, а не статического назначения. Это предотвращает время простоя GPU, вызванное неравномерным распределением нагрузки — распространенная проблема, когда некоторые цепочки рассуждений требуют значительно больше вычислений, чем другие.
Эти инфраструктурные улучшения позволили завершить весь процесс обучения всего за одну неделю, используя 64 GPU AMD MI300X, демонстрируя, что передовые возможности рассуждения не требуют огромных вычислительных ресурсов при эффективной организации.
GRPO-RoC: Обучение на высококачественных примерах
Основное алгоритмическое нововведение — это Group Relative Policy Optimization with Resampling on Correct (GRPO-RoC). Традиционное обучение с подкреплением в этом контексте сталкивается с проблемой качества: модели получают положительные награды за правильные окончательные ответы, даже когда их процесс рассуждения включает множество ошибок кода или неэффективное использование инструментов.
GRPO-RoC решает эту проблему, внедряя асимметричную стратегию выборки. Во время обучения алгоритм:
- Переизбыточно выбирает начальные развертывания для создания большего пула цепочек рассуждений;
- Сохраняет разнообразие в неудачных попытках, чтобы поддерживать обучение на различных режимах ошибок;
- Фильтрует положительные примеры, подчеркивая цепочки с минимальными ошибками инструментов и более чистым форматированием.
Такой подход обеспечивает обучение модели на высококачественном успешном рассуждении, сохраняя при этом возможность столкновения с разнообразными паттернами неудач. Результат — более эффективное использование инструментов и более короткие, сфокусированные цепочки рассуждений.
Стратегия обучения: от простого к сложному
Процесс обучения разворачивается в три тщательно спроектированных этапа, начиная с ненаправленного обучения с подкреплением, которое сосредотачивается исключительно на следовании инструкциям и форматировании инструментов — намеренно избегая сложных примеров рассуждений, которые могут создать ранние предвзятости.
Этап 1 ограничивает ответы 8,000 токенами, заставляя модель разрабатывать краткие стратегии рассуждений. Несмотря на это ограничение, производительность резко возрастает — с близких к нулю до более чем 70% на сложных тестах.
Этап 2 увеличивает лимит токенов до 12,000, позволяя более сложные рассуждения, сохраняя эффективность первого этапа.
Этап 3 сосредотачивается на самых сложных задачах, фильтруя те, которые модель уже освоила, обеспечивая продолжение обучения на трудных случаях.
Эта прогрессия от кратких к расширенным рассуждениям в сочетании с увеличением сложности задач максимизирует эффективность обучения, минимизируя вычислительные затраты.
Прорывовые результаты
Результаты впечатляют. rStar2-Agent-14B достигает 80.6% точности на AIME24 и 69.8% на AIME25, превосходя гораздо более крупные модели, включая 671B параметров DeepSeek-R1. Возможно, что более важно, он достигает этого с значительно более короткими цепочками рассуждений — в среднем около 10,000 токенов по сравнению с более чем 17,000 у сопоставимых моделей.
Прибыль от эффективности выходит за пределы математики. Несмотря на то, что обучение проводилось исключительно на математических задачах, модель демонстрирует сильное переносное обучение, превосходя специализированные модели на тестах научного рассуждения и сохраняя конкурентоспособную производительность на общих задачах согласования.
Понимание механизмов
Анализ обученной модели выявляет интересные поведенческие паттерны. Токены с высокой энтропией в цепочках рассуждений делятся на две категории: традиционные «разветвляющиеся токены», которые инициируют саморефлексию и исследование, и новая категория «рефлексионных токенов», которые появляются специально в ответ на обратную связь от инструментов.
Эти рефлексионные токены представляют собой форму рассуждения, основанного на окружающей среде, где модель тщательно анализирует результаты выполнения кода, диагностирует ошибки и корректирует свой подход соответственно. Это создает более сложное поведение при решении задач, чем может достичь чистое CoT рассуждение.
Итог
rStar2-Agent демонстрирует, что модели среднего размера могут достигать передового уровня рассуждения благодаря сложному обучению, а не чистой вычислительной мощности. Этот подход указывает на более устойчивый путь к продвинутым возможностям ИИ — путь, который подчеркивает эффективность, интеграцию инструментов и разумные стратегии обучения вместо сырой вычислительной мощности.
Успех этого агентного подхода также указывает на будущее ИИ-систем, которые могут бесшовно интегрировать несколько инструментов и сред, переходя от статической генерации текста к динамическим, интерактивным возможностям решения задач.
















