Ускорение обучения крупных моделей рассуждений с помощью полностью асинхронного обучения с подкреплением

AREAL: Ускорение Обучения Больших Моделей Рассуждений с Полностью Асинхронным Обучением с Подкреплением

Введение: Необходимость Эффективного Обучения с Подкреплением для Больших Моделей Рассуждений

Обучение с подкреплением (RL) становится все более популярным в области улучшения больших языковых моделей (LLM), особенно для задач, требующих рассуждений. Модели, известные как большие модели рассуждений (LRM), генерируют промежуточные «мыслительные» шаги перед тем, как предоставить окончательные ответы, что значительно повышает их эффективность при решении сложных задач, таких как математика и программирование. Однако обучение LRM с использованием RL в масштабах требует значительной параллелизации и эффективного проектирования систем. Текущие системы часто полагаются на синхронную пакетную обработку, где генерация должна ждать завершения самого длительного вывода в пакете, что приводит к неэффективному использованию GPU.

Фон: Влияние Обучения с Подкреплением на Способности Рассуждения LLM

Обучение с подкреплением стало широко используемой стратегией для повышения способностей рассуждения LLM, особенно для задач с четко определенными сигналами вознаграждения, такими как математика, программирование и научные рассуждения. Эти модели обычно улучшают свои способности, расширяя цепочку рассуждений во время обучения. Открытые проекты показали, что более компактные модели также могут эффективно справляться с такими задачами. Асинхронные методы RL, доказавшие свою эффективность в играх, недавно стали исследоваться для LLM, но в основном в сценариях с коротким контекстом или ограниченным перекрытием.

Обзор Системы: Введение в AREAL

Исследователи из IIIS, Университета Цинхуа, Ant Research и HKUST представили AREAL, полностью асинхронную систему обучения с подкреплением, разработанную для более эффективного обучения больших моделей рассуждений. В отличие от традиционных синхронных систем, AREAL разделяет процессы генерации и обучения; работники по генерации постоянно производят выводы, в то время как работники по обучению обновляют модель в параллельном режиме по мере поступления новых данных. Этот подход улучшает использование GPU и ускоряет обучение. Для решения проблемы устаревших данных AREAL использует модифицированную версию метода проксимальной оптимизации политики (PPO) и включает оптимизации, такие как динамическая пакетная обработка и параллельные сервисы вознаграждений.

Техническая Архитектура: Ключевые Компоненты и Оптимизации

AREAL разработан для раздельного выполнения генерации и обучения на различных кластерах GPU, что улучшает масштабируемость, эффективность оборудования и гибкость для обучения с подкреплением с использованием больших моделей. Система включает четыре основных компонента:

Работники по генерации, поддерживающие прерываемую генерацию и обновления модели;
Сервис вознаграждений, оценивающий ответы;
Работники по обучению, выполняющие обновления PPO;
Контроллер, координирующий поток данных.

Для решения таких проблем, как устаревшие данные и несогласованные версии политики, AREAL использует обучение с учетом устаревания и декомпозированную цель PPO. Дополнительно, системные оптимизации, такие как конвейерные операции CPU-GPU, неблокирующие асинхронные запросы и динамическая упаковка последовательностей, повышают скорость обучения и эффективность использования GPU.

Экспериментальные Результаты: Масштабирование и Производительность

AREAL был протестирован на задачах математики и программирования с использованием дистиллированных моделей Qwen2 различных размеров. Он достиг в 2–3 раза более быстрого обучения по сравнению с предыдущими методами, такими как DeepScaleR и DeepCoder, при этом сохраняя сопоставимую точность. Система эффективно масштабируется на GPU и обрабатывает длинные контексты (до 32k токенов), превосходя ключевые проектные особенности синхронных методов, такие как прерываемая генерация и динамическое микроупаковка, которые увеличивают скорость обучения и использование оборудования. Алгоритмически, декомпозированная цель PPO в AREAL позволяет стабильное обучение даже с устаревшими данными, в отличие от стандартного PPO.

Заключение: Продвижение Масштабного Обучения RL для Языковых Моделей

В заключение, AREAL представляет собой асинхронную систему обучения с подкреплением, разработанную для повышения эффективности обучения LLM, особенно для задач, таких как программирование и математическое рассуждение. В отличие от традиционных синхронных методов, которые ждут завершения всех выводов перед обновлением, AREAL позволяет генерации и обучению выполняться параллельно. Это разделение сокращает время простоя GPU и увеличивает пропускную способность. Для обеспечения стабильности обучения AREAL вводит стратегии, учитывающие устаревание, и модифицированный алгоритм PPO, который эффективно обрабатывает старые данные обучения. Эксперименты показывают, что он обеспечивает в 2.77 раза более быстрое обучение по сравнению с синхронными системами, не жертвуя точностью, что является значительным шагом вперед в масштабировании RL для больших моделей.