Введение: Прогресс в обучении с подкреплением через Chain-of-Thought
Исследователи Шанхайского университета Цзяо Тун представили OctoThinker — новую модель, которая обещает революционизировать подход к обучению с подкреплением (RL) и разработке масштабируемых больших языковых моделей (LLM). В последние годы LLM продемонстрировали значительные успехи в решении сложных задач благодаря методам, основанным на Chain-of-Thought (CoT) и обучении с подкреплением. Модели, такие как Deepseek-R1-Zero, показали впечатляющие результаты, применяя RL непосредственно к базовым моделям. Однако, несмотря на успехи, существует множество вопросов о том, как различные модели ведут себя в процессе обучения с подкреплением.
Ограничения масштабирования RL на моделях Llama
Хотя крупные модели, такие как o1 и o3 от OpenAI, продемонстрировали успехи в обучении с подкреплением, исследование меньших моделей с менее чем 100 миллиардами параметров остается актуальным. Однако большинство усилий сосредоточено на семействе моделей Qwen, что затрудняет воспроизведение результатов на других моделях, таких как Llama. Проблема заключается в недостаточной прозрачности предобучающих процессов, что затрудняет понимание влияния предобучения на масштабирование RL. Исследования показывают, что однократное побуждение улучшает рассуждения в моделях Qwen, но практически не приносит пользы моделям Llama.
Изучение стратегии «Стабильность-Затем-Упадок» в процессе обучения
Исследователи из Шанхайского университета Цзяо Тун изучили, как стратегии промежуточного обучения влияют на динамику RL, сосредоточив внимание на моделях Qwen и Llama. В ходе исследования были получены несколько ключевых выводов:
- Высококачественные математические корпуса, такие как MegaMath-Web-Pro, значительно улучшают результаты как базовых моделей, так и RL.
- Использование данных в формате вопросов и ответов, особенно с длинными CoT-рассуждениями, дополнительно повышает результаты RL.
- Длинные CoT-подсказки могут ввести избыточность и нестабильность в обучение RL.
- Применение масштабирования в процессе промежуточного обучения приводит к улучшению результатов RL.
Исследователи предложили двухступенчатую стратегию промежуточного обучения под названием «Стабильность-Затем-Упадок», в рамках которой базовые модели проходят обучение на 200 миллиардов токенов, а затем на 20 миллиардов токенов по трем ветвям, сосредоточенным на CoT. Этот подход привел к разработке моделей OctoThinker, которые демонстрируют высокую совместимость с RL.
Конфигурация RL и оценка бенчмарков
Для обучения RL использовался набор данных MATH8K, с конфигурацией, включающей глобальный размер обучающей партии 128, 16 ответов на запрос, и размер мини-партии PPO 64. Эксперименты проводились на моделях Llama-3.2-3B-Base и Qwen2.5-3B-Base. Оценка проводилась с использованием few-shot и zero-shot подходов для базовых языковых моделей и моделей, настроенных на RL, по различным задачам, включая GSM8K, MATH500, OlympiadBench и AMC23. В ходе обучения RL модели Qwen показали увеличение длины ответов, оставаясь в разумных пределах, в то время как Llama демонстрировала аномальное поведение с увеличением средней длины ответов до 4096 токенов.
OctoThinker превосходит Llama в совместимости с RL
Каждая ветвь OctoThinker показала улучшение на 10-20% по сравнению с оригинальной моделью Llama, с постоянными приростами по всем размерам при оценке на 13 математических бенчмарках. Семейства OctoThinker-Zero продемонстрировали разнообразные модели мышления во время масштабирования RL, причем вариант OctoThinker-Long показал особенно сильные результаты. При сравнении трех базовых моделей на уровне 3B во время обучения RL, OctoThinker-Long-3B превзошел оригинальную модель Llama-3.2-3B и достиг паритета с Qwen2.5-3B, известной своими мощными рассуждениями и обширным предобучением.
Заключение и будущее: К моделям, готовым к RL
Это исследование подчеркивает причины различий в поведении базовых моделей, таких как Llama и Qwen, во время RL для рассуждений, акцентируя внимание на важной роли промежуточного обучения в масштабировании RL. Двухступенчатая стратегия промежуточного обучения эффективно трансформирует Llama в базовую модель, более подходящую для RL, что culminates в разработке моделей OctoThinker. Будущие направления исследований включают:
- Сбор более качественных математических корпусов для улучшения промежуточного обучения.
- Создание базовых моделей, дружелюбных к RL, с использованием открытых рецептов без дистилляции из моделей с длинными CoT-рассуждениями.
- Разделение формата вопросов и ответов для индивидуальной оценки их вклада.
- Расширение семейства OctoThinker новыми ветвями, такими как интегрированное рассуждение с инструментами.
Все заслуги за это исследование принадлежат исследователям данного проекта. Ознакомьтесь с работой, страницей Hugging Face и GitHub. Не забудьте подписаться на наш Twitter и присоединиться к нашему сообществу из более чем 100 000 участников на ML SubReddit.