Что такое ProRLv2?
ProRLv2 — это последняя версия технологии длительного обучения с подкреплением (ProRL), разработанная NVIDIA для расширения возможностей рассуждений в больших языковых моделях (LLMs). Эта версия увеличивает количество шагов обучения с 2000 до 3000, что позволяет систематически исследовать, как длительное обучение с подкреплением может открывать новые горизонты, креативность и высокоуровневое рассуждение, которые ранее были недоступны, даже для более мелких моделей, таких как Nemotron-Research-Reasoning-Qwen-1.5B-v2.
Ключевые инновации ProRLv2
- REINFORCE++-базис: Надежный алгоритм RL, который позволяет оптимизацию на длинных горизонтах, справляясь с нестабильностью, характерной для RL в LLM.
- Регуляризация KL-дивергенции и сброс эталонной политики: Периодически обновляет эталонную модель с текущей лучшей контрольной точкой, что позволяет поддерживать стабильный прогресс и продолжать исследование.
- Декуплированное обрезание и динамическая выборка (DAPO): Стимулирует открытие разнообразных решений, повышая вероятность маловероятных токенов и концентрируя сигналы обучения на промежуточных задачах.
- Запланированное наказание за длину: Применяется циклически, помогая сохранить разнообразие и предотвратить коллапс энтропии по мере увеличения длины обучения.
- Увеличение шагов обучения: ProRLv2 переносит горизонт обучения RL с 2000 до 3000 шагов, проверяя, насколько большее количество шагов может расширить способности рассуждения.
Как ProRLv2 расширяет возможности рассуждения LLM
Модель Nemotron-Research-Reasoning-Qwen-1.5B-v2, обученная с использованием ProRLv2 на 3000 шагах RL, устанавливает новый стандарт для открытых моделей с 1.5 миллиарда параметров в задачах рассуждения, включая математику, программирование, науку и логические задачи:
- Производительность превосходит предыдущие версии и конкурентов, таких как DeepSeek-R1-1.5B.
- Устойчивые улучшения с увеличением шагов RL: Более длительное обучение приводит к постоянным улучшениям, особенно в задачах, где базовые модели показывают низкие результаты.
- Обобщение: ProRLv2 увеличивает точность pass@1 и позволяет использовать новые стратегии рассуждения и решения задач, которые не встречались во время обучения.
- Бенчмарки: Улучшения включают средние приросты pass@1 на 14.7% в математике, 13.9% в программировании, 54.8% в логических задачах, 25.1% в STEM-рассуждениях и 18.1% в задачах следования инструкциям.
Почему это важно
Главное открытие ProRLv2 заключается в том, что продолжительное обучение с подкреплением, с тщательным исследованием и регуляризацией, надежно расширяет то, что могут изучать и обобщать LLM. Вместо того чтобы достигать раннего плато или переобучаться, длительное RL позволяет меньшим моделям соперничать с гораздо большими в области рассуждений. Это демонстрирует, что масштабирование RL так же важно, как и размер модели или набор данных.
Использование Nemotron-Research-Reasoning-Qwen-1.5B-v2
Последняя контрольная точка доступна для тестирования на Hugging Face. Загрузка модели:
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("nvidia/Nemotron-Research-Reasoning-Qwen-1.5B")
model = AutoModelForCausalLM.from_pretrained("nvidia/Nemotron-Research-Reasoning-Qwen-1.5B")
Заключение
ProRLv2 переопределяет границы рассуждений в языковых моделях, показывая, что законы масштабирования RL важны не меньше, чем размер или данные. Благодаря продвинутой регуляризации и умным графикам обучения, он позволяет осуществлять глубокие, креативные и обобщаемые рассуждения даже в компактных архитектурах. Будущее заключается в том, насколько далеко может продвинуться RL, а не только в том, насколько большими могут быть модели.
Для дальнейшего изучения посетите наш неофициальный блог и модель на Hugging Face. Не забудьте подписаться на нашу страницу в Twitter и присоединиться к нашему сообществу в Reddit, нас уже более 100 тысяч! Подпишитесь на нашу рассылку новостей, чтобы не пропустить важные обновления.