Понимание роли цепочки размышлений в LLM
Большие языковые модели (LLM) становятся все более популярными для решения сложных задач, таких как математика и научное мышление, благодаря структурированным подходам цепочки размышлений. Эти модели не просто выдают ответы; они проходят через промежуточные шаги, имитируя логические процессы мышления. Этот метод повышает точность рассуждений и облегчает выявление ошибок. С развитием моделей становится критически важным оценивать не только конечные ответы, но и шаги рассуждений, которые к ним приводят.
Ограничения традиционных PRM в оценке рассуждений
Серьезной проблемой является то, что большинство современных моделей вознаграждения (PRM) оценивают только конечные ответы, игнорируя процессы рассуждений, стоящие за этими выводами. Однако такие продвинутые модели, как Deepseek-R1, теперь генерируют обширные пути рассуждений перед тем, как прийти к окончательным ответам. Эти пары «траектория-ответ» повторно используются для обучения меньших моделей. Проблема в том, что существующие PRM не предназначены для оценки этих полных траекторий, что приводит к ненадежному контролю, который может ухудшить производительность меньших моделей, обученных на данных «траектория-ответ».
Проблемы с обработкой неорганизованных цепочек рассуждений
Традиционные PRM в основном откалиброваны для структурированных, чистых выходных данных, а не для длинных и иногда неорганизованных цепочек рассуждений, производимых продвинутыми LLM. Даже такие сложные PRM, как Qwen2.5-Math-PRM-72B, демонстрируют ограниченные возможности различать высококачественные и низкокачественные промежуточные рассуждения. При применении к выходным данным «траектория-ответ» от моделей, таких как Gemini или Deepseek-R1, эти PRM часто выдают пересекающиеся оценки вознаграждений, что указывает на слабую дискриминацию. Эта ограниченная чувствительность приводит к плохому выбору данных для последующей тонкой настройки, и эксперименты подтверждают, что модели, обученные на данных, выбранных PRM, показывают худшие результаты, чем те, что обучены на данных, отобранных людьми.
Введение ReasonFlux-PRM для надзора на уровне траектории
Исследователи из Университета Иллинойс в Урбана-Шампейн (UIUC), Принстонского университета, Корнеллского университета и ByteDance Seed представили ReasonFlux-PRM как модель, учитывающую траектории, которая оценивает как промежуточные шаги рассуждений, так и конечные ответы. Она интегрирует оценку на уровне шагов и на уровне траектории, что позволяет более тонко понимать качество рассуждений. ReasonFlux-PRM обучена на наборе данных из 10,000 образцов тщательно подобранных математических и научных задач, созданных для имитации реальных форматов «траектория-ответ».
Техническая структура ReasonFlux-PRM
ReasonFlux-PRM работает, оценивая каждый промежуточный шаг в траектории на основе его вклада в конечный ответ. Она использует референсную функцию вознаграждения, которая учитывает запрос, предыдущие шаги рассуждений и конечный вывод для назначения оценок на уровне шагов. Эти оценки затем агрегируются для получения общего вознаграждения за траекторию. Модель поддерживает множество приложений, включая оффлайн-фильтрацию высококачественных обучающих данных, плотное предоставление вознаграждений во время обучения с подкреплением с использованием оптимизации политики на основе GRPO и выбор ответа Best-of-N во время тестирования для повышения качества вывода. Эти возможности делают ReasonFlux-PRM более гибкой и комплексной по сравнению с предыдущими PRM.
Эмпирические результаты на бенчмарках рассуждений
В ходе оценок производительности по задачам, таким как AIME, MATH500 и GPQA-Diamond, ReasonFlux-PRM-7B превзошла Qwen2.5-Math-PRM-72B и данные, отобранные людьми, по нескольким ключевым метрикам. В частности, она достигла прироста точности на 12.1% в контролируемом тонком настроении, улучшения на 4.5% во время обучения с подкреплением и увеличения на 6.3% во время масштабирования на этапе тестирования. Эти достижения особенно значительны, учитывая, что ReasonFlux-PRM меньше по размеру модели. Модель Qwen2.5-14B-Instruct, обученная на данных, выбранных ReasonFlux-PRM, достигла уровней производительности, близких к или превышающим базовые показатели, отобранные людьми. В то же время другие PRM привели к значительным падениям до 26.6% в некоторых бенчмарках.
Влияние и будущее ReasonFlux-PRM
Это исследование решает важное ограничение в обучении и оценке современных моделей рассуждений. Позволяя контролировать как траектории мышления, так и конечные ответы, ReasonFlux-PRM повышает качество обучающих данных и надежность ответов моделей. Оно задает новое направление для систематической оценки и улучшения процессов рассуждений в больших моделях.
Ознакомьтесь с документом и страницей на GitHub. Все заслуги за это исследование принадлежат исследователям этого проекта. Также не забудьте подписаться на нас в Twitter и присоединиться к нашему сообществу из более чем 100,000 участников на ML SubReddit и подписаться на нашу рассылку.