Можно ли доверять моделям вознаграждения LLM? Master-RM раскрывает и исправляет их слабости
В последние годы модели вознаграждения на основе больших языковых моделей (LLM) становятся все более популярными в области обучения с подкреплением с проверяемыми вознаграждениями (RLVR). Эти модели предпочитают использоваться для задач, требующих открытых или сложных ответов, поскольку они способны оценивать ответы, сравнивая их с эталонными. Однако, несмотря на то, что LLM хорошо согласуются с человеческими оценками, они подвержены манипуляциям, основанным на поверхностных подсказках, таких как пунктуация или стандартные фразы, что может привести к ложным положительным сигналам.
Проблема с поверхностными манипуляциями
Исследования, проведенные в Tencent AI Lab, Принстонском университете и Университете Вирджинии, показали, что даже неинформативные ответы, такие как слово «Решение» или знаки препинания, могут вызывать положительные оценки. Это создает серьезные риски для алгоритмов, таких как оптимизация предпочтений и отбор образцов, где точные сигналы вознаграждения имеют критическое значение. Проблема системная и затрагивает как проприетарные модели (например, GPT-4o, Claude-4), так и открытые (например, LLaMA3, Qwen2.5).
Представляем Master-RM: надежная модель вознаграждения
Чтобы противостоять этим уязвимостям, исследовательская группа разработала Master-RM — новую модель вознаграждения, обученную на расширенном наборе данных, содержащем 20 000 противоречивых ответов. Эти ответы включают общие вводные фразы и бессмысленные утверждения, помеченные как недействительные. Обучение на этом обогащенном наборе данных значительно снизило уровень ложных положительных оценок по таким бенчмаркам, как GSM8K, MATH и NaturalReasoning. Master-RM последовательно превосходил как универсальные, так и специализированные модели вознаграждения, достигая почти нулевых уровней ошибок даже в условиях манипуляций.
Ключевые выводы
- Системная уязвимость: Все оцененные модели, включая GPT-4o и LLaMA3, показали повышенные уровни ложных положительных оценок при воздействии «мастер-ключевых» манипуляций.
- Масштабирование моделей: Меньшие модели буквально сопоставляли токены; модели среднего размера допускали семантические ошибки; более крупные модели переобобщали.
- Эффективность увеличения данных: Обучение на смеси действительных и манипулированных ответов значительно улучшает устойчивость без ущерба для точности.
Производительность на бенчмарках
Master-RM была протестирована на пяти различных бенчмарках рассуждений. По сравнению с моделями, такими как Omni-Judge и Multi-sub RM, она сохраняла превосходную согласованность с золотыми стандартами, такими как GPT-4o, при этом демонстрируя минимальные ложные положительные оценки. Даже при оценке с использованием противоречивых вариантов на разных языках и в различных областях задач, Master-RM сохраняла свою надежность.
Заключение
Это исследование выявляет критическую слабость в использовании LLM в качестве судей в системах RLVR. Простые поверхностные паттерны могут подорвать обучающий процесс, вводя в заблуждение функцию вознаграждения. Master-RM предлагает жизнеспособную защиту, демонстрируя, что целенаправленное увеличение данных может укрепить модели вознаграждения против манипуляций. Модель и ее обучающий набор теперь доступны через Hugging Face, открывая путь к более надежной оценке на основе LLM в обучении с подкреплением.
Часто задаваемые вопросы (FAQ)
Q1: Что такое «мастер-ключевые» манипуляции в моделях вознаграждения на основе LLM?
«Мастер-ключевые» манипуляции относятся к поверхностным текстовым подсказкам, таким как пунктуация или стандартные фразы рассуждений, которые могут вызывать ложные положительные оценки в LLM, используемых в качестве оценщиков в системах RLVR.
Q2: Как Master-RM улучшает устойчивость по сравнению с существующими моделями?
Master-RM обучена на тщательно подобранном наборе противоречивых примеров, помеченных как недействительные. Это увеличение данных снижает восприимчивость к поверхностным манипуляциям, сохраняя при этом согласованность с высокоэффективными моделями, такими как GPT-4o.
Q3: Где я могу получить доступ к Master-RM и ее обучающим данным?
Как модель, так и набор данных доступны для публичного доступа на Hugging Face.