Доверие к моделям вознаграждения LLM: Master-RM выявляет и исправляет уязвимости

Можно ли доверять моделям вознаграждения LLM? Master-RM раскрывает и исправляет их слабости

В последние годы модели вознаграждения на основе больших языковых моделей (LLM) становятся все более популярными в области обучения с подкреплением с проверяемыми вознаграждениями (RLVR). Эти модели предпочитают использоваться для задач, требующих открытых или сложных ответов, поскольку они способны оценивать ответы, сравнивая их с эталонными. Однако, несмотря на то, что LLM хорошо согласуются с человеческими оценками, они подвержены манипуляциям, основанным на поверхностных подсказках, таких как пунктуация или стандартные фразы, что может привести к ложным положительным сигналам.

Проблема с поверхностными манипуляциями

Исследования, проведенные в Tencent AI Lab, Принстонском университете и Университете Вирджинии, показали, что даже неинформативные ответы, такие как слово «Решение» или знаки препинания, могут вызывать положительные оценки. Это создает серьезные риски для алгоритмов, таких как оптимизация предпочтений и отбор образцов, где точные сигналы вознаграждения имеют критическое значение. Проблема системная и затрагивает как проприетарные модели (например, GPT-4o, Claude-4), так и открытые (например, LLaMA3, Qwen2.5).

Представляем Master-RM: надежная модель вознаграждения

Чтобы противостоять этим уязвимостям, исследовательская группа разработала Master-RM — новую модель вознаграждения, обученную на расширенном наборе данных, содержащем 20 000 противоречивых ответов. Эти ответы включают общие вводные фразы и бессмысленные утверждения, помеченные как недействительные. Обучение на этом обогащенном наборе данных значительно снизило уровень ложных положительных оценок по таким бенчмаркам, как GSM8K, MATH и NaturalReasoning. Master-RM последовательно превосходил как универсальные, так и специализированные модели вознаграждения, достигая почти нулевых уровней ошибок даже в условиях манипуляций.

Ключевые выводы

Системная уязвимость: Все оцененные модели, включая GPT-4o и LLaMA3, показали повышенные уровни ложных положительных оценок при воздействии «мастер-ключевых» манипуляций.
Масштабирование моделей: Меньшие модели буквально сопоставляли токены; модели среднего размера допускали семантические ошибки; более крупные модели переобобщали.
Эффективность увеличения данных: Обучение на смеси действительных и манипулированных ответов значительно улучшает устойчивость без ущерба для точности.

Производительность на бенчмарках

Master-RM была протестирована на пяти различных бенчмарках рассуждений. По сравнению с моделями, такими как Omni-Judge и Multi-sub RM, она сохраняла превосходную согласованность с золотыми стандартами, такими как GPT-4o, при этом демонстрируя минимальные ложные положительные оценки. Даже при оценке с использованием противоречивых вариантов на разных языках и в различных областях задач, Master-RM сохраняла свою надежность.

Заключение

Это исследование выявляет критическую слабость в использовании LLM в качестве судей в системах RLVR. Простые поверхностные паттерны могут подорвать обучающий процесс, вводя в заблуждение функцию вознаграждения. Master-RM предлагает жизнеспособную защиту, демонстрируя, что целенаправленное увеличение данных может укрепить модели вознаграждения против манипуляций. Модель и ее обучающий набор теперь доступны через Hugging Face, открывая путь к более надежной оценке на основе LLM в обучении с подкреплением.

Часто задаваемые вопросы (FAQ)

Q1: Что такое «мастер-ключевые» манипуляции в моделях вознаграждения на основе LLM?

«Мастер-ключевые» манипуляции относятся к поверхностным текстовым подсказкам, таким как пунктуация или стандартные фразы рассуждений, которые могут вызывать ложные положительные оценки в LLM, используемых в качестве оценщиков в системах RLVR.

Q2: Как Master-RM улучшает устойчивость по сравнению с существующими моделями?

Master-RM обучена на тщательно подобранном наборе противоречивых примеров, помеченных как недействительные. Это увеличение данных снижает восприимчивость к поверхностным манипуляциям, сохраняя при этом согласованность с высокоэффективными моделями, такими как GPT-4o.