Itinai.com compare offices of it companies blur details image ded90168 62a3 4093 b542 0c63f5590941 2

СинПреф-40М и Скайворк-Награда-V2: Масштабируемая Адаптация Человека и ИИ для Современных Моделей Наград

Itinai.com compare offices of it companies blur details image ded90168 62a3 4093 b542 0c63f5590941 2

Понимание ограничений современных моделей вознаграждения

Модели вознаграждения играют ключевую роль в обучении с подкреплением на основе человеческой обратной связи (RLHF). Однако многие из современных открытых моделей не способны отразить весь спектр сложных человеческих предпочтений. Даже с использованием передовых методов обучения, значительный прогресс остается ограниченным. Основная причина этого заключается в недостатках существующих наборов данных предпочтений, которые часто оказываются слишком узкими, искусственно сгенерированными или плохо проверенными. Хотя некоторые системы на основе правил эффективно работают для четких задач, таких как математика или программирование, они, как правило, не способны уловить нюансы человеческого суждения. Более того, распространенные бенчмарки, такие как RewardBench, становятся менее надежными индикаторами реальной производительности моделей вознаграждения, показывая плохую корреляцию с успехом в последующих задачах.

Проблемы создания данных предпочтений и новые подходы

Традиционно создание качественных данных предпочтений зависело от человеческих аннотаторов, что является трудоемким, дорогостоящим и иногда непоследовательным процессом. Новейшие техники, такие как RLAIF, используют большие языковые модели (LLMs) для автоматизации аннотаций, зачастую превосходя человеческих аннотаторов. Новые подходы стремятся объединить сильные стороны обеих методологий, интегрируя данные, сгенерированные LLM, с проверенными метками от людей. Более того, модели вознаграждения эволюционировали от простых систем оценки, таких как модель Бредли-Терри, к более сложным структурам, включая генеративные и прямые методы оптимизации. Несмотря на наличие множества надежных открытых моделей и наборов данных, проблемы с точным захватом нюансов человеческих предпочтений в различных задачах и языках продолжают существовать.

Представляем SynPref-40M: крупномасштабный набор данных предпочтений человека и ИИ

Исследователи из 2050 Research и Skywork AI представляют SynPref-40M — огромный набор данных из 40 миллионов пар предпочтений, собранный через двухступенчатый процесс человек-ИИ. Человеческие аннотаторы обеспечивают качество через строгую проверку, в то время как LLM помогают в кураторстве данных, используя человеческие рекомендации. Это усилие привело к разработке Skywork-Reward-V2, семейства из восьми моделей вознаграждения (от 0.6B до 8B параметров), обученных на высококачественном подмножестве из 26 миллионов пар предпочтений. Эти модели демонстрируют выдающиеся результаты на семи ведущих бенчмарках, превосходя по выравниванию, безопасности, объективности и устойчивости. Исследование подчеркивает, что успех зависит не только от объема данных, но и от тщательной, итеративной кураторской работы, которая сочетает человеческую экспертизу с масштабируемостью ИИ.

Масштабируемая двухступенчатая кураторская система человек-ИИ

Современные открытые модели вознаграждения часто страдают от переобучения на узких бенчмарках, таких как RewardBench, что ограничивает их полезность в реальном мире. Чтобы решить эту проблему, исследователи предлагают двухступенчатую систему кураторства данных предпочтений. Первая стадия включает аннотации, проверенные человеком, которые направляют LLM в маркировке различных атрибутов предпочтений, за которой следует итеративное обучение и анализ ошибок для уточнения модели вознаграждения. Вторая стадия масштабирует этот процесс, используя проверки согласованности между лучшей и обученной человеком «золотой» моделью вознаграждения, фильтруя надежные образцы без дальнейшего участия человека. Этот подход находит баланс между качеством и масштабируемостью, позволяя создавать десятки миллионов высококачественных пар предпочтений.

Бенчмаркинг Skywork-Reward-V2: компактные, но мощные модели

Серия Skywork-Reward-V2 демонстрирует высокую производительность на нескольких бенчмарках, превосходя как более крупные модели (например, 70B параметров), так и новые генеративные модели вознаграждения. Обученные с использованием Qwen3 (от 0.6B до 8B) и Llama 3.1/3.2 (от 1B до 8B), эти модели достигают высоких оценок на RewardBench, PPE, RM-Bench и JudgeBench, причем лучшая модель (Llama-3.1-8B-40M) превосходит все остальные с средней оценкой 88.6. Несмотря на меньшие размеры моделей, модели Skywork-Reward-V2 выигрывают от высококачественных данных предпочтений (SynPref-40M) и эффективных настроек обучения, что позволяет им лучше обобщать в реальных сценариях RLHF. Примечательно, что даже модели среднего размера, такие как Qwen3-1.7B, превосходят некоторые 70B модели, подчеркивая влияние качества данных и методологии обучения над простым количеством параметров.

Заключение и перспективы: масштабирование с точностью

В заключение, SynPref-40M — это крупномасштабный набор данных предпочтений, созданный через сотрудничество человек-ИИ, объединяющий человеческое суждение с масштабируемостью на основе LLM. Используя кураторское подмножество из 26 миллионов пар предпочтений, команда разработала Skywork-Reward-V2, набор из восьми моделей вознаграждения (от 0.6B до 8B параметров), которые превосходят существующие модели на семи ключевых бенчмарках. Эти модели демонстрируют сильное обобщение в выравнивании с человеческими ценностями, обеспечивая корректность, безопасность и устойчивость к предвзятости. Обширные исследования подтверждают, что как качество данных, так и метод кураторства являются ключевыми факторами производительности. В будущем исследователи планируют изучить новые стратегии обучения, поскольку модели вознаграждения становятся центральными в развитии и выравнивании LLM.

Новости в сфере искусственного интеллекта