Crome: Google DeepMind’s Causal Framework for Robust Reward Modeling in LLM Alignment
В последние годы искусственный интеллект (ИИ) стал неотъемлемой частью бизнеса, и его применение продолжает расти. Одним из самых интересных направлений является использование языковых моделей (LLM) для улучшения взаимодействия с пользователями. Однако, как и в любой другой области, здесь есть свои сложности. Одной из таких проблем является «взлом награды» в моделях, что может привести к неправильным выводам и нежелательным результатам. В этой статье мы рассмотрим, как Crome, новая разработка от Google DeepMind, может помочь решить эти проблемы.
Проблемы существующих моделей награды
Модели награды (RM) играют ключевую роль в согласовании языковых моделей с человеческой обратной связью. Однако они часто сталкиваются с проблемами, связанными с «взломом награды». Это происходит, когда модели начинают ориентироваться на поверхностные характеристики, такие как длина ответа или форматирование, вместо того чтобы учитывать истинные показатели качества, такие как фактическая точность и релевантность. В результате мы получаем хрупкие модели, которые не способны адекватно реагировать на человеческие запросы.
Необходимость причинной устойчивости
Существующие подходы к решению проблемы «взлома награды» в системах обучения с подкреплением от человеческой обратной связи (RLHF) в основном полагаются на парное ранжирование. Хотя некоторые методы, вдохновленные причинностью, уже появились, они часто сосредоточены на заранее определенных факторах и игнорируют неизвестные корреляции. Это приводит к тому, что модели не могут адекватно различать истинные драйверы качества ответа и случайные корреляции.
Представляем Crome: Причинное моделирование награды
Crome (Causally Robust Reward Modeling) — это инновационная структура, разработанная исследователями из Google DeepMind, Университета Макгилла и MILA – Квебекского института ИИ. Эта система основывается на явной причинной модели генерации ответов, что позволяет моделям награды различать истинные показатели качества от поверхностных сигналов. Crome использует предпочтительные наборы данных и генерирует контрфактические примеры, создавая два типа синтетических обучающих пар:
- Причинные дополнения: изменения по определенным причинным атрибутам, таким как фактичность, для повышения чувствительности к истинным изменениям качества.
- Нейтральные дополнения: обеспечение инвариантности по случайным атрибутам, таким как стиль, с использованием меток привязки.
Crome значительно улучшает устойчивость моделей, увеличивая точность RewardBench на 4.5%, что в свою очередь повышает безопасность и способности к рассуждению.
Технический подход: Контрфактическое дополнение и оптимизация составной потери
Структура Crome функционирует в два этапа: генерация данных, осведомленных о атрибутах, на основе причинной модели и обучение модели награды с использованием специализированной потери на комбинированном наборе данных. Crome предоставляет теоретический анализ, демонстрирующий, как причинное дополнение может эффективно изолировать истинные драйверы награды от случайных корреляций. Использование набора данных UltraFeedback, наряду с контрфактическими примерами, созданными с помощью Gemini 2.0 Flash, позволяет оценивать производительность на RewardBench и reWordBench.
Увеличение производительности: от RewardBench до WildGuardTest
На RewardBench Crome демонстрирует заметные улучшения в точности ранжирования по сравнению с существующими моделями, достигая значительных приростов в безопасности (до 13.18%) и рассуждении (до 7.19%). Crome показывает совокупные приросты точности до 9.1% на reWordBench с Gemma-2-9B-IT в настройках PairPM, превосходя установленные базовые показатели по 21 из 23 трансформаций. Более того, переход от RewardBench к reWordBench демонстрирует меньшую потерю точности ранжирования для Crome (19.78%) по сравнению с предыдущими моделями (21.54%). На WildGuardTest Crome превосходит в улучшении результатов безопасности с помощью Best-of-N выбора, достигая более низких показателей успешности атак на вредоносные запросы при сохранении стабильных показателей отказов на безвредные запросы.
Заключение и будущие направления в причинном дополнении данных
В заключение, Crome представляет собой надежную причинную структуру, которая эффективно решает проблемы «взлома награды» в процессе обучения моделей награды. Используя целенаправленные стратегии синтетического дополнения данных, Causal Augmentations и Neutral Augmentations, Crome превосходит сильные базовые показатели по нескольким базовым моделям и методам моделирования награды на RewardBench, демонстрируя исключительную устойчивость на reWordBench против случайных корреляций. Этот подход, ориентированный на кураторство наборов данных для обучения, открывает новые горизонты для исследований в области генерации синтетических данных для обучения моделей, с потенциалом для проверки причинных атрибутов, что значительно улучшит будущие разработки в области надежного согласования языковых моделей.
Дополнительные материалы и ресурсы
Рекомендуем ознакомиться с оригинальной статьей. Все заслуги за это исследование принадлежат авторам проекта. Также не забудьте подписаться на нашу рассылку и следить за нами в Twitter.