Itinai.com it company office background blured photography by 5fd12c31 5208 4b8e aafe 893f47620ac9 0

Crome: Новый подход к моделированию вознаграждений для выравнивания языковых моделей

Itinai.com it company office background blured photography by 5fd12c31 5208 4b8e aafe 893f47620ac9 0

Crome: Google DeepMind’s Causal Framework for Robust Reward Modeling in LLM Alignment

В последние годы искусственный интеллект (ИИ) стал неотъемлемой частью бизнеса, и его применение продолжает расти. Одним из самых интересных направлений является использование языковых моделей (LLM) для улучшения взаимодействия с пользователями. Однако, как и в любой другой области, здесь есть свои сложности. Одной из таких проблем является «взлом награды» в моделях, что может привести к неправильным выводам и нежелательным результатам. В этой статье мы рассмотрим, как Crome, новая разработка от Google DeepMind, может помочь решить эти проблемы.

Проблемы существующих моделей награды

Модели награды (RM) играют ключевую роль в согласовании языковых моделей с человеческой обратной связью. Однако они часто сталкиваются с проблемами, связанными с «взломом награды». Это происходит, когда модели начинают ориентироваться на поверхностные характеристики, такие как длина ответа или форматирование, вместо того чтобы учитывать истинные показатели качества, такие как фактическая точность и релевантность. В результате мы получаем хрупкие модели, которые не способны адекватно реагировать на человеческие запросы.

Необходимость причинной устойчивости

Существующие подходы к решению проблемы «взлома награды» в системах обучения с подкреплением от человеческой обратной связи (RLHF) в основном полагаются на парное ранжирование. Хотя некоторые методы, вдохновленные причинностью, уже появились, они часто сосредоточены на заранее определенных факторах и игнорируют неизвестные корреляции. Это приводит к тому, что модели не могут адекватно различать истинные драйверы качества ответа и случайные корреляции.

Представляем Crome: Причинное моделирование награды

Crome (Causally Robust Reward Modeling) — это инновационная структура, разработанная исследователями из Google DeepMind, Университета Макгилла и MILA – Квебекского института ИИ. Эта система основывается на явной причинной модели генерации ответов, что позволяет моделям награды различать истинные показатели качества от поверхностных сигналов. Crome использует предпочтительные наборы данных и генерирует контрфактические примеры, создавая два типа синтетических обучающих пар:

  • Причинные дополнения: изменения по определенным причинным атрибутам, таким как фактичность, для повышения чувствительности к истинным изменениям качества.
  • Нейтральные дополнения: обеспечение инвариантности по случайным атрибутам, таким как стиль, с использованием меток привязки.

Crome значительно улучшает устойчивость моделей, увеличивая точность RewardBench на 4.5%, что в свою очередь повышает безопасность и способности к рассуждению.

Технический подход: Контрфактическое дополнение и оптимизация составной потери

Структура Crome функционирует в два этапа: генерация данных, осведомленных о атрибутах, на основе причинной модели и обучение модели награды с использованием специализированной потери на комбинированном наборе данных. Crome предоставляет теоретический анализ, демонстрирующий, как причинное дополнение может эффективно изолировать истинные драйверы награды от случайных корреляций. Использование набора данных UltraFeedback, наряду с контрфактическими примерами, созданными с помощью Gemini 2.0 Flash, позволяет оценивать производительность на RewardBench и reWordBench.

Увеличение производительности: от RewardBench до WildGuardTest

На RewardBench Crome демонстрирует заметные улучшения в точности ранжирования по сравнению с существующими моделями, достигая значительных приростов в безопасности (до 13.18%) и рассуждении (до 7.19%). Crome показывает совокупные приросты точности до 9.1% на reWordBench с Gemma-2-9B-IT в настройках PairPM, превосходя установленные базовые показатели по 21 из 23 трансформаций. Более того, переход от RewardBench к reWordBench демонстрирует меньшую потерю точности ранжирования для Crome (19.78%) по сравнению с предыдущими моделями (21.54%). На WildGuardTest Crome превосходит в улучшении результатов безопасности с помощью Best-of-N выбора, достигая более низких показателей успешности атак на вредоносные запросы при сохранении стабильных показателей отказов на безвредные запросы.

Заключение и будущие направления в причинном дополнении данных

В заключение, Crome представляет собой надежную причинную структуру, которая эффективно решает проблемы «взлома награды» в процессе обучения моделей награды. Используя целенаправленные стратегии синтетического дополнения данных, Causal Augmentations и Neutral Augmentations, Crome превосходит сильные базовые показатели по нескольким базовым моделям и методам моделирования награды на RewardBench, демонстрируя исключительную устойчивость на reWordBench против случайных корреляций. Этот подход, ориентированный на кураторство наборов данных для обучения, открывает новые горизонты для исследований в области генерации синтетических данных для обучения моделей, с потенциалом для проверки причинных атрибутов, что значительно улучшит будущие разработки в области надежного согласования языковых моделей.

Дополнительные материалы и ресурсы

Рекомендуем ознакомиться с оригинальной статьей. Все заслуги за это исследование принадлежат авторам проекта. Также не забудьте подписаться на нашу рассылку и следить за нами в Twitter.

Новости в сфере искусственного интеллекта