Dynamic Fine-Tuning (DFT): Закрытие разрыва обобщения в контролируемой подгонке для больших языковых моделей
Контролируемая подгонка (SFT) — это классическая методика адаптации больших языковых моделей (LLMs) к новым задачам, основанная на обучении на данных экспертов. Её простой подход и быстрая реализация поведения, похожего на экспертное, сделали SFT популярным. Однако, как показывает практика, обобщающая способность SFT зачастую оставляет желать лучшего по сравнению с методами, основанными на обучении с подкреплением (RL).
Применение SFT и его ограничения
Методы обучения с подкреплением дают моделям возможность исследовать различные стратегии, что, в свою очередь, повышает качество обобщения. Тем не менее, они требуют значительных вычислительных ресурсов, тщательной подстройки гиперпараметров и наличия сигналов вознаграждения — не всегда доступных в реальных условиях.
Существующие попытки улучшить SFT и динамическое сожаление привели к созданию различных гибридных методов. Например, в системе InstructGPT комбинация начальной фазы SFT с последующей доработкой с помощью RL показывает, как можно достичь лучшего результата. Однако такие подходы тоже имеют свои ограничения.
Dynamic Fine-Tuning (DFT): Невероятный прорыв
Исследовательская группа из Юго-восточного университета, UC Berkeley и других учебных заведений разработала метод Dynamic Fine-Tuning (DFT), стремясь устранить узкие места обобщения SFT LLMs. Согласно математическому анализу, традиционные градиенты SFT закладывают неправильную структуру вознаграждения, что ограничивает способности модели к обобщению. DFT стабилизирует обновления градиентов, динамически изменяя масштаб функции потерь в зависимости от вероятности каждого токена, усиливая обобщающую способность на множестве проверочных бенчмарков.
Как работает DFT?
DFT проверяется в стандартной среде SFT, где доступны только данные экспертных демонстраций, без негативных примеров или моделей вознаграждения. Исследователи использовали базу данных NuminaMath CoT, включающую 860,000 математических задач и решений, собранных из китайских школьных заданий и международных олимпиад.
Результаты применения DFT
В рамках SFT DFT демонстрирует отличные результаты по сравнению со стандартными методами SFT на всех оцененных LLM. Он обеспечивает лучшую обобщающую способность и устойчивость на сложных бенчмарках, где традиционные SFT показывают минимальный, а иногда и отрицательный эффект. Кроме того, DFT показывает более высокую эффективность обучения и более быструю сходимость, превосходя метод Importance-Weighted SFT (iw-SFT) в большинстве сценариев.
В условиях offline RL DFT также прибавляет, он обгоняет как offline, так и online RL базовые методы, набирая в среднем 35.43 балла — на 11.46 пунктов больше, чем лучший offline метод, RFT. Этот успех ставит DFT на уровне с сильнейшим онлайн алгоритмом RL, GRPO, который он обгоняет на 3.43 пункта. На задаче Math500 DFT завоевывает 64.71, немного обойдя GRPO, и значительно превосходит на более сложных задачах, таких как AMC23 и Minerva Math.
Перспективы использования DFT
Метод DFT представляет собой значительный шаг вперед в устранении разрыва обобщения между SFT и RL. Он динамически перенастраивает потери SFT, основываясь на вероятностях токенов, что улучшает стабильность и обобщающую способность модели. Однако, стоит отметить, что текущие оценки DFT ограничены только математическими данными и моделями размерами до 7 миллиардов параметров.
Будущие исследования нацелены на расширение применения DFT к более широким бенчмаркам и более крупным моделям. Также планируются эксперименты в области взаимодействия языковых и визуальных задач, чтобы подтвердить эффективность DFT в новых сферах.
Для получения дополнительных сведений и актуальных новостей подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу на ML SubReddit.