A New MIT Study Shows Reinforcement Learning Minimizes Catastrophic Forgetting Compared to Supervised Fine-Tuning
В мире искусственного интеллекта и машинного обучения существует множество подходов, которые помогают моделям адаптироваться к новым задачам. Однако, как показывает новое исследование MIT, методы обучения с подкреплением (RL) значительно превосходят традиционное супервайзинговое дообучение (SFT) в вопросе сохранения ранее усвоенных знаний. Давайте разберемся, что же это значит на практике.
Что такое катастрофическое забывание в базовых моделях?
Катастрофическое забывание — это явление, при котором модель теряет ранее усвоенные навыки при обучении на новых задачах. Это создает серьезные проблемы для создания долгоживущих и постоянно развивающихся ИИ-агентов. Например, если модель, обученная распознавать изображения, начнет обучаться на текстовых данных, она может забыть, как работать с изображениями.
Почему обучение с подкреплением забывает меньше, чем супервайзинговое дообучение?
Исследование MIT показало, что, хотя оба метода могут достигать высокой производительности на новых задачах, SFT часто перезаписывает ранее усвоенные способности. В отличие от этого, RL сохраняет эти способности. Это связано с тем, как каждый метод изменяет распределение выходных данных модели относительно базовой политики.
Как измерить забывание?
Команда исследователей предложила эмпирический закон забывания, который позволяет количественно оценить степень потери знаний. Это позволяет не только оценивать эффективность моделей, но и разрабатывать новые алгоритмы, которые будут учитывать этот фактор.
Что показывают эксперименты на больших языковых моделях?
В рамках экспериментов использовалась модель Qwen 2.5 3B-Instruct, которая была дообучена на различных задачах, таких как математическое рассуждение и научные вопросы. Результаты показали, что RL улучшает точность на новых задачах, сохраняя при этом стабильную производительность на ранее изученных задачах, в то время как SFT часто жертвует старыми знаниями ради новых.
Как RL сравнивается с SFT в задачах робототехники?
В экспериментах по управлению роботами, где использовалась модель OpenVLA-7B, адаптация на основе RL сохраняла общие навыки манипуляции между задачами. В то время как SFT, хотя и успешен в новой задаче, ухудшал предыдущие способности манипуляции.
Какие выводы можно сделать из исследования ParityMNIST?
В рамках исследования ParityMNIST обе методики достигли высокой точности на новой задаче, но SFT приводил к резкому снижению производительности на вспомогательной задаче FashionMNIST. Это подтверждает, что распределение знаний имеет критическое значение для понимания катастрофического забывания.
Почему важны обновления на основе политики?
Обновления на основе политики в RL позволяют модели использовать собственные выходные данные, что ограничивает обучение распределениями, близкими к базовой модели. Это помогает сохранить уже усвоенные знания, в отличие от SFT, который оптимизирует на основе фиксированных меток.
Каковы более широкие последствия?
- Оценка: После обучения следует учитывать не только точность задач, но и консерватизм в отношении распределения.
- Гибридные методы: Сочетание эффективности SFT с явным минимизацией KL может привести к оптимальным решениям.
- Непрерывное обучение: Принцип RL может стать основой для разработки адаптивных агентов, которые учатся новым навыкам, не забывая старые.
Заключение
Исследование MIT переосмысливает катастрофическое забывание как проблему распределения, управляемую KL-дивергенцией. Обучение с подкреплением забывает меньше, потому что его обновления на основе политики естественным образом смещаются к минимальным решениям KL. Этот принцип открывает новые горизонты для разработки методов, поддерживающих пожизненное обучение в базовых моделях.
Ключевые выводы
- Обучение с подкреплением (RL) лучше сохраняет предыдущие знания, чем супервайзинговое дообучение (SFT).
- Забывание предсказуемо по KL-дивергенции: степень катастрофического забывания сильно коррелирует с KL-дивергенцией между дообученной и базовой политикой.
- Принцип RL: обновления на основе политики сходятся к минимальным решениям KL, что снижает забывание.
- Эксперименты подтверждают устойчивость RL к забыванию, в то время как SFT жертвует старыми знаниями ради новой производительности.
- Будущие алгоритмы должны оцениваться не только по точности новых задач, но и по тому, насколько консервативно они изменяют распределения в пространстве KL.















