FlexOlmo: Модульное обучение языковых моделей без обмена данными

Вы больше не обязаны делиться данными для обучения языковой модели — FlexOlmo демонстрирует, как это сделать

Развитие крупных языковых моделей (LLM) традиционно требовало централизованного доступа к обширным наборам данных, многие из которых являются конфиденциальными, защищенными авторским правом или подвержены ограничениям использования. Это ограничение сужает возможности участия организаций, обладающих данными, работающих в регулируемых или закрытых средах. FlexOlmo, разработанный исследователями Института Аллена по искусственному интеллекту и их партнерами, предлагает модульную структуру обучения и вывода, которая позволяет разрабатывать LLM в условиях ограничений управления данными.

Ограничения современных LLM

Текущие процессы обучения LLM зависят от агрегирования всех обучающих данных в едином корпусе, что накладывает статическое решение о включении и исключает возможность отказа после обучения. Этот подход несовместим с:

Регуляторными режимами (например, HIPAA, GDPR, законы о суверенитете данных)
Лицензионными наборами данных (например, некоммерческими или с ограничениями на атрибуцию)
Контекстно-чувствительными данными (например, внутренним исходным кодом, клиническими записями)

Цели FlexOlmo

FlexOlmo решает две основные задачи:

Децентрализованное, модульное обучение: позволяет независимо обучать модули на разрозненных, локально хранимых наборах данных.
Гибкость во время вывода: обеспечивает детерминированные механизмы согласия/отказа на участие в данных без повторного обучения.

Архитектура модели: Модульность экспертов через Mixture-of-Experts (MoE)

FlexOlmo основывается на архитектуре Mixture-of-Experts (MoE), где каждый эксперт соответствует модулю прямой передачи (FFN), обученному независимо. Фиксированная публичная модель (обозначенная как Mpub) служит общей основой. Каждый владелец данных обучает эксперта Mi, используя свой частный набор данных Di, в то время как все слои внимания и другие параметры, не относящиеся к экспертам, остаются замороженными.

Ключевые компоненты архитектуры

Разреженная активация: Активируется только подмножество экспертных модулей для каждого входного токена.
Маршрутизация экспертов: Назначение токенов экспертам управляется матрицей маршрутизатора, основанной на эмбеддингах, информированных о домене, что исключает необходимость совместного обучения.
Регуляризация смещения: Вводится отрицательный смещающий термин для калибровки выбора между независимо обученными экспертами, предотвращая чрезмерный выбор какого-либо одного эксперта.

Асинхронная и изолированная оптимизация

Каждый эксперт Mi обучается через ограниченную процедуру, чтобы обеспечить согласование с Mpub. В частности:

Обучение проводится на гибридном экземпляре MoE, состоящем из Mi и Mpub.
Эксперт Mpub и общие слои внимания заморожены.
Обновляются только FFN, соответствующие Mi, и эмбеддинги маршрутизатора ri.

Конструкция набора данных: FLEXMIX

Обучающий корпус FLEXMIX делится на:

Публичную смесь, состоящую из общедоступных веб-данных.
Семь закрытых наборов, имитирующих несообщаемые домены: новости, Reddit, код, академические тексты, образовательные тексты, креативное письмо и математика.

Каждый эксперт обучается на разрозненном подмножестве, без совместного доступа к данным. Эта настройка приближает реальное использование, когда организации не могут объединять данные из-за юридических, этических или операционных ограничений.

Оценка и базовые сравнения

FlexOlmo был оценен по 31 контрольной задаче в 10 категориях, включая общее понимание языка (например, MMLU, AGIEval), генеративный QA (например, GEN5), генерацию кода (например, Code4) и математическое рассуждение (например, Math2).

Сравнительные методы включают:

Модельный суп: усреднение весов индивидуально дообученных моделей.
Branch-Train-Merge (BTM): взвешенное объединение вероятностей вывода.
BTX: преобразование независимо обученных плотных моделей в MoE через пересадку параметров.
Маршрутизация на основе подсказок: использование классификаторов, обученных на инструкциях, для маршрутизации запросов к экспертам.

По сравнению с этими методами FlexOlmo достигает:

41% среднего относительного улучшения по сравнению с базовой публичной моделью.
10.1% улучшения по сравнению с самым сильным методом объединения (BTM).

Архитектурный анализ

Несколько контролируемых экспериментов показывают вклад архитектурных решений:

Удаление координации между экспертами и публичной моделью во время обучения значительно ухудшает производительность.
Случайно инициализированные эмбеддинги маршрутизатора снижают разделимость между экспертами.
Отключение смещающего термина искажает выбор экспертов, особенно при объединении более двух экспертов.

Шаблоны маршрутизации на уровне токенов показывают специализацию экспертов на определенных слоях. Например, математический ввод активирует математика-эксперта на более глубоких слоях, в то время как ввод для новичков полагается на публичную модель. Это поведение подчеркивает выразительность модели по сравнению с стратегиями маршрутизации с одним экспертом.

Отказ и управление данными

Ключевой особенностью FlexOlmo является возможность детерминированного отказа. Удаление эксперта из матрицы маршрутизатора полностью исключает его влияние во время вывода. Эксперименты показывают, что удаление эксперта новостей снижает производительность на NewsG, но не затрагивает другие задачи, подтверждая локализованное влияние каждого эксперта.

Соображения по конфиденциальности

Риски извлечения данных из обучающего набора были оценены с использованием известных методов атак. Результаты показывают:

0.1% уровень извлечения для модели только с публичными данными.
1.6% для плотной модели, обученной на математическом наборе данных.
0.7% для FlexOlmo с включенным математическим экспертом.

Хотя эти показатели низки, обучение с дифференциальной конфиденциальностью (DP) может применяться независимо к каждому эксперту для более надежных гарантий. Архитектура не исключает использование методов обучения с DP или шифрования.

Масштабируемость

Методология FlexOlmo была применена к существующему сильному базовому уровню (OLMo-2 7B), предварительно обученному на 4 ТБ токенов. Включение двух дополнительных экспертов (математика, код) улучшило среднюю производительность по контрольным показателям с 49.8 до 52.8 без повторного обучения основной модели. Это демонстрирует масштабируемость и совместимость с существующими процессами обучения.

Заключение

FlexOlmo представляет собой обоснованную структуру для построения модульных LLM в условиях ограничений управления данными. Его дизайн поддерживает распределенное обучение на локально хранимых наборах данных и позволяет включать/исключать влияние данных во время вывода. Эмпирические результаты подтверждают его конкурентоспособность как по сравнению с монолитными, так и с ансамблевыми базовыми уровнями.

Архитектура особенно применима в средах с: