Amazon Researchers Reveal Mitra: Advancing Tabular Machine Learning with Synthetic Priors
Введение
Исследователи Amazon представили Mitra — революционную модель, созданную специально для работы с табличными данными. В отличие от традиционных методов, требующих разработки уникальной модели для каждого набора данных, Mitra использует метод обучения в контексте (ICL) и предобучение на синтетических данных, что позволяет добиться лучших результатов на различных тестах табличного машинного обучения. Интегрированная в AutoGluon 1.4, Mitra обеспечивает значительные преимущества для специалистов из здравоохранения, финансов, электронной торговли и научной сферы.
Основы: обучение на синтетических данных
Mitra выделяется предобучением исключительно на синтетических данных. Вместо того чтобы полагаться на ограниченные и изменчивые реальные наборы данных, исследователи Amazon разработали системный подход к генерации и комбинированию различных синтетических данных. По аналогии с предобучением больших языковых моделей на обширных текстовых корпусах, Mitra формирует свои знания на эффективных синтетических предшественниках.
Ключевые компоненты предобучения Mitra
- Смешение предшественников: Синтетические наборы данных создаются на основе различных распределений, включая структурные причинные модели и алгоритмы, основанные на деревьях (например, случайные леса, градиентный бустинг).
- Универсализация: Разнообразие и качество этих предшественников обеспечивает Mitra обучение паттернам, применимым к многочисленным непредвиденным реальным наборам данных.
- Структура задания: Каждая синтетическая задача во время предобучения включает обучающий и тестовый наборы, позволяя Mitra адаптироваться к новым задачам без необходимости обновления параметров для каждой новой таблицы.
Обучение в контексте и дообучение: адаптация без новых моделей
Традиционные методы табличного машинного обучения, такие как XGBoost и случайные леса, требуют создания новой модели для каждой новой задачи или распределения данных. В отличие от них, Mitra применяет обучение в контексте: получив небольшое количество помеченных примеров (обучающий набор), Mitra может точно предсказать новые, ранее невиданные данные (тестовый набор) для классификации или регрессии, адаптируясь к каждой ситуации без повторного обучения. Для пользователей, нуждающихся в дополнительной настройке, предусмотрено дообучение, позволяющее адаптировать модель под конкретные задачи при необходимости.
Инновации в архитектуре
Mitra использует 2D механизм внимания, охватывающий как строки, так и признаки, что отражает или расширяет архитектурные достижения, созданные для трансформеров, но специализированные для табличных данных. Это позволяет модели:
- Обрабатывать таблицы разного размера и типов признаков.
- Улавливать сложные взаимодействия между столбцами таблицы и записями.
- Естественно поддерживать разнородные данные, что решает ключевую задачу в табличном машинном обучении.
Достижения на бенчмарках и практические преимущества
Результаты
Mitra демонстрирует лучшие результаты на нескольких крупных табличных бенчмарках, включая:
- TabRepo
- TabZilla
- AutoML Benchmark (AMLB)
- TabArena
Её преимущества особенно заметны на небольших и средних наборах данных (до 5000 образцов, менее 100 признаков), показывая выдающиеся результаты как в задачах классификации, так и регрессии. Примечательно, что Mitra превосходит сильные базовые модели, такие как TabPFNv2, TabICL, CatBoost и более ранние версии AutoGluon.
Простота использования
Mitra доступна в AutoGluon 1.4 и является открытым исходным кодом, с моделями, готовыми к бесшовной интеграции в существующие ML-трубопроводы. Она работает как на GPU, так и на CPU, что делает её универсальной для различных условий развертывания. Веса доступны на Hugging Face, что облегчает доступ к ней для задач как классификации, так и регрессии.
Последствия и будущие направления
Обучаясь на тщательно подобранной смеси синтетических данных, Mitra привносит универсальность крупных фундаментальных моделей в мир табличных данных. Она направлена на ускорение исследований и прикладной науки данных, способствуя тому, что:
- Сокращает время на решение задач: отсутствие необходимости в создании и настройке уникальных моделей для каждой задачи.
- Носит кросс-доменные переносы: знания, полученные из синтетических задач, широко переливаются.
- Способствует дальнейшим инновациям: методология синтетических предшественников открывает путь к более богатым, более адаптивным табличным фундаментальным моделям в будущем.
Как начать
AutoGluon 1.4 вскоре предложит Mitra для использования «из коробки». Открытые веса и документация уже доступны для задач классификации и регрессии. Исследователи и практики призваны к экспериментам и созданию на основе этой новой основы для табличного прогнозирования.
Вся благодарность за это исследование принадлежит команде исследователей данного проекта.