MDM-Prime: Новый подход к моделям маскированной диффузии для повышения эффективности генерации данных

MDM-Prime: Общая структура маскированных диффузионных моделей (MDMs), позволяющая частичное размаскирование токенов во время выборки

Мир искусственного интеллекта стремительно развивается, и одними из самых многообещающих достижений являются маскированные диффузионные модели (MDMs). Однако традиционные MDMs сталкиваются с определенными проблемами, связанными с неэффективностью вычислений. Здесь на помощь приходит MDM-Prime — новая структура, которая предлагает решение этих проблем и открывает новые горизонты для бизнеса.

Проблемы традиционных MDMs

Традиционные маскированные диффузионные модели показывают значительные недостатки в производительности. Исследования показывают, что до 37% шагов в обратных процессах не изменяют последовательность, что приводит к избыточным вычислениям. Это создает необходимость в разработке более эффективных методов выборки, которые максимизируют полезность каждого шага генерации.

Эволюция и усовершенствования MDMs

С момента своего появления, MDMs прошли путь от работы с бинарными данными до применения в таких областях, как генерация текста и изображений. Недавние усовершенствования сосредоточены на:

Упрощении учебных целей для повышения производительности.
Интеграции авторегрессионных методов для улучшения качества вывода.
Управлении техниками выборки с использованием моделей на основе энергии.
Выборочном размаскировании токенов для повышения качества вывода.
Применении техник дистилляции для эффективного сокращения шагов выборки.

Введение в Prime: Схема частичного размаскирования

Исследователи из Vector Institute, NVIDIA и Национального университета Тайваня представили схему частичного размаскирования (Prime), которая позволяет токенам принимать промежуточные состояния, частично маскируя их закодированные формы. Эта техника улучшает качество предсказаний и снижает количество избыточных вычислений. Модель MDM-Prime продемонстрировала впечатляющий результат с перплексией 15.36 на OpenWebText и конкурентоспособными FID-оценками 3.26 на CIFAR-10 и 6.98 на ImageNet-32, опережая другие модели без использования авторегрессионных техник.

Архитектура и улучшения обучения

Архитектура MDM-Prime включает частичное размаскирование на уровне субтокенов. Токены разбиваются на субтокены, что позволяет добиться более плавных переходов во время диффузии. Обратный процесс обучается с использованием вариационных границ для обеспечения корректных выходов, учитывая зависимости между субтокенами. Обучается совместное распределение вероятностей для фильтрации несогласованных последовательностей, что обеспечивается эффективным дизайном кодера-декодера, оптимизированным для обработки субтокенов.

Эмпирическая оценка на задачах генерации текста и изображений

MDM-Prime была оценена на задачах генерации текста с использованием набора данных OpenWebText, а также на задачах генерации изображений. Результаты показали:

Значительные улучшения в перплексии и соотношении бездействующих шагов на задачах генерации текста, особенно с субтокенами с гранулярностью ℓ ≥ 4.
Повышенное качество образцов и более низкие FID-оценки на CIFAR-10 и ImageNet-32, особенно с ℓ = 2.
Улучшенная производительность в задачах условной генерации изображений, обеспечивающая согласованные выходы из частично наблюдаемых изображений.

Заключение и более широкие последствия

Введение Prime стало значительным шагом вперед в генеративном моделировании, переходя от стандартных токенов к более детализированным компонентам субтокенов. Эта модель позволяет токенам существовать в промежуточных состояниях, уменьшая избыточные вычисления и улучшая детальную генерацию данных. С превосходными результатами как в генерации текста (перплексия 15.36), так и в генерации изображений (конкурентоспособные FID-оценки), MDM-Prime предлагает многообещающие возможности для улучшения AI-приложений.