MDM-Prime: Общая структура маскированных диффузионных моделей (MDMs), позволяющая частичное размаскирование токенов во время выборки
Мир искусственного интеллекта стремительно развивается, и одними из самых многообещающих достижений являются маскированные диффузионные модели (MDMs). Однако традиционные MDMs сталкиваются с определенными проблемами, связанными с неэффективностью вычислений. Здесь на помощь приходит MDM-Prime — новая структура, которая предлагает решение этих проблем и открывает новые горизонты для бизнеса.
Проблемы традиционных MDMs
Традиционные маскированные диффузионные модели показывают значительные недостатки в производительности. Исследования показывают, что до 37% шагов в обратных процессах не изменяют последовательность, что приводит к избыточным вычислениям. Это создает необходимость в разработке более эффективных методов выборки, которые максимизируют полезность каждого шага генерации.
Эволюция и усовершенствования MDMs
С момента своего появления, MDMs прошли путь от работы с бинарными данными до применения в таких областях, как генерация текста и изображений. Недавние усовершенствования сосредоточены на:
- Упрощении учебных целей для повышения производительности.
- Интеграции авторегрессионных методов для улучшения качества вывода.
- Управлении техниками выборки с использованием моделей на основе энергии.
- Выборочном размаскировании токенов для повышения качества вывода.
- Применении техник дистилляции для эффективного сокращения шагов выборки.
Введение в Prime: Схема частичного размаскирования
Исследователи из Vector Institute, NVIDIA и Национального университета Тайваня представили схему частичного размаскирования (Prime), которая позволяет токенам принимать промежуточные состояния, частично маскируя их закодированные формы. Эта техника улучшает качество предсказаний и снижает количество избыточных вычислений. Модель MDM-Prime продемонстрировала впечатляющий результат с перплексией 15.36 на OpenWebText и конкурентоспособными FID-оценками 3.26 на CIFAR-10 и 6.98 на ImageNet-32, опережая другие модели без использования авторегрессионных техник.
Архитектура и улучшения обучения
Архитектура MDM-Prime включает частичное размаскирование на уровне субтокенов. Токены разбиваются на субтокены, что позволяет добиться более плавных переходов во время диффузии. Обратный процесс обучается с использованием вариационных границ для обеспечения корректных выходов, учитывая зависимости между субтокенами. Обучается совместное распределение вероятностей для фильтрации несогласованных последовательностей, что обеспечивается эффективным дизайном кодера-декодера, оптимизированным для обработки субтокенов.
Эмпирическая оценка на задачах генерации текста и изображений
MDM-Prime была оценена на задачах генерации текста с использованием набора данных OpenWebText, а также на задачах генерации изображений. Результаты показали:
- Значительные улучшения в перплексии и соотношении бездействующих шагов на задачах генерации текста, особенно с субтокенами с гранулярностью ℓ ≥ 4.
- Повышенное качество образцов и более низкие FID-оценки на CIFAR-10 и ImageNet-32, особенно с ℓ = 2.
- Улучшенная производительность в задачах условной генерации изображений, обеспечивающая согласованные выходы из частично наблюдаемых изображений.
Заключение и более широкие последствия
Введение Prime стало значительным шагом вперед в генеративном моделировании, переходя от стандартных токенов к более детализированным компонентам субтокенов. Эта модель позволяет токенам существовать в промежуточных состояниях, уменьшая избыточные вычисления и улучшая детальную генерацию данных. С превосходными результатами как в генерации текста (перплексия 15.36), так и в генерации изображений (конкурентоспособные FID-оценки), MDM-Prime предлагает многообещающие возможности для улучшения AI-приложений.