Как радиальное внимание снижает затраты на диффузию видео в 4.4 раза без потери качества
Введение в модели диффузии видео и вычислительные вызовы
Модели диффузии видео сделали значительные шаги вперёд в создании высококачественных, согласованных видеороликов, основываясь на успехах в синтезе изображений. Однако дополнительное временное измерение в видео увеличивает вычислительные требования, особенно в условиях, когда самовнимание плохо масштабируется с увеличением длины последовательности. Это создает трудности для обучения и эффективного выполнения этих моделей на более длинных видео.
Эволюция механизмов внимания в синтезе видео
Ранее модели видео улучшали 2D архитектуры, добавляя временные компоненты, а новые подходы, такие как DiT и Latte, улучшили пространственно-временное моделирование с помощью продвинутых механизмов внимания. Тем не менее, 3D плотное внимание достигает лучших результатов, но его вычислительная стоимость быстро увеличивается с длиной видео, что делает генерацию длинных видеороликов дорогой. Техники, такие как дистилляция временных шагов и разреженное внимание, помогают облегчить эту нагрузку, но часто игнорируют уникальную структуру видео данных.
Введение в спатиотемпоральное затухание энергии и радиальное внимание
Исследователи из MIT, NVIDIA, Принстона, UC Berkeley, Стэнфорда и First Intelligence выявили явление в моделях диффузии видео, называемое спатиотемпоральным затуханием энергии. Этот принцип наблюдает, что оценки внимания между токенами уменьшаются по мере увеличения пространственного или временного расстояния, что напоминает естественное затухание сигналов со временем. В ответ на это они предложили радиальное внимание, механизм разреженного внимания с O(n log n) сложностью. Этот подход использует статическую маску внимания, позволяя токенам в основном фокусироваться на ближайших, уменьшая окно внимания со временем.
Разреженное внимание с использованием принципов затухания энергии
Радиальное внимание полагается на понимание того, что оценки внимания в моделях видео уменьшаются с увеличением пространственного и временного расстояния, называемого спатиотемпоральным затуханием энергии. Вместо того чтобы равномерно обращать внимание на все токены, радиальное внимание стратегически минимизирует вычисления там, где внимание слабее. Оно вводит разреженную маску внимания, которая экспоненциально затухает наружу как в пространстве, так и во времени, сосредотачиваясь на наиболее релевантных взаимодействиях. Это приводит к сложности O(n log n), что делает его значительно быстрее и эффективнее, чем плотное внимание.
Оценка на различных моделях диффузии видео
Радиальное внимание было оценено на трех ведущих моделях диффузии текста-видео: Mochi 1, HunyuanVideo и Wan2.1, продемонстрировав как ускорение, так и улучшение качества. В сравнении с существующими базовыми моделями разреженного внимания, такими как SVG и PowerAttention, радиальное внимание предлагает улучшенное восприятие качества и значительные вычислительные преимущества, достигая до 3.7× более быстрого вывода и 4.4× более низких затрат на обучение при генерации длинных видео. Оно эффективно масштабируется до 4× более длинных видеороликов и поддерживает совместимость с существующими LoRA, включая адаптации, специфичные для стиля.
Заключение: Масштабируемая и эффективная генерация длинных видео
В заключение, радиальное внимание — это механизм разреженного внимания, разработанный для управления генерацией длинных видео в моделях диффузии с повышенной эффективностью. Вдохновленный наблюдаемым уменьшением оценок внимания с увеличением пространственных и временных расстояний, этот подход имитирует естественное затухание для снижения вычислительной нагрузки. Используя статический паттерн внимания с экспоненциально уменьшающимися окнами, он достигает улучшения производительности до 1.9×, поддерживая видео длиной до 4× длиннее. С легкой настройкой на основе LoRA, он значительно сокращает затраты на обучение на 4.4× и затраты на вывод на 3.7×, при этом сохраняя качество видео на нескольких современных моделях диффузии.