Itinai.com it company office background blured photography by 5fd12c31 5208 4b8e aafe 893f47620ac9 1

PEVA: Модель предсказания эгоцентрического видео на основе движений человека

Itinai.com it company office background blured photography by 5fd12c31 5208 4b8e aafe 893f47620ac9 1

Понимание связи между движением тела и визуальным восприятием

Изучение человеческого визуального восприятия через эгоцентрические виды играет ключевую роль в разработке умных систем, способных понимать и взаимодействовать с окружающей средой. Движения человеческого тела — от перемещения до манипуляции руками — формируют то, что мы видим с точки зрения первого лица. Осознание этой взаимосвязи необходимо для того, чтобы машины и роботы могли планировать и действовать с человеческим чувством визуальной предвосхищенности, особенно в реальных сценариях, где видимость динамически изменяется в зависимости от физического движения.

Проблемы моделирования физически обоснованного восприятия

Основная трудность в этой области заключается в том, как обучить системы, чтобы они понимали, как действия тела влияют на восприятие. Действия, такие как повороты или наклоны, меняют видимое в тонких и часто запоздалых способах. Для захвата этого требуется больше, чем просто предсказать, что будет дальше в видео; необходимо связать физические движения с изменениями в визуальном восприятии. Без способности интерпретировать и моделировать эти изменения, облеченные агенты испытывают трудности в планировании или взаимодействии в динамичных средах.

Ограничения предыдущих моделей и необходимость физической привязки

До недавнего времени инструменты для предсказания видео на основе человеческих действий имели ограничения. Модели часто использовали низкоразмерные входные данные, такие как скорость или направление головы, игнорируя сложность движения всего тела. Эти упрощенные подходы не учитывают тонкую координацию, необходимую для точного моделирования человеческих действий. Даже в моделях генерации видео движение тела часто рассматривалось как выходные данные, а не как движущая сила предсказания. Эта нехватка физической привязки ограничила полезность этих моделей для реального планирования.

Представляем PEVA: предсказание эгоцентрического видео на основе действия

Исследователи из UC Berkeley, Meta’s FAIR и Нью-Йоркского университета представили новую структуру, названную PEVA, для преодоления указанных ограничений. Модель предсказывает будущие кадры эгоцентрического видео на основе структурированных данных о движении всего тела, полученных из 3D-траекторий поз тела. PEVA стремится продемонстрировать, как движения всего тела влияют на то, что видит человек, таким образом связывая действие и восприятие.

Структурированное представление действия и архитектура модели

Основой PEVA является ее способность представлять действия в высоко структурированном виде. Каждый вход действия представляет собой 48-мерный вектор, который включает в себя трансляцию корня и вращения суставов на уровне 15 верхних суставов в 3D-пространстве. Этот вектор нормализуется и преобразуется в локальную систему координат, центрированную на тазу, чтобы устранить любые позиционные смещения. Используя эту комплексную репрезентацию динамики тела, модель захватывает непрерывную и тонкую природу реального движения.

PEVA спроектирована как автогенная диффузионная модель, использующая видеоэнкодер для преобразования кадров в представления латентного состояния и предсказывающая последующие кадры на основе предыдущих состояний и действий тела. Для поддержки длительной генерации видео система вводит случайные временные пропуски во время обучения, позволяя ей учиться как на немедленных, так и на отложенных визуальных последствиях движения.

Оценка производительности и результаты

Что касается производительности, PEVA оценивалась по нескольким метрикам, которые тестируют как краткосрочные, так и долгосрочные возможности предсказания видео. Модель смогла генерировать визуально последовательные и семантически точные кадры видео за длительные промежутки времени. Для краткосрочных предсказаний, оцененных на интервалах в 2 секунды, она достигла более низких значений LPIPS и более высокой последовательности DreamSim по сравнению с базовыми показателями, что указывает на превосходное качество восприятия. Система также расщепила человеческое движение на атомарные действия, такие как движения рук и вращения тела, для оценки тонкого контроля. Более того, модель была протестирована на длительных разворотах до 16 секунд, успешно симулируя отложенные результаты, сохраняя при этом последовательность.

Заключение: к физически обоснованному телесному интеллекту

Это исследование подчеркивает значительное продвижение в предсказании будущего эгоцентрического видео, связывая модель с физическим движением человека. Проблема связывания действий всего тела с визуальными результатами решается с помощью технически обоснованного метода, использующего структурированные представления поз и диффузионное обучение. Решение, предложенное командой, открывает многообещающее направление для облеченных систем ИИ, которым требуется точное, физически обоснованное предвижение.

Ознакомьтесь с работой здесь. Все заслуги за это исследование принадлежат авторам проекта. Также не забудьте подписаться на нас в Twitter и YouTube, а также присоединиться к нашему сообществу из более чем 100k пользователей на ML SubReddit и подписаться на нашу рассылку.

Новости в сфере искусственного интеллекта