Meta AI Releases V-JEPA 2: Открытые Самообучающиеся Мировые Модели для Понимания, Прогнозирования и Планирования
Meta AI представила V-JEPA 2 — масштабируемую открытую мировую модель, разработанную для обучения на видео в масштабе интернета и обеспечения надежного визуального понимания, прогнозирования будущих состояний и планирования без предварительного обучения. Эта модель основана на архитектуре совместного встраивания (JEPA) и эффективно сочетает самообучение на пассивных интернет-видео с минимальными данными о взаимодействии с роботами, создавая модульную основу для интеллектуальных физических агентов.
Масштабируемое Самообучение на Основе 1 Млн Часов Видео
V-JEPA 2 предварительно обучена на более чем 1 миллионе часов видео и 1 миллионе изображений. Используя цель денойзинга визуальных масок, модель восстанавливает замаскированные пространственно-временные участки в латентном пространстве представлений. Такой подход повышает эффективность, сосредотачиваясь на предсказуемой динамике сцены и игнорируя несущественный шум.
Ключевые Техники Масштабирования Предобучения JEPA
Для достижения этой масштабируемости исследователи Meta внедрили четыре ключевых техники:
- Масштабирование данных: Создан набор данных из 22 миллионов образцов (VideoMix22M) из публичных источников.
- Масштабирование модели: Расширена емкость кодировщика до более чем 1 миллиарда параметров с использованием ViT-g.
- График обучения: Применена стратегия прогрессивного разрешения и увеличено количество итераций предобучения до 252 тысяч.
- Пространственно-временное увеличение: Обучение проводилось на постепенно более длинных и высококачественных клипах.
Метрики Производительности
Эти проектные решения привели к средней точности 88,2% по шести эталонным задачам, что превышает предыдущие базовые показатели.
Понимание через Обучение с Замаскированными Представлениями
V-JEPA 2 демонстрирует надежные возможности понимания движения, достигая 77,3% точности на эталоне Something-Something v2, превосходя такие модели, как InternVideo и VideoMAEv2. Для понимания внешнего вида модель остается конкурентоспособной с передовыми моделями предобучения изображений и текста.
Темпоральное Рассуждение через Вопросы и Ответы по Видео
При оценке темпорального рассуждения V-JEPA 2 согласуется с мультимодальной большой языковой моделью и выполняет различные задачи по вопросам и ответам на видео. Точность модели включает:
- 84,0% на PerceptionTest
- 76,9% на TempCompass
- 44,5% на MVP
- 36,7% на TemporalBench
- 40,3% на TOMATO
Эти результаты показывают, что предварительно обученный видео-кодировщик может быть эффективно согласован постфактум, демонстрируя сильные способности к обобщению.
Введение V-JEPA 2-AC для Планирования Роботов
Значительным нововведением является V-JEPA 2-AC, вариант кодировщика, обусловленный действиями. Он был дообучен всего на 62 часах неразмеченного видео с роботами и предсказывает будущие встраивания на основе действий робота. Модель добивается высоких результатов в таких задачах, как достижение, захват и перемещение без необходимости в наградном обучении.
Производительность на Эталонах
V-JEPA 2-AC превосходит базовые модели, такие как Octo и Cosmos, выполняя планы примерно за 16 секунд на шаг и достигая 100% успеха в задачах достижения. Она эффективно работает с использованием монохромной RGB-камеры, что подтверждает способность к обобщению изученной мировой модели.
Заключение
V-JEPA 2 от Meta представляет собой значительное развитие в области масштабируемого самообучения для физического интеллекта, демонстрируя, что универсальные визуальные представления могут быть использованы как для восприятия, так и для управления в реальных приложениях.
Дополнительные Ресурсы
Посмотрите статью, модели на Hugging Face и страницу на GitHub. Вы также можете следить за нами в Twitter и присоединиться к нашему растущему сообществу на ML SubReddit с более чем 99 тысячами участников.