Meta AI представляет V-JEPA 2: Открытые модели мира для самообучения

Meta AI Releases V-JEPA 2: Открытые Самообучающиеся Мировые Модели для Понимания, Прогнозирования и Планирования

Meta AI представила V-JEPA 2 — масштабируемую открытую мировую модель, разработанную для обучения на видео в масштабе интернета и обеспечения надежного визуального понимания, прогнозирования будущих состояний и планирования без предварительного обучения. Эта модель основана на архитектуре совместного встраивания (JEPA) и эффективно сочетает самообучение на пассивных интернет-видео с минимальными данными о взаимодействии с роботами, создавая модульную основу для интеллектуальных физических агентов.

Масштабируемое Самообучение на Основе 1 Млн Часов Видео

V-JEPA 2 предварительно обучена на более чем 1 миллионе часов видео и 1 миллионе изображений. Используя цель денойзинга визуальных масок, модель восстанавливает замаскированные пространственно-временные участки в латентном пространстве представлений. Такой подход повышает эффективность, сосредотачиваясь на предсказуемой динамике сцены и игнорируя несущественный шум.

Ключевые Техники Масштабирования Предобучения JEPA

Для достижения этой масштабируемости исследователи Meta внедрили четыре ключевых техники:

Масштабирование данных: Создан набор данных из 22 миллионов образцов (VideoMix22M) из публичных источников.
Масштабирование модели: Расширена емкость кодировщика до более чем 1 миллиарда параметров с использованием ViT-g.
График обучения: Применена стратегия прогрессивного разрешения и увеличено количество итераций предобучения до 252 тысяч.
Пространственно-временное увеличение: Обучение проводилось на постепенно более длинных и высококачественных клипах.

Метрики Производительности

Эти проектные решения привели к средней точности 88,2% по шести эталонным задачам, что превышает предыдущие базовые показатели.

Понимание через Обучение с Замаскированными Представлениями

V-JEPA 2 демонстрирует надежные возможности понимания движения, достигая 77,3% точности на эталоне Something-Something v2, превосходя такие модели, как InternVideo и VideoMAEv2. Для понимания внешнего вида модель остается конкурентоспособной с передовыми моделями предобучения изображений и текста.

Темпоральное Рассуждение через Вопросы и Ответы по Видео

При оценке темпорального рассуждения V-JEPA 2 согласуется с мультимодальной большой языковой моделью и выполняет различные задачи по вопросам и ответам на видео. Точность модели включает:

84,0% на PerceptionTest
76,9% на TempCompass
44,5% на MVP
36,7% на TemporalBench
40,3% на TOMATO

Эти результаты показывают, что предварительно обученный видео-кодировщик может быть эффективно согласован постфактум, демонстрируя сильные способности к обобщению.

Введение V-JEPA 2-AC для Планирования Роботов

Значительным нововведением является V-JEPA 2-AC, вариант кодировщика, обусловленный действиями. Он был дообучен всего на 62 часах неразмеченного видео с роботами и предсказывает будущие встраивания на основе действий робота. Модель добивается высоких результатов в таких задачах, как достижение, захват и перемещение без необходимости в наградном обучении.

Производительность на Эталонах

V-JEPA 2-AC превосходит базовые модели, такие как Octo и Cosmos, выполняя планы примерно за 16 секунд на шаг и достигая 100% успеха в задачах достижения. Она эффективно работает с использованием монохромной RGB-камеры, что подтверждает способность к обобщению изученной мировой модели.

Заключение

V-JEPA 2 от Meta представляет собой значительное развитие в области масштабируемого самообучения для физического интеллекта, демонстрируя, что универсальные визуальные представления могут быть использованы как для восприятия, так и для управления в реальных приложениях.

Дополнительные Ресурсы

Посмотрите статью, модели на Hugging Face и страницу на GitHub. Вы также можете следить за нами в Twitter и присоединиться к нашему растущему сообществу на ML SubReddit с более чем 99 тысячами участников.