Itinai.com hyperrealistic mockup of a branding agency website 406437d4 4cdd 41bb aaa1 0ce719686930 0
Itinai.com hyperrealistic mockup of a branding agency website 406437d4 4cdd 41bb aaa1 0ce719686930 0

Meta AI представляет V-JEPA 2: Открытые модели мира для самообучения

Легче сразу спросить 💭

AI снижает повышает обороты на 20–40% 📊 за 6 месяцев. А что бы вы сделали с этими деньгами?

Опишите задачу — обсудим, как это можно реализовать у вас.

ИИ автоматизирует 70% рутинных задач 🤖 за 3 месяца. Какие процессы в вашем бизнесе скинуть роботу?
Персонализированные AI-кампании увеличивают клиентскую базу на 30% 📈. Как это работает?
AI-аналитика сокращает ошибки в прогнозах на 50% 📉. Расскажите подробнее!

Meta AI Releases V-JEPA 2: Открытые Самообучающиеся Мировые Модели для Понимания, Прогнозирования и Планирования

Meta AI представила V-JEPA 2 — масштабируемую открытую мировую модель, разработанную для обучения на видео в масштабе интернета и обеспечения надежного визуального понимания, прогнозирования будущих состояний и планирования без предварительного обучения. Эта модель основана на архитектуре совместного встраивания (JEPA) и эффективно сочетает самообучение на пассивных интернет-видео с минимальными данными о взаимодействии с роботами, создавая модульную основу для интеллектуальных физических агентов.

Масштабируемое Самообучение на Основе 1 Млн Часов Видео

V-JEPA 2 предварительно обучена на более чем 1 миллионе часов видео и 1 миллионе изображений. Используя цель денойзинга визуальных масок, модель восстанавливает замаскированные пространственно-временные участки в латентном пространстве представлений. Такой подход повышает эффективность, сосредотачиваясь на предсказуемой динамике сцены и игнорируя несущественный шум.

Ключевые Техники Масштабирования Предобучения JEPA

Для достижения этой масштабируемости исследователи Meta внедрили четыре ключевых техники:

  • Масштабирование данных: Создан набор данных из 22 миллионов образцов (VideoMix22M) из публичных источников.
  • Масштабирование модели: Расширена емкость кодировщика до более чем 1 миллиарда параметров с использованием ViT-g.
  • График обучения: Применена стратегия прогрессивного разрешения и увеличено количество итераций предобучения до 252 тысяч.
  • Пространственно-временное увеличение: Обучение проводилось на постепенно более длинных и высококачественных клипах.

Метрики Производительности

Эти проектные решения привели к средней точности 88,2% по шести эталонным задачам, что превышает предыдущие базовые показатели.

Понимание через Обучение с Замаскированными Представлениями

V-JEPA 2 демонстрирует надежные возможности понимания движения, достигая 77,3% точности на эталоне Something-Something v2, превосходя такие модели, как InternVideo и VideoMAEv2. Для понимания внешнего вида модель остается конкурентоспособной с передовыми моделями предобучения изображений и текста.

Темпоральное Рассуждение через Вопросы и Ответы по Видео

При оценке темпорального рассуждения V-JEPA 2 согласуется с мультимодальной большой языковой моделью и выполняет различные задачи по вопросам и ответам на видео. Точность модели включает:

  • 84,0% на PerceptionTest
  • 76,9% на TempCompass
  • 44,5% на MVP
  • 36,7% на TemporalBench
  • 40,3% на TOMATO

Эти результаты показывают, что предварительно обученный видео-кодировщик может быть эффективно согласован постфактум, демонстрируя сильные способности к обобщению.

Введение V-JEPA 2-AC для Планирования Роботов

Значительным нововведением является V-JEPA 2-AC, вариант кодировщика, обусловленный действиями. Он был дообучен всего на 62 часах неразмеченного видео с роботами и предсказывает будущие встраивания на основе действий робота. Модель добивается высоких результатов в таких задачах, как достижение, захват и перемещение без необходимости в наградном обучении.

Производительность на Эталонах

V-JEPA 2-AC превосходит базовые модели, такие как Octo и Cosmos, выполняя планы примерно за 16 секунд на шаг и достигая 100% успеха в задачах достижения. Она эффективно работает с использованием монохромной RGB-камеры, что подтверждает способность к обобщению изученной мировой модели.

Заключение

V-JEPA 2 от Meta представляет собой значительное развитие в области масштабируемого самообучения для физического интеллекта, демонстрируя, что универсальные визуальные представления могут быть использованы как для восприятия, так и для управления в реальных приложениях.

Дополнительные Ресурсы

Посмотрите статью, модели на Hugging Face и страницу на GitHub. Вы также можете следить за нами в Twitter и присоединиться к нашему растущему сообществу на ML SubReddit с более чем 99 тысячами участников.

Новости в сфере искусственного интеллекта