Meta AI представила DINOv3: Современная модель компьютерного зрения с самообучением
Meta AI анонсировала DINOv3 — прорывную модель компьютерного зрения, которая устанавливает новые стандарты точности и универсальности в задачах плотного предсказания, не требуя размеченных данных. DINOv3 использует методики самообучения (SSL) в беспрецедентных масштабах, обучаясь на 1,7 миллиарда изображений с архитектурой в 7 миллиардов параметров. Впервые единая замороженная модель зрения превосходит специализированные решения в множестве визуальных задач, таких как обнаружение объектов, семантическая сегментация и видео-трекинг, без необходимости дополнительной настройки.
Ключевые инновации и технические особенности
- Обучение без аннотаций: DINOv3 обучается полностью без человеческих аннотаций, что делает его идеальным для областей, где метки труднодоступны или дорогостоящи, например, в спутниковой съемке, в биомедицинских приложениях и дистанционном зондировании.
- Универсальная архитектура: Замороженный каркас DINOv3 производит высококачественные изображения, которые можно использовать с легкими адаптерами для различных задач. Он превосходит ведущие модели, как специализированные, так и предыдущие версии самообучаемых моделей.
- Разнообразие моделей для развертывания: Meta выпускает не только массивную модель ViT-G, но также очищенные версии (ViT-B, ViT-L) и варианты ConvNeXt, чтобы поддержать разные сценарии развертывания — от крупных исследований до ограниченных ресурсов на краевых устройствах.
- Коммерческое и открытое распространение: DINOv3 доступен под коммерческой лицензией вместе с полным кодом для тренировки и оценки, предобученными каркасами, адаптерами и образцами для ускорения исследований, инноваций и интеграции в коммерческие продукты.
Практическое применение DINOv3
Организации, такие как Всемирный институт ресурсов и Лаборатория реактивного движения NASA, уже используют DINOv3. Он значительно повысил точность мониторинга лесов, сократив ошибку высоты кроны деревьев с 4,1 м до 1,2 м в Кении. Кроме того, модель поддерживает визуализацию для роботов, исследующих Марс, с минимальными затратами на вычисления.
Обобщение и нехватка аннотаций
Используя SSL в масштабах, DINOv3 сокращает разрыв между общими и специфическими для задач моделями зрения. Он устраняет зависимость от веб-аннотаций или кураторства, используя неразмеченные данные для универсального изучения признаков и позволяя применять решения в областях, где аннотирование является узким местом.
Сравнение возможностей DINOv3
- Обучающие данные: DINO/DINOv2: до 142 млн изображений / DINOv3: 1,7 млрд изображений
- Параметры: DINO/DINOv2: до 1,1 млрд / DINOv3: 7 млрд
- Тонкая настройка каркаса: DINO/DINOv2: не требуется / DINOv3: не требуется
- Задачи плотного предсказания: DINO/DINOv2: сильные результаты / DINOv3: превосходит специализированные модели
- Варианты моделей: DINO/DINOv2: ViT-S/B/L/g / DINOv3: ViT-B/L/G, ConvNeXt
- Открытый доступ: DINO/DINOv2: да / DINOv3: коммерческая лицензия, полный набор
Заключение
DINOv3 представляет собой значительный шаг вперед в области компьютерного зрения. Его универсальный замороженный каркас и подход SSL позволяют исследователям и разработчикам решать задачи, где аннотации отсутствуют, быстро развертывать высокопроизводительные модели и адаптироваться к новым доменам, просто меняя легкие адаптеры. Выпуск Meta включает все необходимое для академического или промышленного использования, способствуя широкому сотрудничеству в сообществе ИИ и компьютерного зрения.
DINOv3 доступен для коммерческих исследований и развертывания, открывая новую главу для надежных и масштабируемых систем ИИ в области визуализации.