Itinai.com ai compare futuristic offices of it companies imag 24b87915 e9db 40cd 9a43 dd77f246954e 0

Ovis 2.5: Прорыв в многомодальном ИИ от Alibaba

Itinai.com ai compare futuristic offices of it companies imag 24b87915 e9db 40cd 9a43 dd77f246954e 0

Alibaba AI Team представила Ovis 2.5: Революция в открытом ИИ с улучшенной визуальной восприимчивостью и способностями к рассуждению

В мире искусственного интеллекта каждый новый шаг становится важным событием. Alibaba AI Team представила Ovis 2.5 — новую многомодальную языковую модель, которая обещает изменить правила игры в области обработки визуальной информации и сложного рассуждения. Давайте разберем, что это значит для бизнеса и как можно эффективно использовать Ovis 2.5 в различных сферах.

Что такое Ovis 2.5?

Ovis 2.5 — это последняя версия многомодальной языковой модели (MLLM) от команды Alibaba, предлагающая два варианта: с 9 миллиардами и 2 миллиардами параметров. Основные улучшения включают:

  • Визуальное восприятие с нативным разрешением
  • Глубокое многомодальное рассуждение
  • Улучшенное оптическое распознавание символов (OCR)

Эти инновации направлены на решение давних проблем, с которыми сталкиваются существующие модели, особенно в обработке сложной визуальной информации.

Нативное разрешение и глубокое рассуждение

Одной из ключевых особенностей Ovis 2.5 является использование трансформера визуального восприятия с нативным разрешением (NaViT). Эта технология позволяет модели обрабатывать изображения в их оригинальном разрешении, что особенно важно для:

  • Научных диаграмм
  • Сложных инфографик
  • Детализированных форм

Кроме того, Ovis 2.5 использует учебную программу, которая включает образцы «стиля мышления» для самокоррекции и рефлексии. Пользователи могут активировать «режим мышления» во время вывода, что значительно повышает точность при выполнении задач, требующих глубокого многомодального анализа, таких как ответ на научные вопросы или решение математических задач.

Показатели производительности и результаты

Ovis 2.5-9B достигла средней оценки 78.3 на многомодальном лидерборде OpenCompass, что позволяет ей обойти все открытые MLLM с параметрами менее 40B. Ovis 2.5-2B показала результат 73.9, устанавливая новый стандарт для легковесных моделей, подходящих для использования на мобильных устройствах или в условиях ограниченных ресурсов. Оба варианта превосходят предыдущие модели в:

  • Рассуждениях в STEM (MathVista, MMMU, WeMath)
  • OCR и анализе графиков (OCRBench v2, ChartQA Pro)
  • Визуальном связывании (RefCOCO, RefCOCOg)
  • Понимании видео и многокартинках (BLINK, VideoMME)

Обсуждения на платформах, таких как Reddit, подчеркивают значительные улучшения в OCR и обработке документов, особенно в извлечении текста из загроможденных изображений и понимании сложных визуальных запросов.

Эффективность обучения и масштабируемость развертывания

Ovis 2.5 улучшает эффективность обучения за счет упаковки многомодальных данных и продвинутого гибридного параллелизма, достигая увеличения пропускной способности на 3–4 раза. Легковесный вариант 2B соответствует философии «маленькая модель, большая производительность», что позволяет достигать качественного многомодального понимания на мобильных устройствах и устройствах на краю сети.

Заключение

Модели Ovis 2.5 от Alibaba представляют собой значительный шаг вперед в области открытого многомодального ИИ, достигая лучших результатов на лидерборде OpenCompass для моделей с параметрами менее 40B. Ключевые инновации включают:

  • Трансформер визуального восприятия с нативным разрешением для обработки высокодетализированных визуалов
  • Опциональный «режим мышления» для улучшенного саморефлексивного рассуждения

Ovis 2.5 превосходит предыдущие модели в области STEM, OCR, анализа графиков и понимания видео, что делает продвинутые многомодальные возможности доступными как для исследователей, так и для приложений с ограниченными ресурсами.

Изучите техническую документацию и модели на Hugging Face. Посетите нашу страницу на GitHub для учебных пособий, кода и блокнотов. Подписывайтесь на наш Twitter и присоединяйтесь к нашему сообществу из более чем 100 тысяч участников на ML SubReddit. Не забудьте подписаться на нашу рассылку!

Новости в сфере искусственного интеллекта