Itinai.com ai compare futuristic offices of it companies imag 1cd650c1 c91e 48d3 94e8 2128480997a6 0

Внедрение VGR: Новый Мультимодальный Модель для Улучшения Визуального Резервирования

Itinai.com ai compare futuristic offices of it companies imag 1cd650c1 c91e 48d3 94e8 2128480997a6 0

ByteDance Researchers Introduce VGR: Новый Модуль Мультимодального Обработки Языка с Улучшенной Визуальной Перцепцией

В последние годы искусственный интеллект стремительно развивается, и новые технологии открывают перед нами бесконечные возможности. Одним из таких прорывов стал VGR — новый мультимодальный большой языковой модель, разработанный исследователями ByteDance. Эта модель не только обрабатывает текст, но и обладает улучшенными способностями к визуальному восприятию, что делает её крайне полезной в различных областях.

Зачем нам мультимодальное мышление?

Мультимодальное мышление позволяет моделям принимать обоснованные решения, комбинируя визуальную и текстовую информацию. Это особенно важно для задач, связанных с интерпретацией графиков, ответами на вопросы по изображениям и пониманием сложных визуальных документов. Представьте, что машина может анализировать изображение так же, как это делает человек, что значительно улучшает качество принятия решений.

Проблемы с визуальным восприятием и языковыми предвзятостями

Существующие модели часто сталкиваются с проблемами, когда дело доходит до точной обработки визуальной информации. Многие из них слишком полагаются на текст, что приводит к снижению качества работы в задачах, требующих визуальной интерпретации. Например, модели могут не справляться с определением объектов на изображении или интерпретацией числовых данных из графиков, поскольку они склонны использовать языковые паттерны вместо анализа визуального контента.

Что нового в VGR?

Модель Visual Grounded Reasoning (VGR) позволяет динамически взаимодействовать с визуальными элементами во время рассуждений, интегрируя потоки изображения и текста. Она выделяет важные области изображения и использует их для формирования ответов на вопросы. Исследователи также разработали новый набор данных VGR-SFT, который помогает модели обучаться визуальному мышлению через встроенные визуальные подсказки, исключая необходимость в ручной аннотации.

Как работает выборочная визуальная реплей?

VGR использует технику, известную как выборочная визуальная реплей, которая позволяет модели извлекать конкретные части изображения по мере необходимости. Она использует визуальный кодер для извлечения токенов из областей изображения, сохраняя их в визуальном пуле памяти. Когда требуется визуальная информация, модель активирует реплей, повторно вводя соответствующие токены в процесс рассуждений. Эта система использует стратегию AnyRes, которая расширяет поддержку разрешения и снижает использование токенов. В сравнении с базовыми методами, VGR использует всего 144 токена для снимков изображения и 720 токенов для высокоразрешающих областей, что представляет собой сокращение на 70% от общего количества токенов.

Результаты тестирования: точность и эффективность

Модель VGR была протестирована на базе LLaVA-NeXT-7B и показала отличные результаты. На бенчмарке MMStar VGR достигла улучшения на 4.1 пункта. Она также превзошла базу на 7.1 пункта на AI2D и на 12.9 на ChartQA. Эти результаты были достигнуты с использованием всего 30% визуального токена, необходимого для базовой модели. В другом тестировании VGR улучшила производительность на 6.4 пункта на MMStar и на 14.1 на ChartQA, что подчеркивает её эффективность и точность с меньшими затратами ресурсов.

Заключение: Переход к более эффективному мышлению

Работа над VGR демонстрирует, что интеграция визуальных сигналов в процесс рассуждений может решить проблемы, связанные с текстоцентричным мышлением. Исследователи выявили явную проблему, разработали метод её решения и продемонстрировали его эффективность с измеримыми результатами. Это решение не только практично, но и эффективно, переопределяя, как визуальные подсказки могут быть интегрированы в интеллектуальные системы рассуждений.

Посмотрите статью и модель. Все заслуги за это исследование принадлежат исследователям данного проекта. Также не стесняйтесь подписываться на нас в Twitter и присоединяться к нашему сообществу из более чем 100 тысяч участников на ML SubReddit. Подпишитесь на нашу рассылку, чтобы получать больше обновлений.

Новости в сфере искусственного интеллекта