←К новостям

Большой набор тестов для оценки мультимодельных больших языковых моделей (MLLMs) в текстовых сценариях.

 Большой набор тестов для оценки мультимодельных больших языковых моделей (MLLMs) в текстовых сценариях

Оценка многофункциональных моделей языка (MLLMs) в сценариях с текстовым контентом: SEED-Bench-2-Plus

Оценка многофункциональных моделей языка (MLLMs) в сценариях с текстовым контентом имеет ключевое значение, учитывая их все возрастающую универсальность. Однако текущие бенчмарки в основном оценивают общее визуальное восприятие, не уделяя должного внимания тонким вызовам текстового контента. MLLMs, такие как GPT-4V, Gemini-Pro-Vision и Claude-3-Opus, проявляют впечатляющие возможности, но лишены комплексной оценки в контексте текстового контента. Понимание текста внутри изображений требует интерпретации текстовых и визуальных подсказок, вызов, который еще не был строго рассмотрен.

SEED-Bench-2-Plus для оценки понимания MLLMs текстового визуального контента

SEED-Bench-2-Plus, разработанный командой исследователей из Tencent AI Lab, ARC Lab, Tencent PCG и Китайского университета в Шэньчжэне, является специализированным бенчмарком для оценки понимания MLLMs текстового визуального контента. Он состоит из 2,3 тыс. тщательно подобранных вариантов выбора, охватывающих три широких категории: диаграммы, карты и веб, охватывая разнообразные реальные сценарии. Человеческие аннотаторы обеспечивают точность, и оценка включает 34 ведущих MLLMs, таких как GPT-4V, Gemini-Pro-Vision и Claude-3-Opus.

Результаты и применение SEED-Bench-2-Plus

SEED-Bench-2-Plus представляет собой комплексный бенчмарк, включающий 2 тыс. вариантов выбора, охватывающих три основные категории: диаграммы, карты и веб. Каждая категория включает в себя различные виды данных, всего 63. Набор данных тщательно подобран, включая диаграммы, карты и снимки веб-страниц, богатые текстовой информацией. Метод генерации вопросов и их последующее уточнение осуществляется с привлечением GPT-4V и человеческих аннотаторов. Оценка проводится с использованием стратегии ранжирования ответов, оценивая производительность MLLMs на основе вероятности разработки правильного ответа для каждого варианта выбора.

Заключение: использование SEED-Bench-2-Plus для развития компании с помощью ИИ

SEED-Bench-2-Plus – это комплексный бенчмарк для оценки MLLMs в сценариях с текстовым контентом. Он предлагает обширную платформу оценки, охватывающую 31 открытую версию и три закрытых MLLMs. Используя доступные данные и учебный код, он предоставляет ценные инсайты для направления будущих исследований в этой области.

Применение ИИ в вашем бизнесе

Если вы хотите улучшить свой бизнес с помощью ИИ, обращайтесь к SEED-Bench-2-Plus и изучите примеры применения автоматизации в различных сферах. Постепенно внедряйте решения ИИ, анализируйте результаты и улучшайте эффективность в процессах вашего бизнеса.

Полезные ссылки: