Itinai.com compare offices of it companies image should be ta 01eb8ba9 8aa4 43d9 83c3 c0896dfc5afb 0

FineVision: Новый стандарт для обучения моделей Vision-Language

Itinai.com compare offices of it companies image should be ta 01eb8ba9 8aa4 43d9 83c3 c0896dfc5afb 0

Hugging Face Open-Sourced FineVision: Новая многомодальная база данных для обучения моделей «визуальный-язык»

Hugging Face представил FineVision — открытую многомодальную базу данных, которая обещает установить новый стандарт для моделей «визуальный-язык» (VLM). С 17,3 миллиона изображений и 24,3 миллиона образцов, эта база данных становится одной из крупнейших и наиболее структурированных публично доступных для обучения VLM.

Значение FineVision для обучения VLM

Современные модели VLM часто зависят от закрытых наборов данных, что ограничивает их воспроизводимость и доступность для широкой исследовательской аудитории. FineVision решает эту проблему благодаря:

  • Масштабу и охвату: 5 ТБ курируемых данных по 9 категориям, включая общие вопросы и ответы, OCR, анализ графиков и таблиц, науку, создание описаний, привязку и подсчет, а также навигацию по интерфейсу.
  • Улучшению показателей: Модели, обученные на FineVision, показывают значительные улучшения по сравнению с альтернативами на 11 широко используемых бенчмарках, достигая до 46,3% превосходства над LLaVA.
  • Расширению навыков: FineVision вводит данные для новых задач, таких как навигация по интерфейсу, указание и подсчет, что расширяет возможности VLM за пределы традиционного создания описаний.

Как была создана FineVision

Процесс курирования базы данных состоял из трех этапов:

  1. Сбор и дополнение: Собрано более 200 публичных наборов данных изображений и текста. Недостающие модальности были отформатированы в пары вопросов и ответов. Недостаточно представленные области, такие как данные интерфейса, были дополнены целенаправленным сбором.
  2. Очистка: Удалены слишком большие пары вопросов и ответов. Большие изображения были уменьшены до максимума 2048 пикселей, сохраняя соотношение сторон. Испорченные образцы были исключены.
  3. Оценка качества: Каждая пара вопросов и ответов была оценена по четырем критериям: качество форматирования текста, релевантность вопроса и ответа, визуальная зависимость, соответствие изображения и вопроса.

Сравнительный анализ: FineVision против существующих открытых наборов данных

FineVision не только один из крупнейших наборов данных, но и с наименьшим уровнем «галлюцинаций» — всего 1% пересечения с тестовыми наборами. Это обеспечивает минимальное утечку данных и надежную оценку производительности.

Инсайты по производительности

Модели, обученные на FineVision, показывают стабильное улучшение с увеличением разнообразия данных. Эксперименты по дедупликации подтверждают низкую утечку FineVision по сравнению с другими наборами данных. Многоязычные подмножества, даже при монолингвальной основе, показывают небольшие приросты производительности, что говорит о том, что разнообразие важнее строгого выравнивания.

FineVision устанавливает новый стандарт

  • +20% средний прирост производительности: Превосходит все существующие открытые наборы данных по более чем 10 бенчмаркам.
  • Беспрецедентный масштаб: Более 17 миллионов изображений, 24 миллиона образцов, 10 миллиардов токенов.
  • Расширение навыков: Включает навигацию по интерфейсу, подсчет, указание и анализ документов.
  • Наименьшая утечка данных: Всего 1% загрязнения, по сравнению с 2-3% в других наборах данных.
  • Полностью открытый исходный код: Доступен на Hugging Face Hub для немедленного использования через библиотеку наборов данных.

Заключение

FineVision представляет собой значительный шаг вперед в области открытых многомодальных наборов данных. Его большой масштаб, систематическое курирование и прозрачные оценки качества создают воспроизводимую и расширяемую основу для обучения современных моделей «визуальный-язык». Уменьшая зависимость от закрытых ресурсов, он позволяет исследователям и разработчикам создавать конкурентоспособные системы и ускорять прогресс в таких областях, как анализ документов, визуальное рассуждение и многомодальные задачи.

Изучите набор данных и технические детали. Не забудьте посетить нашу страницу на GitHub для учебных материалов, кода и ноутбуков. Также подписывайтесь на нас в Twitter и присоединяйтесь к нашему сообществу в Reddit с более чем 100 тысячами участников!

Новости в сфере искусственного интеллекта