Itinai.com user using ui app iphone15 closeup hands photo can a757815c 1405 470a 99ad 8da436e99421 0

Оценка визуальных возможностей мультимодальных моделей на примере GPT-4o

Itinai.com user using ui app iphone15 closeup hands photo can a757815c 1405 470a 99ad 8da436e99421 0

Возможности GPT-4o: понимает текст, но видит ли ясно?

Модели многомодального обучения (MFM), такие как GPT-4o, стали настоящим прорывом в области искусственного интеллекта. Они показывают впечатляющие результаты в текстовых задачах, но как обстоит дело с их способностями к визуальному восприятию? Исследование, посвященное оценке этих моделей на задачах компьютерного зрения, поднимает важные вопросы о том, насколько хорошо GPT-4o и подобные ему модели могут справляться с визуальными задачами.

Текущая ситуация в оценке визуальных способностей

Несмотря на успехи MFMs в интеграции текстового и визуального понимания, их эффективность в задачах, требующих глубокого визуального восприятия, остается под вопросом. Большинство существующих тестов сосредоточены на текстовых выводах, что затрудняет справедливое сравнение с моделями, специально разработанными для работы с изображениями. Например, в исследованиях часто используются визуальные вопросы и ответы, где акцент ставится на текст, а не на истинное визуальное восприятие.

Исследование возможностей GPT-4o

Недавнее исследование, проведенное в EPFL, оценивало несколько известных MFMs, включая GPT-4o, по основным задачам компьютерного зрения, таким как сегментация и обнаружение объектов. Используя наборы данных, такие как COCO и ImageNet, исследователи разработали стратегию «цепочки подсказок», которая помогает адаптировать визуальные задачи в текстовые форматы, доступные для MFMs.

Как это работает?

Стратегия «цепочки подсказок» разбивает сложные задачи на более простые подзадачи. Например, вместо того чтобы сразу предсказывать границы объектов, модель сначала определяет объекты, а затем находит их, используя рекурсивное обрезание изображений. Такой модульный подход позволяет использовать сильные стороны MFMs в классификации и сравнении.

Результаты исследования

В ходе тестирования GPT-4o показал неплохие результаты: 77.2% на ImageNet и 60.62% средней точности для обнаружения объектов. Однако специализированные модели, такие как ViT-G и Co-DETR, значительно опередили его, показывая до 90.94% точности. В сегментации GPT-4o набрал 44.89% в среднем, в то время как лидер OneFormer достиг 65.52%.

Практическое применение и затраты

Что это значит для бизнеса? GPT-4o, несмотря на свои ограничения, может быть полезен для задач, где требуется базовое понимание визуального контента. Например, его можно применять в системах, где требуется автоматическая генерация описаний изображений или ответов на вопросы о них. Однако важно учитывать высокие затраты на использование таких моделей, что может ограничить их применение в малом бизнесе.

Преимущества использования GPT-4o

  • Интеграция текстового и визуального понимания: Модель может эффективно работать с задачами, где необходимы оба типа данных.
  • Гибкость: Возможность адаптации под разные задачи благодаря стратегии «цепочки подсказок».
  • Потенциал для улучшения: С каждым новым обновлением модели ее возможности будут расти.

Недостатки и ограничения

  • Высокие затраты на использование: Необходимость в мощных вычислительных ресурсах может стать барьером для некоторых компаний.
  • Ограниченная точность в специализированных задачах: Модели все еще отстают от специализированных решений по точности выполнения задач.
  • Чувствительность к формулировкам: Эффективность может зависеть от того, как именно заданы задачи.

Заключение

Исследование показало, что, несмотря на впечатляющие достижения GPT-4o, модели MFMs пока не могут соперничать со специализированными решениями в области компьютерного зрения. Однако они демонстрируют многообещающие результаты в задачах, требующих интеграции текстового и визуального понимания. Для бизнеса это открывает новые горизонты, хотя и с учетом некоторых ограничений и затрат. Будущее MFMs выглядит многообещающим, и с каждым новым шагом мы приближаемся к более совершенным решениям в области автоматизации и ИИ.

Новости в сфере искусственного интеллекта