Проблема галлюцинаций в языковых моделях: причины и решения

От предобучения к постобучению: почему языковые модели «галлюцинируют» и как методы оценки усугубляют проблему

В мире искусственного интеллекта языковые модели становятся все более популярными. Однако их использование не обходится без проблем, особенно когда речь идет о «галлюцинациях» — ошибочных выводах, которые могут ввести в заблуждение пользователей. В этой статье мы рассмотрим, почему это происходит и как методы оценки могут усугублять ситуацию.

Что такое галлюцинации и почему они возникают?

Галлюцинации в языковых моделях — это, по сути, ошибки, возникающие из-за особенностей генеративного моделирования. Даже если данные для обучения чистые, статистические давления, возникающие в процессе предобучения, могут привести к ошибкам. Исследования показывают, что уровень ошибок генерации в языковых моделях как минимум в два раза превышает уровень неправильной классификации, определяемой в задаче «Является ли это правильным?» (Is-It-Valid, IIV).

Редкие факты и их влияние на галлюцинации

Одним из факторов, способствующих возникновению галлюцинаций, является так называемая «доля синглтонов» — процент фактов, которые встречаются только один раз в обучающих данных. Если 20% фактов являются синглтонами, то как минимум 20% из них могут быть «галлюцинированы». Это объясняет, почему модели хорошо справляются с часто встречающимися фактами, но могут ошибаться в случае редких или неочевидных данных.

Как качество моделей влияет на галлюцинации?

Галлюцинации могут возникать также из-за недостатков в классах моделей, которые неадекватно представляют паттерны. Например, n-граммные модели могут генерировать грамматически неправильные предложения, а токенизированные модели могут неправильно считать буквы из-за скрытых символов. Эти ограничения могут приводить к систематическим ошибкам даже при наличии достаточного объема данных.

Постобучение и его недостатки

Методы постобучения, такие как обучение с подкреплением на основе человеческой обратной связи (RLHF), могут уменьшить некоторые ошибки, особенно те, которые связаны с вредоносными или конспирологическими выводами. Однако, несмотря на это, «галлюцинации» продолжают возникать из-за несоответствия в оценке. Современные методы оценки, как правило, используют бинарное оценивание: правильные ответы получают баллы, а неправильные — минимальные штрафы. Это создает стимулы для моделей угадывать, а не выражать неуверенность, что приводит к большему количеству галлюцинаций.

Как таблицы лидеров усугубляют проблему?

Большинство оценочных систем используют бинарную оценку без частичного кредита за неуверенность. В результате модели, которые выражают неуверенность, получают более низкие баллы, чем те, которые постоянно угадывают. Это приводит к тому, что разработчики стремятся оптимизировать модели для уверенных ответов, а не для откалиброванных реакций.

Что можно сделать, чтобы уменьшить галлюцинации?

Для решения проблемы галлюцинаций необходимы социотехнические изменения, а не только новые оценочные системы. Исследователи предлагают ввести явные цели по уверенности в оценках, рекомендуя наказывать за неправильные ответы и предоставлять частичный кредит за отказ от ответа. Например, можно установить правило: «Отвечайте только если уверены более чем на 75%. Ошибки теряют 2 балла; правильные ответы приносят 1 балл; «Не знаю» — 0 баллов». Такой подход способствует более реалистичному тестированию и помогает моделям воздерживаться от ответов, когда их уверенность ниже порога, что снижает количество уверенных галлюцинаций.

Широкие последствия

Это исследование переосмысляет галлюцинации как предсказуемые результаты целей обучения и несоответствия в оценке, а не как необъяснимые аномалии. Ключевые выводы включают:

Неизбежность предобучения: Галлюцинации аналогичны ошибкам классификации в обучении с учителем.
Укрепление постобучения: Бинарные схемы оценивания создают стимулы для угадывания.
Реформа оценки: Корректировка основных оценок для поощрения неуверенности может изменить стимулы и повысить уровень доверия.

Связывая галлюцинации с установленными теориями обучения, исследование проясняет их происхождение и предлагает практические стратегии смягчения, которые смещают ответственность с архитектур моделей на дизайн оценки.

Для дальнейшего изучения

Изучите данное исследование и технические детали. Ознакомьтесь с нашей страницей на GitHub для получения учебных материалов, кода и записных книжек. Подписывайтесь на нас в Twitter для получения обновлений и присоединяйтесь к нашему сообществу на ML SubReddit с более чем 100,000 участников. Не забудьте подписаться на нашу рассылку.