Itinai.com overwhelmed ui interface google style million butt 4839bc38 e4ae 425e bf30 fe84f7941f4c 2

Риски конфиденциальности в моделях LLM: новое исследование AI

Itinai.com overwhelmed ui interface google style million butt 4839bc38 e4ae 425e bf30 fe84f7941f4c 2

Новые исследования ИИ: риски конфиденциальности в следах рассуждений LLM

В последние годы большие языковые модели (LLM) становятся все более популярными в качестве персональных помощников. Они получают доступ к чувствительным данным пользователей через персонализированные ИИ-агенты. Однако это вызывает серьезные опасения по поводу конфиденциальности и способности этих агентов определять, когда делиться конкретной информацией о пользователе уместно. Модели с расширенным рассуждением (LRM) представляют собой особую проблему, так как они работают через неструктурированные и непрозрачные процессы, что затрудняет понимание того, как чувствительная информация передается от ввода к выводу. Исследования показывают, что следы рассуждений LRM усложняют защиту конфиденциальности.

Предыдущие исследования: оценка конфиденциальности в контексте

Ранее проводились исследования, касающиеся конфиденциальности в LLM, с использованием различных методов. Например, рамки контекстной целостности определяют конфиденциальность как правильный поток информации в социальных контекстах. Были разработаны такие бенчмарки, как DecodingTrust и AirGapAgent, которые оценивают соблюдение конфиденциальности через структурированные подсказки. Однако все они нацелены на модели, не использующие рассуждения. В то же время, тестовое вычисление (TTC) позволяет структурировать рассуждения во время вывода, но остаются вопросы безопасности, так как исследования показывают, что LRM, такие как DeepSeek-R1, могут генерировать следы рассуждений, содержащие вредоносный контент, несмотря на безопасные конечные ответы.

Вклад исследования: оценка LRM для контекстной конфиденциальности

Группа исследователей из различных университетов и лабораторий представила первое сравнение LLM и LRM в качестве персональных агентов. Исследование показало, что хотя LRM превосходят LLM по полезности, это преимущество не распространяется на защиту конфиденциальности. Основные достижения исследования включают:

  • Установление оценки контекстной конфиденциальности для LRM с использованием двух бенчмарков: AirGapAgent-R и AgentDAM.
  • Выявление следов рассуждений как новой поверхности атаки на конфиденциальность, показывая, что LRM рассматривают свои следы рассуждений как частные заметки.
  • Исследование механизмов утечки конфиденциальности в моделях рассуждений.

Методология: оценка конфиденциальности в агентных условиях

Исследование использует два подхода для оценки контекстной конфиденциальности в моделях рассуждений. Первый подход включает целевые запросы с использованием AirGapAgent-R для проверки явного понимания конфиденциальности. Второй подход, агентный, использует AgentDAM для оценки неявного понимания конфиденциальности в трех областях: покупки, Reddit и GitLab. Оценка проводилась на 13 моделях с количеством параметров от 8 миллиардов до более 600 миллиардов, включая как обычные LLM, так и LRM.

Анализ: типы и механизмы утечки конфиденциальности в LRM

Исследование выявило различные механизмы утечки конфиденциальности в LRM. Наиболее распространенной причиной является неправильное понимание контекста, что составляет 39,8% случаев. Также выделяются случаи относительной чувствительности (15,6%), когда модели оправдывают раскрытие информации на основе видимых рейтингов чувствительности различных полей данных. Поведение доброй воли (10,9%) наблюдается, когда модели предполагают, что раскрытие допустимо просто потому, что кто-то запрашивает информацию. Повторное рассуждение (9,4%) происходит, когда внутренние мысли проникают в окончательные ответы, нарушая предполагаемое разделение между рассуждением и ответом.

Заключение: балансировка полезности и конфиденциальности в моделях рассуждений

В заключение, исследование впервые рассматривает, как LRM обрабатывают контекстную конфиденциальность в различных условиях. Результаты показывают, что увеличение бюджета вычислений во время тестирования улучшает конфиденциальность конечных ответов, но также делает более доступными процессы рассуждений, содержащие чувствительную информацию. Существует настоятельная необходимость в будущих стратегиях смягчения и согласования, которые будут защищать как процессы рассуждений, так и конечные результаты. Исследование ограничено фокусом на открытых моделях и использованием пробных установок вместо полностью агентных конфигураций, однако эти выборы обеспечивают более широкий охват моделей и способствуют прозрачности.

Обязательно ознакомьтесь с полным текстом исследования. Все заслуги за это исследование принадлежат его авторам. Также не забудьте подписаться на нашу рассылку и следить за нами в социальных сетях.

Новости в сфере искусственного интеллекта