AegisLLM: Увеличение безопасности LLM через адаптивные многоагентные системы в момент вывода

Постоянная угроза для больших языковых моделей (LLM)

Большие языковые модели (LLM) становятся все более привлекательной целью для кибератак. Атаки, такие как инъекция команд и извлечение конфиденциальных данных, становятся все более изощренными. Существующие методы защиты часто оказываются неэффективными, так как они основаны на статических мерах, которые легко обойти. Текущие методы безопасности в основном сосредоточены на интервенциях во время обучения, что не позволяет им справляться с новыми угрозами, возникающими после развертывания модели.

Недостатки существующих методов безопасности LLM

Методы, такие как обучение с подкреплением на основе человеческой обратной связи (RLHF) и доработка безопасности, пытались улучшить модели во время обучения, но их эффективность против новых атак после развертывания оставляет желать лучшего. Системные меры предосторожности и стратегии тестирования показывают свою хрупкость при столкновении с враждебными манипуляциями. Текущие методы «разучивания» не обеспечивают полного удаления конфиденциальной информации, что делает ее уязвимой для повторного появления. В связи с этим возникает необходимость в переходе к мерам безопасности на этапе тестирования и на уровне системы.

AegisLLM: адаптивная система безопасности на этапе вывода

AegisLLM, разработанная исследователями из Университета Мэриленда, Лоуренс Ливерморской национальной лаборатории и Capital One, предлагает структуру для повышения безопасности LLM через кооперативную многоагентную систему, работающую в режиме вывода. Эта система состоит из автономных агентов, которые в реальном времени мониторят, анализируют и смягчают враждебные угрозы. Ключевые компоненты AegisLLM включают:

Оркестратор: управляет общей структурой безопасности.
Дефлектор: идентифицирует и смягчает потенциальные угрозы.
Респондент: предоставляет соответствующие ответы на запросы.
Оценщик: оценивает эффективность мер безопасности.

Эта архитектура позволяет адаптироваться в реальном времени к изменяющимся стратегиям атак, сохраняя при этом утилитарность модели и исключая необходимость повторного обучения модели.

Скоординированный агентный поток и оптимизация запросов

AegisLLM функционирует через скоординированный поток специализированных агентов, каждый из которых отвечает за определенные функции, работая в сотрудничестве для обеспечения безопасности выводимых данных. Каждый агент руководствуется системными запросами, которые определяют его роль и поведение. Однако вручную созданные запросы часто неэффективны в критически важных сценариях безопасности. Поэтому система автоматически оптимизирует запросы каждого агента для повышения эффективности через итеративный процесс.

Оценка AegisLLM: WMDP, TOFU и защита от взлома

На бенчмарке WMDP с использованием Llama-3-8B AegisLLM показала наименьшую точность по ограниченным темам среди всех методов, с точностью WMDP-Cyber и WMDP-Bio, приближающейся к 25% от теоретического минимума. На бенчмарке TOFU она достигла практически идеальной точности выявления по моделям Llama-3-8B, Qwen2.5-72B и DeepSeek-R1, при этом Qwen2.5-72B приблизилась к 100% точности по всем подмножествам. В защите от взлома AegisLLM продемонстрировала высокую эффективность против попыток атак, сохраняя при этом адекватные ответы на законные запросы, достигнув 0.038 по StrongREJECT — конкурентоспособный результат по сравнению с передовыми методами — и 88.5% уровня соблюдения без обширного обучения, что усиливает защитные возможности.

Заключение: переосмысление безопасности LLM как координации агентов на этапе вывода

В заключение, AegisLLM переосмысливает безопасность LLM как динамическую многоагентную систему, работающую на этапе вывода. Ее успех подчеркивает необходимость рассматривать безопасность как возникающее поведение от координированных специализированных агентов, а не как статическую характеристику модели. Этот переход от статических интервенций на этапе обучения к адаптивным механизмам защиты на этапе вывода устраняет ограничения текущих методов, обеспечивая адаптивность в реальном времени против развивающихся угроз. Такие структуры, как AegisLLM, которые способствуют динамической и масштабируемой безопасности, будут иметь решающее значение для ответственного развертывания ИИ по мере дальнейшего развития языковых моделей.