MemAgent: Рамки обучения с подкреплением для обработки длинного контекста в LLM

MemAgent: Революционный подход к обработке длинных контекстов в LLM

Сегодня проблемы обработки длинных документов становятся все более актуальными для исследователей и практиков в области искусственного интеллекта. Несмотря на существующие методы, такие как экстраполяция длины и разреженные механизмы внимания, многие из них сталкиваются с ухудшением производительности и высокими вычислительными затратами. В этом контексте на сцену выходит MemAgent – инновационная система на основе обучения с подкреплением, которая предлагает эффективное решение для обработки длинных контекстов.

Проблемы существующих методов

Существующие подходы к моделированию длинных контекстов можно разделить на три основные категории:

Методы экстраполяции длины: Эти методы пытаются увеличить контекстное окно с помощью манипуляций с позиционными встраиваниями, но часто страдают от ухудшения производительности и проблем с масштабированием.
Разреженные и линейные механизмы внимания: Хотя они снижают сложность внимания, обычно требуется переобучение модели с нуля, что добавляет дополнительные затраты.
Сжатие контекста: Использует модули памяти для сжатия длинных входных данных, но часто нарушает стандартное генеративное поведение модели.

Каждый из этих подходов не способен обеспечить три ключевых атрибута: поддержку произвольной длины входа, стабильную точность и эффективную линейную сложность.

MemAgent: Стратегия памяти, похожая на человеческую

MemAgent черпает вдохновение из того, как люди обрабатывают информацию, выделяя ключевые моменты и игнорируя ненужный шум. Он обрабатывает входные данные как поток доказательств, обновляя внутреннюю память на каждом шаге сжатым контекстом. Вот ключевые инновации, которые MemAgent предлагает для решения проблемы обработки длинных контекстов:

Память с фиксированной длиной токенов: Это позволяет сжимать важную информацию и сохранять совместимость с моделью.
Механизм перезаписи по сегментам: Поддерживает бесконечные длины текстов без увеличения объема памяти.
Линейная сложность: Обновление памяти и стоимость декодирования остаются постоянными при обработке каждого сегмента.

Обучение с подкреплением с использованием GRPO

MemAgent рассматривает каждое взаимодействие с фрагментом документа как независимый диалог. Обучение осуществляется с использованием Group Relative Policy Optimization (GRPO) в рамках многопользовательского процесса обучения с подкреплением. Ключевые элементы этого подхода включают:

Правило-основной проверяющий механизм: Вычисляет вознаграждения, сравнивая ответы модели с несколькими истинными значениями.
Сигнал обучения с подкреплением на уровне токенов: Применяется последовательно ко всем диалогам, исходящим из проб.

Такой подход позволяет сосредоточиться на сжатии памяти, актуальной для ответов, и игнорировать отвлекающие факторы.

Оценка производительности

На основе бенчмарка RULER и синтетических наборов данных, таких как HotpotQA и SQuAD, MemAgent был обучен на контекстном окне в 8K и экстраполировал до 3.5 миллионов токенов. Результаты показывают значительное превосходство MemAgent над базовыми моделями, основанными на длинных контекстах.

Например, модель RL-MemAgent-14B сохранила точность выше 95% на бенчмарке RULER, демонстрируя высокую эффективность при работе с длинными контекстами.

Пример использования: Многоступенчатый вопрос-ответ

Рассмотрим запрос: «Кто является режиссером романтической комедии ‘Big Stone Gap’ и в каком городе Нью-Йорка он живет?» MemAgent последовательно отслеживал релевантную информацию, сохраняя память о местоположении и игнорируя нерелевантные фрагменты текста. В финале он правильно обновил память на основе биографии Адрианы Тригини, предоставив точный ответ: «Гринвич-Виллидж, Нью-Йорк».

Теоретическая основа и сложность

MemAgent формулирует авторегрессионную модель с использованием латентных переменных памяти. Это позволяет достичь вычислительной стоимости O(N) и создавать промежуточные данные, удобные для восприятия. Обучение с подкреплением критически важно, поскольку обновления памяти не могут быть изучены методом обратного распространения.

Заключение

MemAgent представляет собой масштабируемое и эффективное решение для трилеммы длинных контекстов: неограниченная длина входа, высокая точность и линейная сложность. Его механизм обновления памяти на основе обучения с подкреплением позволяет LLM обрабатывать многомиллионные входные данные, сохраняя архитектурные изменения на минимальном уровне.

Часто задаваемые вопросы

Q1: Что такое MemAgent?
MemAgent – это система на основе обучения с подкреплением, которая помогает LLM эффективно обрабатывать длинные контексты.

Q2: Чем он отличается от методов внимания и экстраполяции?
В отличие от методов, основанных на внимании, MemAgent использует токенизированную память, обновляемую через обучение с подкреплением.

Q3: На какие модели можно применять MemAgent?
MemAgent совместим с любыми моделями на основе трансформеров и не требует изменений в архитектуре.

Q4: Как он масштабируется с увеличением размера входа?
MemAgent сохраняет линейную вычислительную сложность независимо от длины входа, фиксируя размер памяти.

Q5: Какие практические применения у MemAgent?
Применения включают вопросы-ответы для длинных документов, системы памяти агентов, обзор юридических документов, анализ научной литературы и принятие решений в реальном времени с большим количеством доказательств.