Введение в MEM1
Современные языковые агенты сталкиваются с вызовами управления многоходовыми разговорами, где необходимо извлекать и обновлять информацию по мере развития задач. Традиционные системы часто перегружают память, добавляя все предыдущие взаимодействия в подсказки, что приводит к увеличению использования ресурсов и замедлению работы. Например, в приложениях, таких как помощники по исследованиям или покупкам, последующие вопросы сильно зависят от предыдущего контекста. Однако постоянный рост подсказок создает нагрузку на системные ресурсы.
Ограничения традиционных методов
Языковые модели (LLMs) развились от простого обработки запросов к сложным многошаговым задачам, таким как веб-серфинг и исследования. Несмотря на достижения, такие как ReAct, управление памятью во время многоходовых взаимодействий остается сложной задачей. Применение метода добавления всего предыдущего контекста в каждую подсказку ведет к неэффективному использованию памяти. В то время как существуют внешние инструменты, такие как извлекатели или резюме, их интеграция в процесс рассуждения агента часто оказывается сложной.
Представляем MEM1
Исследователи из MIT, NUS, SMART и Университета Ёнсей разработали MEM1 — фреймворк обучения с подкреплением, который позволяет языковым агентам управлять сложными многоходовыми задачами, сохраняя постоянное использование памяти. Вместо хранения полных историй взаимодействий, MEM1 обновляет компактное внутреннее состояние на каждом шаге, объединяя новую информацию с существующей памятью и отбрасывая ненужные детали. Такой подход повышает эффективность и производительность без необходимости в дополнительных модулях.
Преимущества MEM1
- Улучшенная производительность: В тестах на различных задачах, включая ответы на вопросы в интернете и онлайн-покупки, MEM1 продемонстрировал до 3,5 раз лучшую производительность и 3,7 раз меньшее использование памяти по сравнению с более крупными моделями.
- Общая способность: MEM1 хорошо обобщает на более длинные, невидимые последовательности задач, что делает его универсальным инструментом.
Сочетание обрезки памяти и итеративного рассуждения
MEM1 создан для решения сложных задач рассуждения, сочетая управление памятью с итеративным мышлением. На каждом этапе агент обрабатывает новую информацию и интегрирует её с предыдущими знаниями, формируя консолидированное внутреннее состояние. Затем он обрезает предыдущий контекст, чтобы поддерживать эффективность памяти. Эта структурированная обновление памяти отражает человеческое решение проблем, сосредотачиваясь на ключевой информации и отбрасывая остальное. Исследователи используют обучение с подкреплением для тренировки агента, чтобы он сохранял только релевантные данные, применяя стратегию маскирования во время оптимизации.
Тестирование MEM1
В исследовании оценивалась способность MEM1 справляться со сложными многоходовыми задачами при почти постоянном использовании памяти. Обученный с использованием обучения с подкреплением на модели Qwen2.5-7B, MEM1 был протестирован в условиях ответов на вопросы с использованием извлечения и генерации, а также в веб-навигации. Он сравнивался с несколькими базовыми моделями по метрикам точности и эффективности. Результаты показывают, что MEM1 превосходит другие модели в задачах с длинным горизонтом, сохраняя высокую производительность по мере увеличения сложности задач, используя меньше токенов и отвечая быстрее.
Заключение и будущее MEM1
В заключение, MEM1 — это фреймворк обучения с подкреплением, который улучшает способность языковых агентов эффективно управлять длинными многошаговыми задачами. Поддерживая компактное внутреннее состояние и объединяя новые входные данные с памятью, отбрасывая ненужные данные, MEM1 повышает производительность в таких задачах, как ответы на вопросы и веб-навигация, при этом снижая требования к памяти и вычислительной мощности. Будущая работа направлена на адаптацию MEM1 для открытых задач с неопределенными или отсроченными наградами, расширяя его применения на более широкие и практические сценарии.