«`html
Google DeepMind находит фундаментальную ошибку в RAG: ограничения эмбеддингов тормозят извлечение на больших объемах данных
Системы извлечения, дополненные генерацией (RAG), активно используют модели плотных эмбеддингов для отображения запросов и документов в фиксированные многомерные пространственные векторы. Однако недавние исследования команды Google DeepMind выявили основное архитектурное ограничение, которое нельзя решить лишь увеличением размеров моделей или улучшением обучения. Давайте разберемся, какие последствия это может иметь для бизнеса.
Каковы теоретические пределы размерностей эмбеддингов?
Ключевая проблема заключается в репрезентационной способности фиксированных эмбеддингов. Эмбеддинг размерности d не способен представить все возможные комбинации релевантных документов, когда база данных превышает критический размер. Например, для эмбеддингов размером 512 извлечение начинает давать сбои при наличии около 500 тыс. документов. А при 1024 размерностях — уже около 4 миллионов документов. Это означает, что по мере роста базы данных эффективность систем RAG может заметно снижаться.
Как бенчмарк LIMIT демонстрирует эту проблему?
Чтобы проверить это ограничение на практике, команда Google DeepMind разработала бенчмарк LIMIT, который предназначен для стресс-тестирования систем извлечения. LIMIT включает две конфигурации:
- LIMIT full (50K документов): даже сильные модели сталкиваются с проблемами, показатель recall@100 часто падает ниже 20%.
- LIMIT small (46 документов): несмотря на простоту, модели также не справляются с задачей. Лучшие результаты показывают:
- Promptriever Llama3 8B: 54.3% recall@2 (4096d)
- GritLM 7B: 38.4% recall@2 (4096d)
- E5-Mistral 7B: 29.5% recall@2 (4096d)
- Gemini Embed: 33.7% recall@2 (3072d)
Даже с 46 документами не удается добиться полного извлечения, что указывает на то, что ограничение связано не только с размером данных, но и с самой архитектурой одновекторного эмбеддинга.
Почему это важно для RAG?
Современные реализации RAG часто предполагают, что эмбеддинги могут масштабироваться неограниченно с увеличением объема данных. Исследования Google DeepMind подчеркивают, что это предположение ошибочно: размер эмбеддингов ограничивает способность извлечения. Это ограничение затрагивает:
- Корпоративные поисковые системы, управляющие миллионами документов.
- Агентные системы, полагающиеся на сложные логические запросы.
- Задачи извлечения, где запросы динамически определяют релевантность.
Даже продвинутые бенчмарки, такие как MTEB, не могут отобразить эти ограничения, так как они тестируют лишь узкий набор комбинаций запрос-документ.
Каковы альтернативы одновекторным эмбеддингам?
Исследовательская группа предлагает, чтобы масштабируемые решения извлечения отходили от одновекторных эмбеддингов:
- Кросс-кодеры: достигают идеального извлечения на LIMIT, напрямую оценивая пары запрос-документ, но имеют высокую задержку вывода.
- Много-векторные модели (например, ColBERT): предоставляют более выразительное извлечение, назначая несколько векторов на последовательность, что улучшает производительность на задачах LIMIT.
- Разреженные модели (BM25, TF-IDF, нейронные разреженные извлекатели): лучше масштабируются в высокоразмерных поисках, но им не хватает семантической обобщенности.
Ключевое понимание
Анализ показывает, что плотные эмбеддинги, несмотря на их успех, ограничены математическим пределом: они не могут захватить все возможные комбинации релевантности, как только размеры корпуса превышают пределы, связанные с размерностью эмбеддингов. Бенчмарк LIMIT иллюстрирует эту неудачу конкретно:
- На LIMIT full (50K документов): recall@100 падает ниже 20%.
- На LIMIT small (46 документов): даже лучшие модели достигают максимум 54% recall@2.
Классические методы, такие как BM25, а также новые архитектуры, такие как много-векторные извлекатели и кросс-кодеры, остаются необходимыми для разработки надежных систем извлечения на больших объемах данных.
Для более подробного изучения можно ознакомиться с исследовательской статьей. Исследуйте нашу страницу на GitHub для руководств, кодов и ноутбуков. Следите за нами в Twitter и не забудьте присоединиться к нашему сообществу в Reddit, а также подписаться на нашу рассылку.
«`














