ПараТинкер: Масштабирование вычислений LLM с помощью параллельного мышления для преодоления туннельного зрения в последовательном рассуждении
Современные большие языковые модели (LLM) открывают новые горизонты в области искусственного интеллекта, но они также сталкиваются с серьезными ограничениями, особенно в контексте последовательного рассуждения. ПараТинкер предлагает инновационное решение, которое позволяет преодолеть эти барьеры и значительно повысить эффективность и точность моделей.
Почему последовательные LLM сталкиваются с ограничениями?
Традиционно масштабирование вычислений в LLM основывалось на расширении единственного пути рассуждения. Этот подход, хотя и улучшает результаты в ограниченном диапазоне, быстро достигает плато производительности. Исследования показывают, что увеличение бюджета токенов свыше 32K (до 128K) приводит к незначительным приростам точности. Проблема заключается в раннем обязательстве токенов, где начальные ошибки распространяются по всей цепочке рассуждений. Это явление, известное как туннельное зрение, указывает на то, что проблема масштабирования является методологической, а не фундаментальной.
Как ПараТинкер вводит параллельное мышление?
Команда исследователей из Университета Цинхуа разработала ПараТинкер — комплексную систему, которая обучает LLM генерировать несколько разнообразных путей рассуждения параллельно и синтезировать их в окончательный ответ. ПараТинкер реализует параллельное мышление, генерируя несколько траекторий рассуждения одновременно и объединяя их в финальный ответ.
Ключевые архитектурные компоненты:
- Специальные управляющие токены (
) для инициации различных путей рассуждения. - Эмбеддинги позиционных токенов, специфичных для мысли, для различения токенов по путям и предотвращения коллапса при суммировании.
- Двухфазные маски внимания, обеспечивающие независимость путей во время рассуждения и контролируемую интеграцию при генерации ответа.
Критическое улучшение эффективности достигается за счет повторного использования KV-кэшей с этапа рассуждения на этапе суммирования, что исключает избыточное предварительное заполнение.
Как ПараТинкер обучается для параллельного рассуждения?
Обучение проводилось с использованием наборов данных для многопутевого рассуждения. Данные были собраны путем выборки нескольких путей решений из моделей-учителей. Каждый пример включал несколько траекторий
Финальная настройка проводилась на моделях Qwen-2.5 с 1.5B и 7B параметрами. Источники данных включали Open-R1, DeepMath и другие, дополненные дополнительными решениями, выборка которых проводилась при температуре 0.8. Обучение проходило на нескольких GPU A800.
Каковы экспериментальные результаты?
Оценка на AIME 2024, AIME 2025, AMC 2023 и MATH-500 показала следующие результаты:
Точность:
- 1.5B ПараТинкер достиг +12.3% точности по сравнению с последовательными базами и +4.3% по сравнению с большинством голосований.
- 7B ПараТинкер достиг +7.5% точности по сравнению с последовательными и +2.0% по сравнению с большинством голосований.
- С 8 путями рассуждения ПараТинкер-1.5B достиг 63.2% pass@1, превысив последовательные 7B модели при эквивалентных бюджетах.
Эффективность:
- Задержка от параллельного рассуждения составила в среднем 7.1%.
- Генерация 16 путей заняла менее чем в 2 раза больше времени, чем генерация одного пути благодаря улучшенному использованию памяти GPU.
- Стратегия завершения: подход «Первый завершивший» показал лучшие результаты по точности и задержке по сравнению с другими стратегиями.
Что показывают абляционные исследования?
Финальная настройка только на наборах данных (без модификаций ПараТинкера) не привела к улучшению производительности, подтверждая, что приросты происходят благодаря архитектурным инновациям. Удаление эмбеддингов мысли снижало точность, в то время как наивные упрощенные кодировки приводили к серьезным деградациям. Повторное заполнение базовых данных ухудшалось с увеличением числа путей, что подтверждает вычислительные преимущества повторного использования KV-кэша.
Как ПараТинкер сравнивается с другими методами?
Традиционные параллельные стратегии, такие как большинство голосований и самосогласованность, требуют внешних проверяющих или постфактумного выбора, что ограничивает масштабируемость. Архитектурные подходы, такие как PARSCALE, требуют структурных изменений и предварительного обучения. В отличие от них, ПараТинкер сохраняет основу Transformer и вводит параллелизм на этапе рассуждения, интегрируя несколько KV-кэшей в единый этап суммирования.
Итог
ПараТинкер демонстрирует, что узкие места масштабирования вычислений во время тестирования являются артефактом стратегий последовательного рассуждения. Распределяя вычисления по ширине (параллельные траектории), а не по глубине (длинные цепочки), более мелкие модели могут превосходить значительно большие базы с минимальными задержками. Это устанавливает параллельное мышление как критическое направление для будущего масштабирования LLM.
Для получения более подробной информации ознакомьтесь с документом. Также посетите нашу страницу на GitHub для получения учебных материалов, кода и блокнотов. Не забудьте подписаться на нашу страницу в Twitter и присоединиться к нашему сообществу на Reddit.












