Itinai.com it development details code screens blured futuris fbff8340 37bc 4b74 8a26 ef36a0afb7bc 3

Параллельное мышление для масштабирования вычислений LLM в реальном времени

Itinai.com it development details code screens blured futuris fbff8340 37bc 4b74 8a26 ef36a0afb7bc 3

ПараТинкер: Масштабирование вычислений LLM с помощью параллельного мышления для преодоления туннельного зрения в последовательном рассуждении

Современные большие языковые модели (LLM) открывают новые горизонты в области искусственного интеллекта, но они также сталкиваются с серьезными ограничениями, особенно в контексте последовательного рассуждения. ПараТинкер предлагает инновационное решение, которое позволяет преодолеть эти барьеры и значительно повысить эффективность и точность моделей.

Почему последовательные LLM сталкиваются с ограничениями?

Традиционно масштабирование вычислений в LLM основывалось на расширении единственного пути рассуждения. Этот подход, хотя и улучшает результаты в ограниченном диапазоне, быстро достигает плато производительности. Исследования показывают, что увеличение бюджета токенов свыше 32K (до 128K) приводит к незначительным приростам точности. Проблема заключается в раннем обязательстве токенов, где начальные ошибки распространяются по всей цепочке рассуждений. Это явление, известное как туннельное зрение, указывает на то, что проблема масштабирования является методологической, а не фундаментальной.

Как ПараТинкер вводит параллельное мышление?

Команда исследователей из Университета Цинхуа разработала ПараТинкер — комплексную систему, которая обучает LLM генерировать несколько разнообразных путей рассуждения параллельно и синтезировать их в окончательный ответ. ПараТинкер реализует параллельное мышление, генерируя несколько траекторий рассуждения одновременно и объединяя их в финальный ответ.

Ключевые архитектурные компоненты:

  • Специальные управляющие токены () для инициации различных путей рассуждения.
  • Эмбеддинги позиционных токенов, специфичных для мысли, для различения токенов по путям и предотвращения коллапса при суммировании.
  • Двухфазные маски внимания, обеспечивающие независимость путей во время рассуждения и контролируемую интеграцию при генерации ответа.

Критическое улучшение эффективности достигается за счет повторного использования KV-кэшей с этапа рассуждения на этапе суммирования, что исключает избыточное предварительное заполнение.

Как ПараТинкер обучается для параллельного рассуждения?

Обучение проводилось с использованием наборов данных для многопутевого рассуждения. Данные были собраны путем выборки нескольких путей решений из моделей-учителей. Каждый пример включал несколько траекторий и финальное решение

. Случайная выборка токенов обеспечивала обобщение на большее количество путей во время вывода, чем было видно в обучении.

Финальная настройка проводилась на моделях Qwen-2.5 с 1.5B и 7B параметрами. Источники данных включали Open-R1, DeepMath и другие, дополненные дополнительными решениями, выборка которых проводилась при температуре 0.8. Обучение проходило на нескольких GPU A800.

Каковы экспериментальные результаты?

Оценка на AIME 2024, AIME 2025, AMC 2023 и MATH-500 показала следующие результаты:

Точность:

  • 1.5B ПараТинкер достиг +12.3% точности по сравнению с последовательными базами и +4.3% по сравнению с большинством голосований.
  • 7B ПараТинкер достиг +7.5% точности по сравнению с последовательными и +2.0% по сравнению с большинством голосований.
  • С 8 путями рассуждения ПараТинкер-1.5B достиг 63.2% pass@1, превысив последовательные 7B модели при эквивалентных бюджетах.

Эффективность:

  • Задержка от параллельного рассуждения составила в среднем 7.1%.
  • Генерация 16 путей заняла менее чем в 2 раза больше времени, чем генерация одного пути благодаря улучшенному использованию памяти GPU.
  • Стратегия завершения: подход «Первый завершивший» показал лучшие результаты по точности и задержке по сравнению с другими стратегиями.

Что показывают абляционные исследования?

Финальная настройка только на наборах данных (без модификаций ПараТинкера) не привела к улучшению производительности, подтверждая, что приросты происходят благодаря архитектурным инновациям. Удаление эмбеддингов мысли снижало точность, в то время как наивные упрощенные кодировки приводили к серьезным деградациям. Повторное заполнение базовых данных ухудшалось с увеличением числа путей, что подтверждает вычислительные преимущества повторного использования KV-кэша.

Как ПараТинкер сравнивается с другими методами?

Традиционные параллельные стратегии, такие как большинство голосований и самосогласованность, требуют внешних проверяющих или постфактумного выбора, что ограничивает масштабируемость. Архитектурные подходы, такие как PARSCALE, требуют структурных изменений и предварительного обучения. В отличие от них, ПараТинкер сохраняет основу Transformer и вводит параллелизм на этапе рассуждения, интегрируя несколько KV-кэшей в единый этап суммирования.

Итог

ПараТинкер демонстрирует, что узкие места масштабирования вычислений во время тестирования являются артефактом стратегий последовательного рассуждения. Распределяя вычисления по ширине (параллельные траектории), а не по глубине (длинные цепочки), более мелкие модели могут превосходить значительно большие базы с минимальными задержками. Это устанавливает параллельное мышление как критическое направление для будущего масштабирования LLM.

Для получения более подробной информации ознакомьтесь с документом. Также посетите нашу страницу на GitHub для получения учебных материалов, кода и блокнотов. Не забудьте подписаться на нашу страницу в Twitter и присоединиться к нашему сообществу на Reddit.

Новости в сфере искусственного интеллекта