Itinai.com mockup of branding agency website on laptop. moder 03f172b9 e6d0 45d8 b393 c8a3107c17e2 2

Фракционное рассуждение в LLM: новый подход к контролю глубины вывода

Itinai.com mockup of branding agency website on laptop. moder 03f172b9 e6d0 45d8 b393 c8a3107c17e2 2

Введение: Проблемы унифицированного рассуждения во время вывода

Современные большие языковые модели (LLMs) достигли значительных успехов в различных областях, но эффективность их работы во многом зависит от вычислительных ресурсов во время вывода. Традиционные подходы к вычислениям применяют унифицированное рассуждение для всех задач, что может привести к снижению качества ответов и излишним затратам. Важно, чтобы LLM могли динамически регулировать глубину рассуждения, чтобы оптимизировать свои результаты.

Предыдущие исследования: Управление латентными состояниями

Исследования в этой области уже рассматривали различные методы улучшения рассуждений LLM через масштабирование во время вывода и контроль латентных состояний. Техники, такие как Chain-of-Thought (CoT), помогают моделям разбивать сложные задачи на промежуточные шаги, что улучшает качество рассуждений. Кроме того, модели оценки результатов (ORM) и модели оценки процессов (PRM) анализируют сгенерированные ответы на основе их правильности или качества внутреннего рассуждения.

Предлагаемая структура: Фракционное рассуждение для адаптивного вывода

Исследователи Стэнфордского университета представили концепцию Фракционного Рассуждения (FR), которая не требует обучения и является модельно-агностичной. FR изменяет поведение рассуждения, регулируя внутренние представления модели и применяя изменяющийся коэффициент масштабирования. Это позволяет моделям варьировать глубину рассуждения без изменения исходного текста или необходимости дообучения.

Бенчмаркинг: Повышение производительности в задачах рассуждения

FR была протестирована на трех бенчмарках, требующих многоступенчатого рассуждения: GSM8K, MATH500 и GPQA. В экспериментах использовались конкурентоспособные модели, такие как Qwen2.5-7B-Instruct и LLaMA-3.1-8B-Instruct, которые продемонстрировали сильные способности к рассуждению. FR последовательно превосходила стандартные методы вычислений во всех тестах, значительно улучшая производительность.

Поведение и универсальность Фракционного Рассуждения

Дальнейший анализ FR показывает его динамику и общую применимость. Увеличение параметра масштабирования приводит к более длинным и детализированным выводам, что подтверждает эффективность метода. FR также демонстрирует улучшение точности при применении к специализированным моделям, таким как DeepSeek-R1-Distill-Qwen-7B.

Заключение: К более динамичному и эффективному выводу LLM

Фракционное Рассуждение предлагает модельно-агностичную структуру, направленную на улучшение вычислений во время вывода за счет адаптивного контроля поведения рассуждения. Этот подход позволяет более точно и эффективно распределять вычислительные ресурсы, устраняя ограничения унифицированного рассуждения. В будущем исследователи могут сосредоточиться на разработке адаптивных политик для полностью динамичного вывода, что откроет новые горизонты в области искусственного интеллекта.

Новости в сфере искусственного интеллекта