Введение
Современные достижения в области больших языковых моделей (LLM), таких как o1/3 от OpenAI и DeepSeek-R1, открывают новые горизонты в автоматизации бизнес-процессов и принятии решений. Однако, несмотря на впечатляющие результаты, остаётся неясным, как именно эти модели обрабатывают информацию и делают выводы. Мы часто сосредотачиваемся на точности конечного ответа, что затушёвывает важные аспекты логического рассуждения.
Недостатки оценки конечных ответов в математике и медицине
Хотя LLM добились значительного прогресса в решении задач, связанных с математикой и медициной, основное внимание уделялось улучшению точности ответов, а не пониманию процесса рассуждения. Ранее применяемые методы оценки выявляли фактические ошибки в цепочках рассуждений, но не всегда обеспечивали логическую обоснованность. Модели часто полагаются на внутренние знания или предыдущие выводы, что может привести к недопониманию.
Новая структура для разделения знаний и логики в рассуждении LLM
Группа исследователей из Университета Калифорнии в Санта-Крузе, Стэнфорда и университета Тунцзи предложила новую структуру, которая разбивает рассуждения LLM на два ключевых компонента: фактические знания и логические шаги. Эта структура использует два метрики: Индекс Знаний (KI) для оценки фактической точности и Прирост Информации (InfoGain) для оценки качества рассуждений. Их анализ моделей Qwen в математических и медицинских задачах показывает, что навыки рассуждения не всегда передаются между разными областями.
Оценка рассуждений с помощью моделей Qwen2.5-7B и DeepSeek-R1
Исследователи оценили рассуждения LLM, анализируя модели Qwen2.5-7B и её дистиллированную версию DeepSeek-R1, обученные с использованием методов контролируемого обучения (SFT) и обучения с подкреплением (RL). Используя задачи из математики и медицины, они разложили ответы моделей на логические шаги и оценили их с помощью двух метрик: Прирост Информации и Индекс Знаний. Этот подход позволил понять, как модели рассуждают и выявить области, где они могут не достигать точности или логической обоснованности.
Сравнение контролируемого обучения и обучения с подкреплением в специфических областях
В исследовании сравнивались две вариации Qwen-2.5-7B — Qwen-Base и дистиллированная Qwen-R1, особенно в медицинских задачах. Результаты показали, что Qwen-Base стабильно превосходит Qwen-R1 по точности, сохранению знаний и глубине рассуждений, особенно после SFT и RL. Дистиллированная модель может испытывать трудности из-за предвзятости к математике и коду, что приводит к несоответствию для медицинских приложений. Замечено, что SFT более эффективно сохраняет медицинские знания, хотя и может немного ослабить эффективность рассуждений. Напротив, RL улучшает как рассуждения, так и сохранение знаний, когда применяется после SFT.
Заключение: к более интерпретируемым и надежным LLM
Данное исследование вводит структуру, которая разделяет знания и рассуждения, с целью улучшения оценки LLM, особенно в критически важных областях, таких как медицина и математика. Исследование показывает, что, хотя контролируемое обучение улучшает фактическую точность — важный элемент в медицинских приложениях, оно может компрометировать глубину рассуждений. В то же время, обучение с подкреплением способствует улучшению рассуждений, фильтруя неточности. Эта структура имеет потенциал применения в различных областях, включая право и финансы, где важны структурированные мыслительные процессы. В итоге, этот подход проясняет механизмы принятия решений LLM и предлагает методы адаптации их обучения к конкретным областям.