Itinai.com it development details code screens blured futuris c6679a58 04d0 490e 917c d214103a6d65 1

Улучшение логического мышления Llama 3 с помощью постобучения

Itinai.com it development details code screens blured futuris c6679a58 04d0 490e 917c d214103a6d65 1

«`html

Возможности улучшения логики Llama 3 с помощью пост-тренировки

В последние годы искусственный интеллект (ИИ) стал неотъемлемой частью бизнеса, и его применение в различных областях продолжает расти. Одним из наиболее обсуждаемых аспектов является улучшение логических способностей больших языковых моделей (LLM), таких как Llama 3. Исследование, проведенное Meta AI и Университетом Вашингтона, представило ASTRO — инновационный подход, который демонстрирует, как можно повысить качество рассуждений моделей без необходимости в значительных архитектурных изменениях.

Что такое ASTRO?

ASTRO (Autoregressive Search-Taught Reasoner) — это метод пост-тренировки, который нацелен на улучшение логики Llama 3. Основная идея заключается в том, чтобы обучить модель выполнять поиск в контексте, самоанализ и возврат к предыдущим шагам. Эти механизмы напоминают человеческое решение проблем и традиционные алгоритмы символического поиска.

Как ASTRO улучшает производительность?

Методология ASTRO включает использование Монте-Карло Деревьев Поиска (MCTS) для изучения путей решения математических задач. Этот подход позволяет исследовать как правильные, так и неправильные пути рассуждений. Ключевым нововведением является клонирование процедур: целые деревья поиска линейно преобразуются в длинные цепочки рассуждений (CoT), которые естественным образом кодируют как ошибки, так и исправления.

В результате применения ASTRO, Llama 3 продемонстрировала значительные улучшения в производительности на нескольких конкурентных тестах:

  • MATH 500: 65.8% ➝ 81.8%
  • AMC 2023: 37.5% ➝ 64.4%
  • AIME 2024: 10.0% ➝ 30.0%

Супервизируемая дообучение: внедрение поисковых приоритетов

ASTRO дообучает Llama 3 на 36.1K отобранных решений CoT из различных наборов данных. Результаты показывают, что модель, обученная с использованием ASTRO, достигает:

  • MATH 500: 69.6%
  • AMC 2023: 51.9%
  • AIME 2024: 16.3%

Эти результаты сопоставимы или превосходят показатели базовых моделей, обученных без явных поисковых приоритетов.

Обучение с подкреплением с учетом поиска

ASTRO также включает этап обучения с подкреплением, где модель инициализируется с контрольной точки SFT и проходит через цикл RL с использованием модифицированной оптимизации политики. В отличие от стандартного подхода, ASTRO использует проверяемые сигналы вознаграждения, что позволяет значительно улучшить качество рассуждений модели.

Результаты модели ASTRO-RL

В результате применения ASTRO-RL, модель достигла следующих показателей:

  • MATH 500: 81.8%
  • AMC 2023: 64.4%
  • AIME 2024: 30.0%

Интересно, что наблюдается положительная корреляция между частотой возвратов и успешностью рассуждений. Модель становится более самокорректирующей и глубже исследует возможные решения.

Сравнительные результаты и влияние на отрасль

Контрольные эксперименты показывают, что ASTRO превосходит модели, обученные на прямых решениях CoT. Например, ASTRO-RL обходит Direct-RL на:

  • +2% на MATH 500
  • +3.9% на AMC 2023
  • +2.9% на AIME 2024

Выходы ASTRO можно визуализировать в виде направленных графов, что облегчает интерпретацию и понимание логических шагов модели.

Заключение

ASTRO демонстрирует, что большие языковые модели, такие как Llama 3, могут улучшить свои логические способности не за счет увеличения размеров моделей или продленного предварительного обучения, а благодаря принципиальным методам пост-тренировки. Подобный подход открывает новые горизонты для применения ИИ в бизнесе, позволяя моделям мыслить перед тем, как ответить, сомневаться в своих шагах и корректировать себя в процессе рассуждения.

Исследование ASTRO — это шаг вперед в области улучшения ИИ, который может значительно повлиять на эффективность бизнес-процессов и принятие решений. Не упустите возможность ознакомиться с полным текстом исследования и следить за последними новостями в мире машинного обучения.

«`

Новости в сфере искусственного интеллекта