Itinai.com it development details code screens blured futuris c6679a58 04d0 490e 917c d214103a6d65 2
Itinai.com it development details code screens blured futuris c6679a58 04d0 490e 917c d214103a6d65 2

CURE: Рамочная система обучения с подкреплением для совместной эволюции кода и генерации юнит-тестов в LLM

Легче сразу спросить 💭

AI снижает повышает обороты на 20–40% 📊 за 6 месяцев. А что бы вы сделали с этими деньгами?

Опишите задачу — обсудим, как это можно реализовать у вас.

ИИ автоматизирует 70% рутинных задач 🤖 за 3 месяца. Какие процессы в вашем бизнесе скинуть роботу?
Персонализированные AI-кампании увеличивают клиентскую базу на 30% 📈. Как это работает?
AI-аналитика сокращает ошибки в прогнозах на 50% 📉. Расскажите подробнее!

CURE: Рамка Обучения С Подкреплением для Совместной Эволюции Генерации Кода и Юнит-Тестов в LLM

Введение

Современные большие языковые модели (LLM) продемонстрировали значительные успехи в области логического мышления и точности благодаря методам обучения с подкреплением и масштабированию на этапе тестирования. Несмотря на то, что они превосходят традиционные методы генерации юнит-тестов, большинство существующих подходов, таких как O1-Coder и UTGEN, требуют контроля с использованием истинного кода. Это увеличивает затраты на сбор данных и ограничивает масштаб используемых обучающих данных.

Ограничения Существующих Подходов

Традиционная генерация юнит-тестов полагается на:

  • Методы анализа программного обеспечения, которые являются жесткими и основанными на правилах.
  • Техники нейронного машинного перевода, которые часто не имеют семантической согласованности.

Хотя недавние методы на основе подсказок и агентного подхода улучшают результаты, они по-прежнему сильно зависят от размеченного кода для дообучения. Эта зависимость ограничивает адаптивность и масштабируемость, особенно в реальных сценариях развертывания.

CURE: Самообучающийся Подход Совместной Эволюции

Исследователи из Университета Чикаго, Принстонского университета, Пекинского университета и ByteDance Seed представляют CURE — самообучающуюся рамку обучения с подкреплением, которая совместно обучает генератор кода и генератор юнит-тестов без использования истинного кода.

CURE работает по механизму самоигры, в котором:

  • LLM генерирует как корректный, так и некорректный код.
  • Генератор юнит-тестов обучается различать режимы сбоев и улучшает себя соответственно.

Эта двусторонняя совместная эволюция усиливает как генерацию кода, так и его верификацию без внешнего контроля.

Архитектура и Методология

Базовые Модели и Стратегия Выборки

CURE построен на моделях Qwen2.5-7B и 14B Instruct, при этом Qwen3-4B используется для вариантов с длинными цепочками размышлений. На каждом этапе обучения выбирается:

  • 16 кандидатных завершений кода.
  • 16 юнит-тестов, созданных на основе задач.

Выборка осуществляется с использованием vLLM с температурой 1.0 и top-p 1.0. Для моделей с длинными цепочками размышлений применяется трансформация, учитывающая длину ответа, что снижает штраф за длинные выходные данные и улучшает эффективность на этапе вывода.

Функция Награды и Оптимизация

CURE вводит математически обоснованную формулировку награды, чтобы:

  • Максимизировать точность награды, определяемую как вероятность того, что корректный код получает более высокую оценку, чем некорректный код по сгенерированным юнит-тестам.
  • Применять корректировки награды на основе ответов для длинных ответов, чтобы снизить задержки.

Оптимизация осуществляется с помощью методов градиента политики, совместно обновляя генератор кода и генератор юнит-тестов для улучшения их взаимной производительности.

Бенчмарковые Датасеты и Метрики Оценки

CURE оценивается на пяти стандартных кодирующих датасетах:

  • LiveBench
  • MBPP
  • LiveCodeBench
  • CodeContests
  • CodeForces

Производительность измеряется по:

  • Точности юнит-тестов.
  • Точности однократной генерации кода.
  • Точности Best-of-N (BoN) с использованием 16 образцов кода и тестов.

Увеличение Производительности и Эффективности

Модели ReasonFlux-Coder, полученные с помощью CURE, достигают:

  • +37.8% в точности юнит-тестов.
  • +5.3% в точности однократной генерации кода.
  • +9.0% в точности BoN.

Замечательно, что ReasonFlux-Coder-4B достигает 64.8% сокращения средней длины ответа юнит-теста, что существенно улучшает скорость вывода. На всех бенчмарках эти модели превосходят традиционные модели, дообученные с использованием кодирования под контролем (например, Qwen2.5-Coder-Instruct).

Применение в Коммерческих LLM

Когда ReasonFlux-Coder-4B сочетается с моделями серии GPT:

  • GPT-4o-mini получает +5.5% точности BoN.
  • GPT-4.1-mini улучшает свои показатели на +1.8%.

Затраты на API снижаются, в то время как производительность увеличивается, что указывает на экономически эффективное решение для производственных пайплайнов вывода.

Использование в Качестве Модели Награды для Обучения Без Меток

Генераторы юнит-тестов, обученные с помощью CURE, могут быть перепрофилированы в качестве моделей награды в обучении с подкреплением. Использование сгенерированных юнит-тестов ReasonFlux-Coder-4B дает сопоставимые улучшения по сравнению с тестами, размеченными человеком, что позволяет создавать полностью беспометочные пайплайны обучения с подкреплением.

Широкая Применимость и Будущие Направления

Помимо BoN, модели ReasonFlux-Coder бесшовно интегрируются с агентными кодировочными фреймворками, такими как:

  • MPSC (Мультиперспективная Самосогласованность)
  • AlphaCodium
  • S*

Эти системы получают преимущества от способности CURE итеративно улучшать как код, так и тесты. CURE также увеличивает точность генерации юнит-тестов агентами более чем на 25.1%, что подчеркивает его универсальность.

Заключение

CURE представляет собой значительное достижение в области самообучения для генерации и валидации кода, позволяя большим языковым моделям совместно развивать свои способности в генерации кода и юнит-тестов без зависимости от истинного кода. Используя коэволюционную рамку обучения с подкреплением, CURE не только улучшает основные показатели производительности, такие как точность однократной генерации и выборка Best-of-N, но и повышает эффективность вывода за счет оптимизации, учитывающей длину ответа. Его совместимость с существующими агентными кодировочными пайплайнами и способность функционировать как модель награды без меток делают его масштабируемым и экономически эффективным решением как для обучения, так и для сценариев развертывания.

Новости в сфере искусственного интеллекта