LongWriter-Zero: Рамки Обучения с Подкреплением для Генерации Ультра-Длинных Текстов

LongWriter-Zero: Рамки Обучения с Подкреплением для Генерации Ультрадлинных Текстов без Синтетических Данных

Введение в Проблемы Генерации Ультрадлинных Текстов

В генерации ультрадлинных текстов, охватывающих тысячи слов, наблюдается растущий интерес благодаря применению в рассказах, юридических материалах и образовательных материалах. Однако текущие модели языка сталкиваются с серьезными трудностями: ограничения по длине и проблемы качества, которые усиливаются по мере увеличения объема. Частые проблемы включают неясность, отклонение от темы, повторяемость и плохую структуру. Ранее методы, такие как LongWriter, использовали супервизионное дообучение на синтетических данных, что дорого, сложно в создании и часто выглядит неестественно. Более того, использование существующих моделей ограничивает креативность, а типичные методы обучения не способствуют улучшению общей согласованности или структуры длинных текстов.

Эволюция Методов Генерации Длинных Текстов

Недавние исследования сосредоточились на улучшении согласованности, персонализации и увеличении длины вывода свыше 2000 слов. Ранние модели, такие как Re3 и DOC, применяли рекурсивные стратегии для поддержания структуры, в то время как LongLaMP вводила персонализацию через самоконтроль, основанный на рассуждениях. Модель Suri строила обширный датасет, но была ограничена выводами менее 5000 токенов из-за зависимости от обратного перевода. LongWriter продвинулся вперед, генерируя выходы от 6000 до 20000 токенов с использованием супервизионного дообучения и оптимизации предпочтений, хотя сохранял предвзятости своих моделей-учителей. В свою очередь, RL улучшил рассуждения в LLM, таких как DeepSeek-R1 и QwQ-32B, но остается недостаточно исследованным для генерации ультрадлинных текстов.

LongWriter-Zero: Обучение с Подкреплением без Синтетических Данных

Исследователи из Цинхуа и SUTD представляют LongWriter-Zero — подход, который использует RL для обучения LLM в генерации ультрадлинных текстов, без необходимости в аннотированных или синтетических данных. Начав с базовой модели Qwen2.5-32B, они применяют RL с осторожно разработанными моделями вознаграждений, нацеленными на длину текста, качество и структуру. Этот фреймворк черпает вдохновение из успехов в математических и программных задачах, исследуя три ключевых аспекта: проектирование вознаграждений, масштабирование во время вывода и непрерывное предобучение.

Новая Стратегия Оптимизации и Бенчмаркинг

В исследовании представлена стратегия обучения с подкреплением для улучшения генерации ультрадлинных текстов, основывающаяся на PPO с методом под названием Групповая Относительная Оптимизация Политики. Модель с 32 миллиардами параметров обучается на данных, связанных с выполнением команд, с ограничением на вывод в 14,000 токенов. Для оценки выводов используется новый бенчмарк Arena-Write, а система вознаграждений сбалансирована по длине текста, плавности, согласованности и формату. Главное определение заключается в том, что «обдумывание» модели перед написанием с помощью промежуточных шагов рассуждений приводит к лучшей структуре и контролю. Дополнительные достижения достигаются благодаря предобучению на данных, богатых текстами, что подчеркивает важность надежной базы, ориентированной на писательство.

Результаты на Бенчмарках Генерации Длинных Форм

LongWriter-Zero оценивается через двухступенчатый процесс: непрерывное предобучение на длинных книгах с использованием 30 миллиардов токенов, за которым следует дообучение с подкреплением в течение 150 шагов с использованием «Обдумывай» подсказок для стимулирования рассуждений. Он набирает 8.69 на WritingBench, опережая GPT-4o (8.16), Qwen2.5-Max (8.37) и DeepSeek-R1 (8.55), достигнув лидерства в пяти из шести областей. В Arena-Write он получает самый высокий балл Elo в 1447. Удаление «Обдумывай» подсказок или предобучения приводит к значительному снижению производительности, подтверждая их значение. Модель также достигает коэффициента победы в 98.2% в сравнении с GPT-4.1, а человеческие оценки валидируют ее силу в написании длинных текстов.

Заключение и Перспективы Разработки Вознаграждений

В заключение, LongWriter-Zero предлагает подход с использованием обучения с подкреплением для генерации ультрадлинных текстов, избегая необходимости в синтетических или аннотированных датасетах. Построенный на Qwen2.5-32B и обученный с нуля, он использует модели вознаграждений, нацеленные на контроль длины, качество написания и форматирование. Он достигает передовых показателей на WritingBench (8.69) и Arena-Write (Elo 1447), опережая GPT-4o (8.16), DeepSeek-R1 (8.55) и Qwen3-235B-A22B (Elo 1343). Оценки человеческих экспертов и GPT-4.1 показывают коэффициенты победы до 98.2%. Однако ему требуется решить проблемы хакерства модели вознаграждения, такие как увеличение длины через повторение или вставку ключевых слов для повышения баллов. Решение этих ограничений потребует лучшего проектирования вознаграждений и стратегий «человек в цикле».