Фалькон-H1: Новый стандарт в больших языковых моделях

Falcon LLM Team Releases Falcon-H1 Technical Report: Гибридная Модель Внимания и SSM, Соперничающая с 70B LLMs

В мире больших языковых моделей (LLMs) Falcon-H1 от Института Технологических Инноваций (TII) представляет собой значительный шаг вперед. Эта модель сочетает в себе трансформаторное внимание и модели пространственного состояния (SSM) в гибридной параллельной конфигурации, что обеспечивает выдающуюся производительность, эффективность памяти и масштабируемость. Falcon-H1 доступен в различных размерах (от 0,5B до 34B параметров) и версиях (базовая, настроенная на инструкции и квантованная), что позволяет переосмыслить баланс между вычислительными затратами и качеством выходных данных.

Ключевые Архитектурные Инновации

Технический отчет подробно описывает, как Falcon-H1 использует новую параллельную гибридную архитектуру, где модули внимания и SSM работают одновременно, а их выходы конкатенируются перед проекцией. Такой подход отличается от традиционной последовательной интеграции, предоставляя гибкость в настройке количества каналов внимания и SSM независимо. По умолчанию используется соотношение 2:1:5 для SSM, внимания и многослойного перцептрона (MLP), что оптимизирует эффективность и динамику обучения.

Основные аспекты, на которые стоит обратить внимание:

Распределение каналов: Увеличение количества каналов внимания может ухудшить производительность, в то время как балансировка SSM и MLP дает ощутимые преимущества.
Конфигурация блоков: Конфигурация SA_M (полупараллельная работа внимания и SSM, за которой следует MLP) показывает лучшие результаты по обучающей потере и вычислительной эффективности.
Частота базовой RoPE: Необычно высокая базовая частота 1011 в ротационных позиционных встраиваниях (RoPE) оказалась оптимальной, улучшая обобщение во время обучения на длинных контекстах.
Торговля шириной и глубиной: Более глубокие модели показывают лучшие результаты по сравнению с более широкими при фиксированных бюджетах параметров; Falcon-H1-1.5B-Deep (66 слоев) превосходит многие 3B и 7B модели.

Стратегия Токенизации

Falcon-H1 использует индивидуальный набор токенизаторов Byte Pair Encoding (BPE) с размерами словаря от 32K до 261K. Ключевые дизайнерские решения включают:

Разделение цифр и знаков препинания: Эмпирически улучшает производительность в коде и многоязычных настройках.
Инъекция токенов LATEX: Повышает точность модели на математических тестах.
Многоязычная поддержка: Охватывает 18 языков и масштабируется до более чем 100, используя оптимизированные метрики.

Предварительный Обучающий Корпус и Стратегия Данных

Модели Falcon-H1 обучаются на до 18 ТБ токенов из тщательно отобранного корпуса объемом 20 ТБ, который включает:

Данные из высококачественных веб-ресурсов (отфильтрованный FineWeb).
Многоязычные наборы данных: Common Crawl, Wikipedia, arXiv, OpenSubtitles и курируемые ресурсы для 17 языков.
Кодовые корпуса: 67 языков, обработанные с помощью MinHash дедупликации и фильтров качества CodeBERT.
Математические наборы данных: MATH, GSM8K и внутренние сборы с улучшением LaTeX.
Синтетические данные: Переписанные из сырых корпусов с использованием различных LLM, плюс вопросы-ответы в стиле учебников по 30K темам из Википедии.
Длинные последовательности контекста: Улучшенные с помощью Fill-in-the-Middle, перераспределения и синтетических задач рассуждения до 256K токенов.

Инфраструктура и Методология Обучения

Обучение использовало индивидуализированную параметризацию максимального обновления (µP), поддерживающую плавное масштабирование по размерам моделей. Модели применяют передовые стратегии параллелизма:

Параллелизм смешивания (MP) и контекстный параллелизм (CP): Увеличивают пропускную способность для обработки длинных контекстов.
Квантование: Выпущено в вариантах bfloat16 и 4-битных для упрощения развертывания на краевых устройствах.

Оценка и Производительность

Falcon-H1 достигает беспрецедентной производительности на параметр:

Falcon-H1-34B-Instruct превосходит или соответствует моделям масштаба 70B по задачам рассуждения, математике, следованию инструкциям и многоязычным задачам.
Falcon-H1-1.5B-Deep соперничает с моделями 7B–10B.
Falcon-H1-0.5B демонстрирует производительность 7B уровня 2024 года.

Бенчмарки охватывают MMLU, GSM8K, HumanEval и задачи с длинным контекстом. Модели демонстрируют сильное соответствие через SFT и оптимизацию предпочтений.

Заключение

Falcon-H1 устанавливает новый стандарт для LLM с открытыми весами, интегрируя параллельные гибридные архитектуры, гибкую токенизацию, эффективную динамику обучения и надежные многоязычные возможности. Его стратегическое сочетание SSM и внимания позволяет достичь непревзойденной производительности в рамках практических вычислительных и памятьных бюджетов, что делает его идеальным как для исследований, так и для развертывания в различных средах.

Обязательно ознакомьтесь с документом и моделями на Hugging Face. Не забудьте посетить нашу страницу с учебными материалами по AI Agent и Agentic AI для различных приложений. Также следите за нами в Twitter и присоединяйтесь к нашему сообществу из более чем 100 тысяч участников на ML SubReddit, а также подписывайтесь на нашу рассылку.