Itinai.com a website with a catalog of works by branding spec dd70b183 f9d7 4272 8f0f 5f2aecb9f42e 2

Фалькон-H1: Новый стандарт в больших языковых моделях

Itinai.com a website with a catalog of works by branding spec dd70b183 f9d7 4272 8f0f 5f2aecb9f42e 2

Falcon LLM Team Releases Falcon-H1 Technical Report: Гибридная Модель Внимания и SSM, Соперничающая с 70B LLMs

В мире больших языковых моделей (LLMs) Falcon-H1 от Института Технологических Инноваций (TII) представляет собой значительный шаг вперед. Эта модель сочетает в себе трансформаторное внимание и модели пространственного состояния (SSM) в гибридной параллельной конфигурации, что обеспечивает выдающуюся производительность, эффективность памяти и масштабируемость. Falcon-H1 доступен в различных размерах (от 0,5B до 34B параметров) и версиях (базовая, настроенная на инструкции и квантованная), что позволяет переосмыслить баланс между вычислительными затратами и качеством выходных данных.

Ключевые Архитектурные Инновации

Технический отчет подробно описывает, как Falcon-H1 использует новую параллельную гибридную архитектуру, где модули внимания и SSM работают одновременно, а их выходы конкатенируются перед проекцией. Такой подход отличается от традиционной последовательной интеграции, предоставляя гибкость в настройке количества каналов внимания и SSM независимо. По умолчанию используется соотношение 2:1:5 для SSM, внимания и многослойного перцептрона (MLP), что оптимизирует эффективность и динамику обучения.

Основные аспекты, на которые стоит обратить внимание:

  • Распределение каналов: Увеличение количества каналов внимания может ухудшить производительность, в то время как балансировка SSM и MLP дает ощутимые преимущества.
  • Конфигурация блоков: Конфигурация SA_M (полупараллельная работа внимания и SSM, за которой следует MLP) показывает лучшие результаты по обучающей потере и вычислительной эффективности.
  • Частота базовой RoPE: Необычно высокая базовая частота 1011 в ротационных позиционных встраиваниях (RoPE) оказалась оптимальной, улучшая обобщение во время обучения на длинных контекстах.
  • Торговля шириной и глубиной: Более глубокие модели показывают лучшие результаты по сравнению с более широкими при фиксированных бюджетах параметров; Falcon-H1-1.5B-Deep (66 слоев) превосходит многие 3B и 7B модели.

Стратегия Токенизации

Falcon-H1 использует индивидуальный набор токенизаторов Byte Pair Encoding (BPE) с размерами словаря от 32K до 261K. Ключевые дизайнерские решения включают:

  • Разделение цифр и знаков препинания: Эмпирически улучшает производительность в коде и многоязычных настройках.
  • Инъекция токенов LATEX: Повышает точность модели на математических тестах.
  • Многоязычная поддержка: Охватывает 18 языков и масштабируется до более чем 100, используя оптимизированные метрики.

Предварительный Обучающий Корпус и Стратегия Данных

Модели Falcon-H1 обучаются на до 18 ТБ токенов из тщательно отобранного корпуса объемом 20 ТБ, который включает:

  • Данные из высококачественных веб-ресурсов (отфильтрованный FineWeb).
  • Многоязычные наборы данных: Common Crawl, Wikipedia, arXiv, OpenSubtitles и курируемые ресурсы для 17 языков.
  • Кодовые корпуса: 67 языков, обработанные с помощью MinHash дедупликации и фильтров качества CodeBERT.
  • Математические наборы данных: MATH, GSM8K и внутренние сборы с улучшением LaTeX.
  • Синтетические данные: Переписанные из сырых корпусов с использованием различных LLM, плюс вопросы-ответы в стиле учебников по 30K темам из Википедии.
  • Длинные последовательности контекста: Улучшенные с помощью Fill-in-the-Middle, перераспределения и синтетических задач рассуждения до 256K токенов.

Инфраструктура и Методология Обучения

Обучение использовало индивидуализированную параметризацию максимального обновления (µP), поддерживающую плавное масштабирование по размерам моделей. Модели применяют передовые стратегии параллелизма:

  • Параллелизм смешивания (MP) и контекстный параллелизм (CP): Увеличивают пропускную способность для обработки длинных контекстов.
  • Квантование: Выпущено в вариантах bfloat16 и 4-битных для упрощения развертывания на краевых устройствах.

Оценка и Производительность

Falcon-H1 достигает беспрецедентной производительности на параметр:

  • Falcon-H1-34B-Instruct превосходит или соответствует моделям масштаба 70B по задачам рассуждения, математике, следованию инструкциям и многоязычным задачам.
  • Falcon-H1-1.5B-Deep соперничает с моделями 7B–10B.
  • Falcon-H1-0.5B демонстрирует производительность 7B уровня 2024 года.

Бенчмарки охватывают MMLU, GSM8K, HumanEval и задачи с длинным контекстом. Модели демонстрируют сильное соответствие через SFT и оптимизацию предпочтений.

Заключение

Falcon-H1 устанавливает новый стандарт для LLM с открытыми весами, интегрируя параллельные гибридные архитектуры, гибкую токенизацию, эффективную динамику обучения и надежные многоязычные возможности. Его стратегическое сочетание SSM и внимания позволяет достичь непревзойденной производительности в рамках практических вычислительных и памятьных бюджетов, что делает его идеальным как для исследований, так и для развертывания в различных средах.

Обязательно ознакомьтесь с документом и моделями на Hugging Face. Не забудьте посетить нашу страницу с учебными материалами по AI Agent и Agentic AI для различных приложений. Также следите за нами в Twitter и присоединяйтесь к нашему сообществу из более чем 100 тысяч участников на ML SubReddit, а также подписывайтесь на нашу рассылку.

Новости в сфере искусственного интеллекта