Liquid AI Open-Sources LFM2: Новое Поколение Edge LLMs

С выходом Liquid AI LFM2, второго поколения моделей Liquid Foundation, мир искусственного интеллекта на устройствах получил мощный импульс. Эти новые генеративные модели ИИ представляют собой прорыв в области edge computing, обеспечивая оптимизацию производительности для развертывания прямо на устройствах, сохраняя при этом конкурентные стандарты качества.

Прорывы в производительности

LFM2 устанавливает новые стандарты в области edge AI, достигая значительных улучшений по нескольким параметрам. Модели обеспечивают в 2 раза более быструю декодировку и предварительное заполнение по сравнению с Qwen3 на архитектурах CPU, что критично для приложений в реальном времени. Процесс обучения оптимизирован, что позволяет достигать в 3 раза более быстрого обучения по сравнению с предыдущим поколением LFM, делая LFM2 эффективным инструментом для создания мощных, универсальных AI-систем.

Эти улучшения делают мощный ИИ доступным на устройствах с ограниченными ресурсами. Модели разработаны для обеспечения миллисекундной задержки, работы в оффлайне и защиты данных, что особенно важно для таких устройств, как смартфоны, ноутбуки, автомобили, роботы, носимые устройства и спутники, требующие мгновенной обработки информации.

Инновации в гибридной архитектуре

Техническая основа LFM2 заключается в его гибридной архитектуре, которая сочетает в себе свертки и механизмы внимания. Модель использует 16-блоковую структуру, состоящую из 10 двойных короткосрочных сверток и 6 блоков группового внимания (GQA). Этот подход основан на работе Liquid AI над Liquid Time-constant Networks (LTCs), вводя рекуррентные нейронные сети непрерывного времени, модулируемые нелинейными входными связями.

Архитектура применяет линейный оператор ввода-вариации (LIV), генерируя веса на лету в зависимости от входных данных. Это позволяет различным слоям функционировать в рамках единой структуры. Сверточные блоки LFM2 реализуют умножающие ворота и короткие свертки, создавая линейные системы первого порядка, которые сходятся к нулю после конечного времени.

Процесс выбора архитектуры использовал STAR, поисковую систему нейронных архитектур Liquid AI, модифицированную для оценки языкового моделирования за пределами традиционных метрик. Это включает более 50 внутренних оценок, которые проверяют запоминание знаний, многопроходное рассуждение, понимание языков с низкими ресурсами, выполнение инструкций и использование инструментов.

Широкий ассортимент моделей

LFM2 доступна в трех конфигурациях: 350M, 700M и 1.2B параметров, оптимизированных для различных сценариев развертывания при сохранении преимуществ по эффективности. Все модели были обучены на 10 триллионах токенов, с корпусом, состоящим примерно на 75% из английского, на 20% из многоязычного контента и на 5% из данных кода, полученных из веба и лицензированных материалов.

Методология обучения включает дистилляцию знаний с использованием существующей модели LFM1-7B в качестве учительской модели. Кросс-энтропия между выходами студента LFM2 и выходами учителя служит основным сигналом обучения на протяжении всего процесса. Длина контекста была увеличена до 32k во время предварительного обучения, что позволяет моделям эффективно обрабатывать более длинные последовательности.

Превосходные результаты на бенчмарках

Результаты оценок показывают, что LFM2 значительно превосходит модели аналогичного размера по нескольким категориям бенчмарков. Модель LFM2-1.2B конкурирует с Qwen3-1.7B, несмотря на то, что имеет на 47% меньше параметров. Аналогично, LFM2-700M превосходит Gemma 3 1B IT, в то время как самая маленькая модель LFM2-350M остается конкурентоспособной с Qwen3-0.6B и Llama 3.2 1B Instruct.

Помимо автоматизированных бенчмарков, LFM2 демонстрирует превосходные разговорные способности в многопроходных диалогах. Используя набор данных WildChat и систему оценки LLM-as-a-Judge, LFM2-1.2B показывает значительные преимущества по предпочтению по сравнению с Llama 3.2 1B Instruct и Gemma 3 1B IT, при этом соответствует производительности Qwen3-1.7B, несмотря на меньший размер и большую скорость.

Оптимизация развертывания на краевых устройствах

Модели LFM2 отлично справляются с реальными сценариями развертывания, будучи экспортированными в несколько фреймворков вывода, включая ExecuTorch от PyTorch и открытую библиотеку llama.cpp. Тестирование на целевом оборудовании, таком как Samsung Galaxy S24 Ultra и платформы AMD Ryzen, демонстрирует, что LFM2 доминирует на границе Парето по скорости предварительного заполнения и декодирования по сравнению с размером модели.

Эта высокая производительность на CPU эффективно переносится на ускорители, такие как GPU и NPU, после оптимизации ядра, что делает LFM2 подходящей для различных аппаратных конфигураций. Эта гибкость крайне важна для разнообразной экосистемы краевых устройств, требующих возможностей ИИ на месте.

Заключение

Выход LFM2 заполняет критическую нишу в ландшафте развертывания ИИ, где переход от облачного к краевому выводу ускоряется. Обеспечивая миллисекундную задержку, оффлайн-работу и защиту данных, LFM2 открывает новые возможности для интеграции ИИ в потребительскую электронику, робототехнику, интеллектуальные устройства, финансы, электронную коммерцию и образование.

Технические достижения в LFM2 сигнализируют о зрелости технологий edge AI, где компромиссы между возможностями модели и эффективностью развертывания успешно оптимизируются. Когда предприятия переходят от облачных LLM к быстрым, приватным и локальным решениям, LFM2 позиционируется как основополагающая технология для следующего поколения устройств и приложений на базе ИИ.