Itinai.com ai compare futuristic offices of it companies imag 1cd650c1 c91e 48d3 94e8 2128480997a6 1

Новая архитектура ИИ от Amazon: сокращение времени вывода на 30% за счет активации только релевантных нейронов

Itinai.com ai compare futuristic offices of it companies imag 1cd650c1 c91e 48d3 94e8 2128480997a6 1

Amazon разрабатывает архитектуру ИИ, которая сокращает время вывода на 30% за счет активации только релевантных нейронов

Исследователи Amazon представили новую архитектуру ИИ, которая уменьшает время вывода на 30%, активируя лишь те нейроны, которые необходимы для выполнения конкретной задачи. Это решение решает важную проблему больших моделей ИИ: высокие вычислительные затраты и задержки, связанные с активацией всех нейронов для каждого запроса, независимо от их значимости.

Динамическое, контекстно-зависимое обрезание

Инновация заключается в динамическом, контекстно-зависимом обрезании. Вместо статического удаления элементов модели во время обучения, решение Amazon позволяет обрезать сеть во время вывода, что дает возможность модели оставаться большой и универсальной, оставаясь при этом эффективной для конкретных задач.

Перед обработкой входных данных модель оценивает, какие нейроны или модули наиболее полезны на основе сигналов, таких как тип задачи (например, юридическое письмо, перевод или помощь в программировании) и язык.

Эта архитектура использует предсказатель ворот, легкий нейронный компонент, который генерирует «маску», определяющую, какие нейроны активируются для текущей последовательности. Решения о активации бинарные, что обеспечивает реальную экономию вычислительных ресурсов.

Как работает система

Архитектура вводит механизм контекстно-зависимых ворот, который анализирует признаки входных данных, чтобы решить, какие модули — такие как блоки самовнимания и сети прямой передачи — необходимы для текущей задачи. Например, в задаче распознавания речи она может активировать локальные контекстные модули для анализа звука, пропуская ненужные компоненты.

Эта стратегия обрезания структурирована и модульна, что сохраняет целостность модели и обеспечивает совместимость с графическими процессорами и современными аппаратными ускорителями. Модель предсказателя ворот обучается с использованием потерь разреженности для достижения целевой разреженности, применяя такие техники, как оценка Gumbel-Softmax.

Доказанные результаты: скорость без потери качества

Эксперименты показывают, что динамическое пропускание нерелевантных модулей может:

  • Сократить время вывода до 34% для многоязычных задач преобразования речи в текст, при этом обрезанные модели работают всего за 5,22 секунды.
  • Снизить количество операций с плавающей запятой (FLOPs) более чем на 60% при высоких уровнях разреженности, значительно уменьшая затраты на облачные и аппаратные ресурсы.
  • Сохранить качество вывода, при этом обрезка сохраняет баллы BLEU для задач перевода и уровень ошибок слов (WER) для ASR до умеренной разреженности.
  • Обеспечить интерпретируемость, выявляя важные части модели для каждого контекста.

Адаптация к задачам и языкам

Оптимальные стратегии обрезания могут значительно различаться в зависимости от задачи и языка. Например:

  • В ASR локальные контекстные модули имеют ключевое значение, в то время как декодер можно разрежать с минимальными потерями точности.
  • Для перевода речи как энкодер, так и декодер требуют сбалансированного внимания.
  • В многоязычных сценариях выбор модулей адаптируется, но демонстрирует последовательные паттерны внутри каждого типа.

Широкие последствия

Это динамическое, модульное обрезание имеет более широкие последствия для:

  • Более энергоэффективного и масштабируемого ИИ по мере роста больших языковых моделей и мультимодальных моделей.
  • ИИ-моделей, которые могут персонализировать вычислительные пути в зависимости от задачи, профиля пользователя, региона или устройства.
  • Переносимости в другие области, такие как обработка естественного языка и компьютерное зрение.

Активируя только релевантные модули в реальном времени, архитектура Amazon представляет собой значительный шаг к практическим приложениям ИИ. Эта технология открывает новые горизонты для бизнеса, позволяя значительно сократить затраты и повысить эффективность.

Для более подробной информации ознакомьтесь с научной статьей и техническими деталями. Все заслуги за это исследование принадлежат исследователям данного проекта. Также не забудьте подписаться на наш Twitter и присоединиться к более чем 100 000 участникам нашего ML SubReddit и подписаться на нашу рассылку.

Новости в сфере искусственного интеллекта