Your LLM is 5x Slower Than It Should Be. The Reason? Pessimism—and Stanford Researchers Just Showed How to Fix It
Скрытое узкое место в LLM выводе
В стремительном мире ИИ большие языковые модели (LLM), такие как GPT-4 и Llama, участвуют в создании различных приложений — от чат-ботов до помощников кода. Тем не менее, процесс вывода LLM, то есть генерация ответов, может быть в пять раз медленнее, чем необходимо. Причина этого кроется в осторожном подходе к обработке неопределенности в длине выходных данных.
Недавнее исследование команды ученых из Стэнфордского университета и HKUST выявило алгоритм, который способен снизить задержки и увеличить пропускную способность без изменения существующих моделей или оборудования. Переходя от пессимизма к адаптивному оптимизму, этот алгоритм достигает производительности, близкой к оптимальному планировщику, который предвидит будущие выходные данные.
Amin: Оптимистичный планировщик, который учится на лету
Исследовательская группа представила «Amin», алгоритм, который предполагает, что каждый запрос на вывод будет иметь минимальную предсказанную длину, тем самым увеличивая размеры пакетов и оптимизируя использование кэша GPU KV. По мере генерации токенов Amin динамически уточняет свои прогнозы в реальном времени и применяет разумную стратегию высвобождения памяти, чтобы управлять ограничениями памяти, не останавливаясь на более сложных задачах.
Amin работает с временной сложностью O(M log M) на шаг, где M — размер кэша. Алгоритм включает следующие шаги: инициализация с нижними пределами, жадная сортировка и пакетирование запросов, мониторинг памяти на переполнение и соответствующее высвобождение.
Доказательства в производительности: почти оптимально и надежно
Сила Amin заключается в строгих математических сравнениях с традиционными планировщиками, демонстрируя конкурентоспособное соотношение, которое является логарифмическим по своей природе. Ключевые результаты тестов производительности на 2000 выборках показали следующее:
- С наивными предсказаниями (1000 для всех) Amin сравнял задержку с планированием, оптимальным с точки зрения ретроспективы, в то время как традиционные методы значительно отставали.
- При оптимизированных интервалах бина Amin сократил разрыв по задержке в два раза по сравнению с пессимистичными планировщиками.
- При изменяющейся точности Amin демонстрировал устойчивость, достигая в до пяти раз меньшей задержки в сложных условиях.
Заключение
Пессимизм тормозит эффективность вывода LLM. Применение адаптивного оптимизма через такие техники, как Amin, является ключевым для значительного повышения производительности LLM и может привести к существенным улучшениям в оперативной эффективности в приложениях ИИ.
Часто задаваемые вопросы
1) Что делает алгоритм Amin быстрее стандартного консервативного планировщика?
Amin применяет оптимистичное планирование, изначально предполагая, что каждый вывод будет находиться на минимально предсказанной длине, что позволяет обрабатывать больше задач одновременно. По мере генерации токенов он динамически уточняет прогнозы, достигая эффективного потока данных.
2) Почему использование только предсказаний нижнего предела практично для реального вывода?
Нижние пределы, как правило, проще и надежнее в предсказании, что делает Amin надежным выбором для производственных сред, где точность предсказаний может значительно различаться.
3) Как производительность Amin сравнивается с традиционным пессимистичным планированием?
Amin демонстрирует логарифмическое конкурентоспособное соотношение в отношении неопределенности предсказания, обеспечивая превосходную производительность и меньшую задержку по сравнению с традиционными методами, даже в условиях высокой неопределенности.
Прочитайте ПОЛНУЮ СТАТЬЮ для более глубокого изучения результатов. Посетите нашу страницу на GitHub для учебных пособий, кода и блокнотов. Присоединяйтесь к нашему сообществу в Twitter, на 100k+ ML SubReddit и подписывайтесь на нашу рассылку.
















