NVIDIA XGBoost 3.0: Обучение наборов данных объемом в терабайт с помощью суперчипа Grace Hopper
NVIDIA представила значительное улучшение в области масштабируемого машинного обучения с запуском XGBoost 3.0, который позволяет обучать модели градиентного бустинга на наборах данных объемом до 1 терабайта (ТБ) с использованием одного суперчипа GH200 Grace Hopper. Этот прорыв упрощает ранее сложный процесс масштабирования ML-пipelines, что особенно актуально для таких приложений, как обнаружение мошенничества, оценка кредитных рисков и алгоритмическая торговля.
Преодоление барьеров терабайтовых данных
Ключевым моментом данного прорыва является новая External-Memory Quantile DMatrix в XGBoost 3.0. Ранее обучение на GPU ограничивалось доступной видеопамятью, что снижало допустимые размеры наборов данных или требовало создания сложных многоузловых систем. Теперь XGBoost использует архитектуру совместимой памяти суперчипа Grace Hopper и сверхбыструю полосу пропускания NVLink-C2C в 900 ГБ/с, что позволяет напрямую передавать предварительно сгруппированные и сжатые данные из оперативной памяти в GPU. Это решает проблемы, с которыми ранее сталкивались пользователи, нуждающиеся в больших вычислительных мощностях.
Практические преимущества: скорость, простота и экономия
Примером успеха внедрения является Королевский банк Канады (RBC), который сообщил о росте скорости обработки до 16 раз и сокращении общих затрат на обучение моделей на 94% благодаря переходу своих аналитических процессов на GPU-ускоренный XGBoost. Эта эффективность жизненно важна для рабочих процессов, связанных с постоянной настройкой моделей и быстро меняющимися объемами данных, что позволяет организациям быстрее оптимизировать характеристики и масштабироваться по мере роста данных.
Как это работает: внешняя память и XGBoost
Подход с внешней памятью вводит несколько инноваций:
- External-Memory Quantile DMatrix: предварительно группирует каждую характеристику в квантильные ведра, сохраняет данные в сжатом состоянии в оперативной памяти хоста и передает их по мере необходимости, сохраняя точность и снижая нагрузку на GPU.
- Масштабируемость на одном чипе: Один суперчип GH200 с 80 ГБ памяти HBM3 и 480 ГБ системной памяти LPDDR5X теперь может обрабатывать полный набор данных объемом в 1 ТБ, что раньше было возможно только на много-GPU кластерах.
- Упрощенная интеграция: Для команд data science, использующих RAPIDS, активация нового метода — это простая замена, требующая минимальных изменений в коде.
Технические рекомендации
Чтобы достичь оптимальных результатов на внешней памяти, используйте параметр grow_policy=’depthwise’ для построения деревьев. Работайте с CUDA 12.8+ и драйвером с поддержкой HMM для полной поддержки Grace Hopper. Обратите внимание на форму данных: количество строк (меток) является основным ограничителем для масштабирования — более широкие или длинные таблицы демонстрируют сопоставимую производительность на GPU.
Влияние на отрасль
С тем, что NVIDIA позволяет обучение GBDT объемом в терабайт на одном чипе, эта технология демократизирует доступ к машинному обучению для финансовых учреждений и компаний. Это новшество открывает новые горизонты для быстрее итераций, снижения затрат и упрощения ИТ-структур.
XGBoost 3.0 и суперчип Grace Hopper представляют собой значительный шаг вперед в области масштабируемого и ускоренного машинного обучения. Если вы заинтересованы в технологических деталях, не забудьте взглянуть на нашу страницу GitHub для получения руководств, кода и блокнотов. Следите за нами на Twitter и присоединяйтесь к нашему сообществу ML на SubReddit. Не забудьте подписаться на нашу рассылку!