Состояние инференса LLM в 2024 году
В современном ландшафте ИИ эффективность вашего стека инференса определяет пользовательский опыт вашего продукта. Независимо от того, развертываете ли вы чат-бота реального времени с использованием Llama 3 или запускаете пакетную обработку для извлечения данных, базовая аппаратная часть и инфраструктура облачного провайдера играют ключевую роль. Этот бенчмарк-анализ исследует, как различные уровни GPU — от корпоративного NVIDIA H100 до любимца потребителей RTX 4090 — показывают себя на популярных облачных платформах, таких как RunPod, Lambda Labs, Vast.ai и Vultr.
Методология тестирования: как мы измеряли производительность
Чтобы обеспечить справедливое сравнение, мы стандартизировали нашу среду тестирования для всех провайдеров. Нашим основным показателем является количество токенов в секунду (TPS), которое измеряет скорость генерации модели. Мы также отслеживали время до первого токена (TTFT) — критически важный показатель для воспринимаемой задержки в интерактивных приложениях.
Конфигурация бенчмарка:
- Модель: Meta-Llama-3-70B-Instruct (квантованная через AWQ) и Meta-Llama-3-8B-Instruct (FP16).
- Движок инференса: vLLM v0.4.2 (в Docker).
- Параметры: Макс. токенов: 512, Температура: 0.7, Размер пакета (batch size): 1 (для задержки) и 32 (для пропускной способности).
- Инфраструктура: Ubuntu 22.04, CUDA 12.1, драйверы NVIDIA 535+.
Претенденты: краткий обзор характеристик GPU
Прежде чем переходить к цифрам, важно понять аппаратную часть. NVIDIA H100 (Hopper) оснащен ускорением Transformer Engine, что делает его золотым стандартом для LLM. A100 (Ampere) остается надежной рабочей лошадкой с высокой пропускной способностью памяти, в то время как RTX 4090 предлагает удивительную производительность для небольших моделей за долю стоимости.
| Модель GPU | VRAM | Пропускная способность памяти | Интерконнект | Типичный сценарий использования |
|---|
| NVIDIA H100 | 80GB HBM3 | 3.35 TB/s | NVLink (900 GB/s) | Высокопроизводительный инференс LLM 70B+ |
| NVIDIA A100 | 80GB HBM2e | 1.93 TB/s | NVLink (600 GB/s) | Многопользовательские чат-боты, дообучение |
| NVIDIA RTX 4090 | 24GB GDDR6X | 1.01 TB/s | PCIe Gen4 | Llama 3 8B, Stable Diffusion XL |
Результаты производительности: пропускная способность и задержка
1. Llama 3 70B (AWQ) на чипах высшего класса
Для модели 70B основным узким местом является пропускная способность памяти. Инстансы H100 на Lambda Labs и Vultr показали значительное преимущество. На Lambda Labs H100 достиг в среднем 115 TPS для одного потока. Напротив, A100 80GB на RunPod показал в среднем около 78 TPS. Более быстрая память HBM3 у H100 позволяет загружать веса модели в вычислительные блоки значительно быстрее, чем в предыдущих поколениях.
2. Llama 3 8B (FP16) на чипах среднего и потребительского уровней
С моделью 8B ситуация иная. Поскольку модель достаточно мала, чтобы поместиться в 24 ГБ видеопамяти RTX 4090, разрыв в производительности сокращается. На Vast.ai инстанс 4090 выдал удивительные 55 TPS. Хотя A100 быстрее (около 95 TPS), соотношение цены и производительности 4090 делает его привлекательным выбором для стартапов и разработчиков, работающих с нагрузками с низкой конкурентностью.
Анализ облачных провайдеров: больше чем просто GPU
Производительность — это не только кремний; это также оркестрация и сетевые задержки. Вот как распределились провайдеры в ходе нашего тестирования:
Lambda Labs
Lambda Labs обеспечивает высокую производительность, близкую к bare-metal. Их кластеры H100 оптимизированы для сетей с низкой задержкой. Мы обнаружили, что их TTFT был наиболее стабильным, с минимальным джиттером. Однако доступность может быть проблемой, так как их H100 часто зарезервированы.
RunPod
RunPod выделяется своей гибкостью. Их «Secure Cloud» предлагает A100 и H100, которые легко развернуть с помощью предварительно настроенных шаблонов. Мы использовали их шаблон vLLM, который был готов к работе менее чем за 2 минуты. Производительность на RunPod была в пределах 3% от Lambda Labs, что делает его отличной альтернативой.
Vast.ai
Vast.ai — это маркетплейс, а значит, производительность может варьироваться в зависимости от конкретного хоста. Однако для инстансов RTX 4090 Vast.ai непревзойден по цене. Мы заметили, что ввод-вывод диска (disk I/O) может быть узким местом на некоторых более дешевых хостах, поэтому жизненно важно проверять показатели надежности хоста перед развертыванием рабочих контейнеров LLM.
Vultr
Vultr предлагает инфраструктуру корпоративного уровня с глобальной доступностью. Их инстансы H100 являются частью сложной облачной экосистемы, что делает их идеальными для компаний, которым необходимо интегрировать инференс LLM с существующими VPC и базами данных. Их производительность была идентична Lambda Labs, но с лучшей доступностью и поддержкой.
Анализ экономической эффективности: метрика «Ценность»
Чтобы определить реальную ценность, мы рассчитали стоимость генерации 1 миллиона токенов. Хотя H100 имеет самую высокую почасовую ставку ($3.00 - $5.00/час), его высокая пропускная способность означает, что он может обрабатывать больше запросов в час, чем A100 ($1.50 - $2.50/час).
- H100 (Lambda): ~$0.45 за 1 млн токенов (Llama 3 70B).
- A100 (RunPod): ~$0.62 за 1 млн токенов (Llama 3 70B).
- RTX 4090 (Vast.ai): ~$0.12 за 1 млн токенов (Llama 3 8B).
Для крупномасштабных развертываний H100 фактически становится более экономически выгодным благодаря своей плотности и скорости, несмотря на более высокую начальную почасовую стоимость.
Практические последствия для ML-инженеров
Выбор провайдера предполагает баланс между временем холодного старта и масштабируемостью. Если в вашем приложении наблюдается взрывной трафик, серверлесс-предложения RunPod или прерывистые инстансы Vast.ai могут сэкономить вам деньги. Для стабильного производственного трафика зарезервированные инстансы на Lambda Labs или Vultr обеспечивают стабильность, необходимую для SLA.
Кроме того, использование vLLM и PagedAttention произвело революцию в инференсе. Независимо от выбранного вами GPU, использование оптимизированного движка инференса является обязательным. Мы наблюдали увеличение пропускной способности в 2–4 раза при переходе со стандартных Hugging Face Transformers на vLLM на том же оборудовании.
Заключение и ключевые выводы
Результаты бенчмарков очевидны: NVIDIA H100 является бесспорным королем инференса LLM, особенно для моделей с более чем 70 млрд параметров. Однако для небольших моделей или сред разработки RTX 4090 на маркетплейсах вроде Vast.ai предлагает невероятную выгоду. При выборе облачного провайдера учитывайте не только почасовую цену, но и пропускную способность (TPS) и простоту интеграции в ваш существующий стек.