Splitwise: Эффективный вывод генеративных больших языковых моделей с использованием фазового разделения

Содержание

1. Введение

Генеративные большие языковые модели (LLM) произвели революцию в приложениях ИИ, но сталкиваются со значительными проблемами развертывания из-за своей вычислительной интенсивности и требований к ресурсам. Быстрое внедрение LLM в различных областях создало беспрецедентный спрос на мощности GPU, что привело к мировому дефициту GPU и ограничениям по мощности в дата-центрах.

2. Предпосылки и мотивация

2.1 Характеристики вывода LLM

Вывод LLM состоит из двух различных фаз с противоположными требованиями к ресурсам:

Фаза вычисления промпта: Вычислительно интенсивная параллельная обработка всех входных токенов
Фаза генерации токенов: Последовательная генерация выходных токенов, ограниченная пропускной способностью памяти

2.2 Ограничения оборудования

Сравнение характеристик GPU

3.43× Рост вычислительной мощности (H100 vs A100)

1.64× Рост пропускной способности памяти

2.16× Рост стоимости

1.75× Рост энергопотребления

3. Дизайн Splitwise

3.1 Архитектура фазового разделения

Splitwise предлагает разделение двух фаз вывода на разные аппаратные платформы:

Машины промптов: Высокопроизводительные GPU (H100) для вычислительно интенсивной обработки промптов
Машины токенов: Экономичные GPU (A100) для генерации токенов, ограниченной памятью

3.2 Управление ресурсами

Система использует оптимизированные сетевые библиотеки и высокоскоростные соединения для эффективной передачи состояния между фазами. Математическая основа включает моделирование задержки вывода как:

$L_{total} = L_{prompt} + n \times L_{token}$

где $n$ - количество выходных токенов, $L_{prompt}$ - задержка вычисления промпта, а $L_{token}$ - задержка генерации на токен.

4. Результаты экспериментов

4.1 Оценка производительности

Splitwise демонстрирует значительные улучшения по сравнению с традиционными подходами:

Пропускная способность выше в 1.4× по сравнению с однородными кластерами
На 20% ниже стоимость при эквивалентной производительности
В 2.35× больше пропускной способности при одинаковых бюджетах мощности и стоимости

4.2 Анализ затрат и энергопотребления

Гетерогенный дизайн кластера демонстрирует превосходное использование ресурсов, особенно для фаз генерации токенов, которые не требуют новейших вычислительных возможностей GPU.

5. Фреймворк технического анализа

Ключевое понимание

Splitwise фундаментально оспаривает универсальный подход индустрии к развертыванию GPU. Исследование выявляет критический недостаток в текущих архитектурах обслуживания LLM: обработка вывода как монолитного процесса, когда он явно состоит из двух различных вычислительных паттернов. Это понимание так же значимо, как откровение оригинальной статьи об архитектуре трансформеров о механизмах внимания.

Логическая последовательность

Аргументация развивается с математической точностью: (1) Характеристика бимодальной природы вывода LLM, (2) Демонстрация несоответствия оборудования через анализ A100/H100, (3) Предложение фазового разделения как хирургического решения, (4) Валидация эмпирическими результатами. Эта логическая прогрессия отражает подход в основополагающих системных работах, таких как система управления кластерами Google Borg.

Сильные стороны и недостатки

Сильные стороны: Улучшение пропускной способности в 2.35× при фиксированных ограничениях является революционным — сравнимо со скачком, достигнутым тензорными ядрами NVIDIA. Снижение затрат решает основное препятствие для внедрения LLM предприятиями.

Недостатки: Подход вводит сетевую задержку между фазами, создавая новое узкое место. Как и в ранних архитектурах микросервисов, сложность распределенного управления состоянием может перевесить преимущества для небольших развертываний.

Практические инсайты

Провайдеры облачных услуг должны немедленно внедрить архитектуры с фазовым разделением в свои предложения LLM. Предприятия, строящие кластеры вывода, должны принять этот гетерогенный подход или столкнуться с 20-40% штрафами по стоимости. Исследование предполагает, что мы вступаем в эру специализированного аппаратного обеспечения ИИ, подобно расхождению CPU/GPU в 2000-х годах.

6. Будущие приложения и направления

Концепция фазового разделения распространяется за пределы текущих LLM на emerging архитектуры:

Мультимодальные модели: Раздельная обработка для энкодеров разных модальностей
Смесь экспертов: Динамическая маршрутизация между специализированным оборудованием для конкретных фаз
Периферийные развертывания: Разделение между периферийными устройствами и облачными ресурсами
Специализированное оборудование: Пользовательские ASIC для фаз генерации токенов

7. Ссылки

Vaswani, A., et al. "Attention is All You Need." NeurIPS 2017.
Brown, T., et al. "Language Models are Few-Shot Learners." NeurIPS 2020.
NVIDIA Corporation. "NVIDIA H100 Tensor Core GPU Architecture." 2022.
Verma, A., et al. "Large-scale cluster management at Google with Borg." EuroSys 2015.
Cloud GPU Pricing. "AWS EC2 Instance Pricing." Accessed 2024.