Splitwise : Inférence efficace des LLM génératifs par partitionnement de phases

Table des matières

1. Introduction

Les grands modèles de langage (LLM) génératifs ont révolutionné les applications d'IA mais rencontrent d'importants défis de déploiement en raison de leur intensité computationnelle et de leurs exigences en ressources. L'adoption rapide des LLM dans divers domaines a créé une demande sans précédent de capacité GPU, entraînant une pénurie mondiale de GPU et des contraintes énergétiques dans les centres de données.

2. Contexte et motivation

2.1 Caractéristiques de l'inférence des LLM

L'inférence des LLM se compose de deux phases distinctes avec des exigences de ressources contrastées :

Phase de calcul du prompt : Traitement parallèle intensif en calcul de tous les jetons d'entrée
Phase de génération de jetons : Génération séquentielle de jetons de sortie limitée par la bande passante mémoire

2.2 Limitations matérielles

Comparaison des spécifications GPU

3.43× Augmentation du calcul (H100 vs A100)

1.64× Augmentation de la bande passante mémoire

2.16× Augmentation du coût

1.75× Augmentation de la puissance

3. Conception de Splitwise

3.1 Architecture de partitionnement de phases

Splitwise propose de séparer les deux phases d'inférence sur différentes plates-formes matérielles :

Machines à prompts : GPU haut de gamme (H100) pour le traitement intensif en calcul des prompts
Machines à jetons : GPU rentables (A100) pour la génération de jetons limitée par la mémoire

3.2 Gestion des ressources

Le système utilise des bibliothèques réseau optimisées et des interconnexions rapides pour un transfert d'état efficace entre les phases. Le fondement mathématique implique de modéliser la latence d'inférence comme :

$L_{total} = L_{prompt} + n \times L_{token}$

où $n$ est le nombre de jetons de sortie, $L_{prompt}$ est la latence de calcul du prompt, et $L_{token}$ est la latence de génération par jeton.

4. Résultats expérimentaux

4.1 Évaluation des performances

Splitwise obtient des améliorations significatives par rapport aux approches conventionnelles :

Débit 1,4× supérieur par rapport aux clusters homogènes
Coût 20 % inférieur pour des performances équivalentes
Débit 2,35× supérieur sous les mêmes budgets de puissance et de coût

4.2 Analyse des coûts et de la puissance

La conception de cluster hétérogène démontre une utilisation des ressources supérieure, particulièrement pour les phases de génération de jetons qui ne nécessitent pas les dernières capacités de calcul GPU.

5. Cadre d'analyse technique

Perspective fondamentale

Splitwise remet fondamentalement en question l'approche universelle de l'industrie pour le déploiement des GPU. La recherche expose une faille critique dans les architectures actuelles de service des LLM : traiter l'inférence comme un processus monolithique alors qu'elle consiste clairement en deux modèles computationnels distincts. Cette perspective est aussi significative que la révélation des mécanismes d'attention dans le document original sur l'architecture des transformeurs.

Flux logique

L'argumentation progresse avec une précision mathématique : (1) Caractériser la nature bimodale de l'inférence des LLM, (2) Démontrer l'inadéquation matérielle par l'analyse A100/H100, (3) Proposer la séparation de phases comme solution chirurgicale, (4) Valider par des résultats empiriques. Cette progression logique reflète l'approche des documents systèmes fondateurs comme le système de gestion de cluster Google Borg.

Forces et faiblesses

Forces : L'amélioration de débit de 2,35× sous contraintes fixes est révolutionnaire—comparable au saut réalisé par les cœurs tensoriels de NVIDIA. La réduction des coûts aborde la principale barrière à l'adoption des LLM par les entreprises.

Faiblesses : L'approche introduit une latence réseau entre les phases, créant un nouveau goulot d'étranglement. Comme pour les premières architectures de microservices, la complexité de la gestion d'état distribué pourrait l'emporter sur les avantages pour les déploiements plus petits.

Perspectives actionnables

Les fournisseurs de cloud devraient immédiatement implémenter des architectures à phases séparées dans leurs offres LLM. Les entreprises construisant des clusters d'inférence doivent adopter cette approche hétérogène ou faire face à des pénalités de coût de 20 à 40 %. La recherche suggère que nous entrons dans une ère de matériel IA spécialisé, semblable à la divergence CPU/GPU des années 2000.

6. Applications futures et orientations

Le concept de partitionnement de phases s'étend au-delà des LLM actuels vers les architectures émergentes :

Modèles multi-modaux : Traitement séparé pour différents encodeurs de modalités
Mélange d'experts : Routage dynamique entre du matériel spécialisé par phase
Déploiements edge : Partitionnement entre appareils edge et ressources cloud
Matériel spécialisé : ASICs personnalisés pour les phases de génération de jetons

7. Références

Vaswani, A., et al. "Attention is All You Need." NeurIPS 2017.
Brown, T., et al. "Language Models are Few-Shot Learners." NeurIPS 2020.
NVIDIA Corporation. "NVIDIA H100 Tensor Core GPU Architecture." 2022.
Verma, A., et al. "Large-scale cluster management at Google with Borg." EuroSys 2015.
Cloud GPU Pricing. "AWS EC2 Instance Pricing." Consulté en 2024.