Splitwise：基于阶段分离的高效生成式大语言模型推理

1. 引言

生成式大语言模型（LLM）已经彻底改变了人工智能应用，但由于其计算密集性和资源需求，面临着显著的部署挑战。LLM在各个领域的快速普及对GPU容量产生了前所未有的需求，导致全球GPU短缺和数据中心功耗限制。

2. 背景与动机

2.1 LLM推理特性

LLM推理包含两个资源需求截然不同的阶段：

提示计算阶段：对所有输入令牌进行计算密集型的并行处理
令牌生成阶段：受内存带宽限制的顺序输出令牌生成

2.2 硬件限制

GPU规格对比

3.43× 计算能力提升（H100 vs A100）

1.64× 内存带宽提升

2.16× 成本增加

1.75× 功耗增加

3. Splitwise设计

3.1 阶段分离架构

Splitwise提出将两个推理阶段分离到不同的硬件平台上：

提示处理机：使用高端GPU（H100）进行计算密集的提示处理
令牌生成机：使用经济高效的GPU（A100）进行内存受限的令牌生成

3.2 资源管理

该系统使用优化的网络库和高速互连技术，实现阶段间的高效状态传输。其数学基础涉及将推理延迟建模为：

$L_{total} = L_{prompt} + n \times L_{token}$

其中$n$是输出令牌数量，$L_{prompt}$是提示计算延迟，$L_{token}$是每令牌生成延迟。

4. 实验结果

4.1 性能评估

与传统方法相比，Splitwise实现了显著改进：

吞吐量提高1.4倍，相比同构集群
在同等性能下成本降低20%
在相同功耗和成本预算下吞吐量提升2.35倍

4.2 成本与功耗分析

异构集群设计展示了卓越的资源利用率，特别适用于不需要最新GPU计算能力的令牌生成阶段。

5. 技术分析框架

核心洞察

Splitwise从根本上挑战了行业对GPU部署的"一刀切"方法。该研究揭示了当前LLM服务架构中的一个关键缺陷：将推理视为单一过程，而实际上它明显包含两种不同的计算模式。这一洞察的重要性堪比原始Transformer架构论文关于注意力机制的发现。

逻辑脉络

论证过程具有数学精确性：（1）描述LLM推理的双峰特性，（2）通过A100/H100分析展示硬件不匹配，（3）提出阶段分离作为精准解决方案，（4）通过实证结果验证。这种逻辑进展类似于Google Borg集群管理系统等开创性系统论文的方法。

优势与局限

优势：在固定约束下实现2.35倍吞吐量提升具有革命性意义——可与NVIDIA张量核心实现的飞跃相媲美。成本降低解决了企业采用LLM的主要障碍。

局限：该方法在阶段间引入了网络延迟，创造了新的瓶颈。与早期微服务架构类似，分布式状态管理的复杂性可能超过小型部署的收益。

可操作见解

云服务提供商应立即在其LLM产品中实施阶段分离架构。构建推理集群的企业必须采用这种异构方法，否则将面临20-40%的成本损失。该研究表明我们正在进入专用AI硬件时代，类似于2000年代的CPU/GPU分化。

6. 未来应用与方向

阶段分离概念可扩展到当前LLM之外的新兴架构：

多模态模型：对不同模态编码器进行分离处理
专家混合：在专用阶段特定硬件间进行动态路由
边缘部署：在边缘设备和云资源间进行分离
专用硬件：为令牌生成阶段定制ASIC芯片

7. 参考文献

Vaswani, A., 等. "Attention is All You Need." NeurIPS 2017.
Brown, T., 等. "Language Models are Few-Shot Learners." NeurIPS 2020.
NVIDIA Corporation. "NVIDIA H100 Tensor Core GPU Architecture." 2022.
Verma, A., 等. "Large-scale cluster management at Google with Borg." EuroSys 2015.
Cloud GPU Pricing. "AWS EC2 Instance Pricing." Accessed 2024.

目录