Splitwise：透過階段分割實現高效能生成式LLM推理

1. 簡介

生成式大型語言模型（LLMs）雖然革新咗AI應用，但由於其計算密集同資源需求，正面臨重大部署挑戰。LLMs喺各個領域嘅快速普及，對GPU容量產生咗前所未有嘅需求，導致全球GPU短缺同數據中心嘅電力限制。

2. 背景同動機

2.1 LLM推理特性

LLM推理包含兩個資源需求截然不同嘅階段：

提示計算階段： 對所有輸入令牌進行計算密集型嘅並行處理
令牌生成階段： 受記憶體頻寬限制嘅順序輸出令牌生成

2.2 硬件限制

GPU規格比較

3.43× 計算能力提升（H100 vs A100）

1.64× 記憶體頻寬提升

2.16× 成本增加

1.75× 功耗增加

3. Splitwise設計

3.1 階段分割架構

Splitwise提出將兩個推理階段分拆到唔同硬件平台：

提示機器： 使用高端GPU（H100）處理計算密集型提示
令牌機器： 使用成本效益高嘅GPU（A100）處理記憶體限制嘅令牌生成

3.2 資源管理

系統使用優化網絡庫同快速互連技術，實現階段之間高效狀態傳輸。數學基礎涉及將推理延遲建模為：

$L_{total} = L_{prompt} + n \times L_{token}$

其中$n$係輸出令牌數量，$L_{prompt}$係提示計算延遲，$L_{token}$係每個令牌生成延遲。

4. 實驗結果

4.1 效能評估

Splitwise相比傳統方法實現顯著改進：

吞吐量提高1.4倍 相比同質集群
成本降低20% 達到同等效能
吞吐量增加2.35倍 喺相同功耗同成本預算下

4.2 成本同功耗分析

異質集群設計展示出優越嘅資源利用率，特別係對於唔需要最新GPU計算能力嘅令牌生成階段。

5. 技術分析框架

核心洞察

Splitwise從根本上挑戰咗行業對GPU部署嘅一刀切方法。研究揭示咗當前LLM服務架構嘅關鍵缺陷：將推理視為單一過程，但實際上包含兩種截然不同嘅計算模式。呢個洞察同原始transformer架構論文關於注意力機制嘅揭示一樣重要。

邏輯流程

論證以數學精度推進：（1）描述LLM推理嘅雙模特性，（2）透過A100/H100分析展示硬件唔匹配，（3）提出階段分離作為精準解決方案，（4）用實證結果驗證。呢個邏輯進程類似Google Borg集群管理系統等開創性系統論文嘅方法。

優勢同缺陷

優勢： 喺固定限制下實現2.35倍吞吐量提升係革命性嘅——可媲美NVIDIA張量核心實現嘅飛躍。成本降低解決咗企業採用LLM嘅主要障礙。

缺陷： 方法引入階段之間嘅網絡延遲，創造新瓶頸。如同早期微服務架構，分散式狀態管理嘅複雜性可能對較細部署而言弊大於利。

可行洞察

雲端供應商應該立即喺其LLM產品中實施階段分割架構。構建推理集群嘅企業必須採用呢種異質方法，否則面臨20-40%成本懲罰。研究顯示我哋正進入專用AI硬件時代，類似2000年代CPU/GPU分岔。

6. 未來應用同方向

階段分割概念擴展到當前LLMs以外嘅新興架構：

多模態模型： 分離唔同模態編碼器處理
專家混合： 專用階段特定硬件之間動態路由
邊緣部署： 邊緣設備同雲端資源之間分割
專用硬件： 為令牌生成階段定制ASIC

7. 參考文獻

Vaswani, A., 等人《Attention is All You Need》。NeurIPS 2017。
Brown, T., 等人《Language Models are Few-Shot Learners》。NeurIPS 2020。
NVIDIA Corporation《NVIDIA H100 Tensor Core GPU Architecture》。2022。
Verma, A., 等人《Large-scale cluster management at Google with Borg》。EuroSys 2015。
Cloud GPU Pricing《AWS EC2 Instance Pricing》。訪問於2024。

目錄