Splitwise：運用階段分離技術實現高效能生成式大型語言模型推論

1. 引言

生成式大型語言模型（LLMs）已為人工智慧應用帶來革命性突破，但由於其計算密集性與資源需求，在部署上面臨重大挑戰。LLM在各領域的快速普及對GPU運算能力產生了前所未有的需求，導致全球GPU短缺與資料中心的電力限制。

2. 背景與動機

2.1 LLM推論特性

LLM推論包含兩個資源需求截然不同的階段：

提示計算階段：對所有輸入詞元進行計算密集的平行處理
詞元生成階段：受記憶體頻寬限制的順序性輸出詞元生成

2.2 硬體限制

GPU規格比較

3.43× 計算能力提升（H100 vs A100）

1.64× 記憶體頻寬提升

2.16× 成本增加

1.75× 功耗增加

3. Splitwise設計

3.1 階段分離架構

Splitwise提出將兩個推論階段分離至不同的硬體平台：

提示處理機：使用高效能GPU（H100）處理計算密集的提示計算
詞元生成機：使用成本效益型GPU（A100）處理記憶體受限的詞元生成

3.2 資源管理

系統採用最佳化網路函式庫與高速互連技術，實現階段間的高效狀態傳輸。其數學基礎涉及將推論延遲建模為：

$L_{total} = L_{prompt} + n \times L_{token}$

其中$n$為輸出詞元數量，$L_{prompt}$為提示計算延遲，$L_{token}$為單詞元生成延遲。

4. 實驗結果

4.1 效能評估

Splitwise相較傳統方法實現顯著改善：

與同質叢集相比吞吐量提升1.4倍
在同等效能下成本降低20%
在相同功耗與成本預算下吞吐量提升2.35倍

4.2 成本與功耗分析

異質叢集設計展現了卓越的資源利用率，特別是在不需要最新GPU計算能力的詞元生成階段。

5. 技術分析框架

核心洞察

Splitwise從根本上挑戰了業界對GPU部署的一體適用方法。這項研究揭露了當前LLM服務架構的關鍵缺陷：將推論視為單一過程，而實際上它明顯包含兩種不同的計算模式。此洞察的重要性堪比原始Transformer架構論文對注意力機制的揭示。

邏輯脈絡

論證以數學精確度推進：(1) 描述LLM推論的雙模特性，(2) 透過A100/H100分析展示硬體不匹配問題，(3) 提出階段分離作為精準解決方案，(4) 以實證結果驗證。此邏輯進展與開創性系統論文（如Google Borg叢集管理系統）的方法相呼應。

優勢與缺陷

優勢：在固定限制下實現2.35倍吞吐量提升具有革命性——可媲美NVIDIA張量核心達成的飛躍。成本降低則解決了企業採用LLM的主要障礙。

缺陷：此方法在階段間引入了網路延遲，創造了新的瓶頸。如同早期的微服務架構，分散式狀態管理的複雜性可能對較小規模部署帶來弊大於利的影響。

可行見解

雲端供應商應立即在其LLM服務中實施階段分離架構。建置推論叢集的企業必須採用此異質方法，否則將面臨20-40%的成本損失。此研究顯示我們正進入專用AI硬體的時代，類似2000年代CPU/GPU的分化。

6. 未來應用與發展方向

階段分離概念可延伸至當前LLM以外的新興架構：

多模態模型：分離不同模態編碼器的處理
專家混合：在專用階段特定硬體間進行動態路由
邊緣部署：在邊緣裝置與雲端資源間分割
專用硬體：為詞元生成階段開發客製化ASIC

7. 參考文獻

Vaswani, A., 等人. 「Attention is All You Need.」 NeurIPS 2017.
Brown, T., 等人. 「Language Models are Few-Shot Learners.」 NeurIPS 2020.
NVIDIA Corporation. 「NVIDIA H100 Tensor Core GPU Architecture.」 2022.
Verma, A., 等人. 「Large-scale cluster management at Google with Borg.」 EuroSys 2015.
Cloud GPU Pricing. 「AWS EC2 Instance Pricing.」存取於2024年.

目錄