目錄
1. 引言
生成式大型語言模型(LLMs)已為人工智慧應用帶來革命性突破,但由於其計算密集性與資源需求,在部署上面臨重大挑戰。LLM在各領域的快速普及對GPU運算能力產生了前所未有的需求,導致全球GPU短缺與資料中心的電力限制。
2. 背景與動機
2.1 LLM推論特性
LLM推論包含兩個資源需求截然不同的階段:
- 提示計算階段:對所有輸入詞元進行計算密集的平行處理
- 詞元生成階段:受記憶體頻寬限制的順序性輸出詞元生成
2.2 硬體限制
GPU規格比較
3. Splitwise設計
3.1 階段分離架構
Splitwise提出將兩個推論階段分離至不同的硬體平台:
- 提示處理機:使用高效能GPU(H100)處理計算密集的提示計算
- 詞元生成機:使用成本效益型GPU(A100)處理記憶體受限的詞元生成
3.2 資源管理
系統採用最佳化網路函式庫與高速互連技術,實現階段間的高效狀態傳輸。其數學基礎涉及將推論延遲建模為:
$L_{total} = L_{prompt} + n \times L_{token}$
其中$n$為輸出詞元數量,$L_{prompt}$為提示計算延遲,$L_{token}$為單詞元生成延遲。
4. 實驗結果
4.1 效能評估
Splitwise相較傳統方法實現顯著改善:
- 與同質叢集相比吞吐量提升1.4倍
- 在同等效能下成本降低20%
- 在相同功耗與成本預算下吞吐量提升2.35倍
4.2 成本與功耗分析
異質叢集設計展現了卓越的資源利用率,特別是在不需要最新GPU計算能力的詞元生成階段。
5. 技術分析框架
核心洞察
Splitwise從根本上挑戰了業界對GPU部署的一體適用方法。這項研究揭露了當前LLM服務架構的關鍵缺陷:將推論視為單一過程,而實際上它明顯包含兩種不同的計算模式。此洞察的重要性堪比原始Transformer架構論文對注意力機制的揭示。
邏輯脈絡
論證以數學精確度推進:(1) 描述LLM推論的雙模特性,(2) 透過A100/H100分析展示硬體不匹配問題,(3) 提出階段分離作為精準解決方案,(4) 以實證結果驗證。此邏輯進展與開創性系統論文(如Google Borg叢集管理系統)的方法相呼應。
優勢與缺陷
優勢:在固定限制下實現2.35倍吞吐量提升具有革命性——可媲美NVIDIA張量核心達成的飛躍。成本降低則解決了企業採用LLM的主要障礙。
缺陷:此方法在階段間引入了網路延遲,創造了新的瓶頸。如同早期的微服務架構,分散式狀態管理的複雜性可能對較小規模部署帶來弊大於利的影響。
可行見解
雲端供應商應立即在其LLM服務中實施階段分離架構。建置推論叢集的企業必須採用此異質方法,否則將面臨20-40%的成本損失。此研究顯示我們正進入專用AI硬體的時代,類似2000年代CPU/GPU的分化。
6. 未來應用與發展方向
階段分離概念可延伸至當前LLM以外的新興架構:
- 多模態模型:分離不同模態編碼器的處理
- 專家混合:在專用階段特定硬體間進行動態路由
- 邊緣部署:在邊緣裝置與雲端資源間分割
- 專用硬體:為詞元生成階段開發客製化ASIC
7. 參考文獻
- Vaswani, A., 等人. 「Attention is All You Need.」 NeurIPS 2017.
- Brown, T., 等人. 「Language Models are Few-Shot Learners.」 NeurIPS 2020.
- NVIDIA Corporation. 「NVIDIA H100 Tensor Core GPU Architecture.」 2022.
- Verma, A., 等人. 「Large-scale cluster management at Google with Borg.」 EuroSys 2015.
- Cloud GPU Pricing. 「AWS EC2 Instance Pricing.」 存取於2024年.