選擇語言

Splitwise:運用階段分離技術實現高效能生成式大型語言模型推論

研究透過將提示計算與詞元生成階段分配至不同硬體,以提升大型語言模型推論的吞吐量、成本效益與能源效率。
computingpowertoken.org | PDF Size: 2.6 MB
評分: 4.5/5
您的評分
您已經為此文檔評過分
PDF文檔封面 - Splitwise:運用階段分離技術實現高效能生成式大型語言模型推論

目錄

1. 引言

生成式大型語言模型(LLMs)已為人工智慧應用帶來革命性突破,但由於其計算密集性與資源需求,在部署上面臨重大挑戰。LLM在各領域的快速普及對GPU運算能力產生了前所未有的需求,導致全球GPU短缺與資料中心的電力限制。

2. 背景與動機

2.1 LLM推論特性

LLM推論包含兩個資源需求截然不同的階段:

  • 提示計算階段:對所有輸入詞元進行計算密集的平行處理
  • 詞元生成階段:受記憶體頻寬限制的順序性輸出詞元生成

2.2 硬體限制

GPU規格比較

3.43× 計算能力提升(H100 vs A100)
1.64× 記憶體頻寬提升
2.16× 成本增加
1.75× 功耗增加

3. Splitwise設計

3.1 階段分離架構

Splitwise提出將兩個推論階段分離至不同的硬體平台:

  • 提示處理機:使用高效能GPU(H100)處理計算密集的提示計算
  • 詞元生成機:使用成本效益型GPU(A100)處理記憶體受限的詞元生成

3.2 資源管理

系統採用最佳化網路函式庫與高速互連技術,實現階段間的高效狀態傳輸。其數學基礎涉及將推論延遲建模為:

$L_{total} = L_{prompt} + n \times L_{token}$

其中$n$為輸出詞元數量,$L_{prompt}$為提示計算延遲,$L_{token}$為單詞元生成延遲。

4. 實驗結果

4.1 效能評估

Splitwise相較傳統方法實現顯著改善:

  • 與同質叢集相比吞吐量提升1.4倍
  • 在同等效能下成本降低20%
  • 在相同功耗與成本預算下吞吐量提升2.35倍

4.2 成本與功耗分析

異質叢集設計展現了卓越的資源利用率,特別是在不需要最新GPU計算能力的詞元生成階段。

5. 技術分析框架

核心洞察

Splitwise從根本上挑戰了業界對GPU部署的一體適用方法。這項研究揭露了當前LLM服務架構的關鍵缺陷:將推論視為單一過程,而實際上它明顯包含兩種不同的計算模式。此洞察的重要性堪比原始Transformer架構論文對注意力機制的揭示。

邏輯脈絡

論證以數學精確度推進:(1) 描述LLM推論的雙模特性,(2) 透過A100/H100分析展示硬體不匹配問題,(3) 提出階段分離作為精準解決方案,(4) 以實證結果驗證。此邏輯進展與開創性系統論文(如Google Borg叢集管理系統)的方法相呼應。

優勢與缺陷

優勢:在固定限制下實現2.35倍吞吐量提升具有革命性——可媲美NVIDIA張量核心達成的飛躍。成本降低則解決了企業採用LLM的主要障礙。

缺陷:此方法在階段間引入了網路延遲,創造了新的瓶頸。如同早期的微服務架構,分散式狀態管理的複雜性可能對較小規模部署帶來弊大於利的影響。

可行見解

雲端供應商應立即在其LLM服務中實施階段分離架構。建置推論叢集的企業必須採用此異質方法,否則將面臨20-40%的成本損失。此研究顯示我們正進入專用AI硬體的時代,類似2000年代CPU/GPU的分化。

6. 未來應用與發展方向

階段分離概念可延伸至當前LLM以外的新興架構:

  • 多模態模型:分離不同模態編碼器的處理
  • 專家混合:在專用階段特定硬體間進行動態路由
  • 邊緣部署:在邊緣裝置與雲端資源間分割
  • 專用硬體:為詞元生成階段開發客製化ASIC

7. 參考文獻

  1. Vaswani, A., 等人. 「Attention is All You Need.」 NeurIPS 2017.
  2. Brown, T., 等人. 「Language Models are Few-Shot Learners.」 NeurIPS 2020.
  3. NVIDIA Corporation. 「NVIDIA H100 Tensor Core GPU Architecture.」 2022.
  4. Verma, A., 等人. 「Large-scale cluster management at Google with Borg.」 EuroSys 2015.
  5. Cloud GPU Pricing. 「AWS EC2 Instance Pricing.」 存取於2024年.