Splitwise: Faz Ayırma ile Verimli Üretici Büyük Dil Modeli Çıkarımı

İçindekiler

1. Giriş

Üretici büyük dil modelleri (LLM'ler) yapay zeka uygulamalarında devrim yaratmış olsa da, hesaplama yoğunlukları ve kaynak gereksinimleri nedeniyle önemli dağıtım zorluklarıyla karşı karşıyadır. LLM'lerin çeşitli alanlarda hızla benimsenmesi, GPU kapasitesi için benzeri görülmemiş bir talep yaratmış ve bu durum dünya çapında GPU kıtlığına ve veri merkezlerinde güç kısıtlamalarına yol açmıştır.

2. Arka Plan ve Motivasyon

2.1 LLM Çıkarım Özellikleri

LLM çıkarımı, birbirinden farklı kaynak gereksinimlerine sahip iki ayrı fazdan oluşur:

Prompt Hesaplama Fazı: Tüm girdi token'larının hesaplama açısından yoğun paralel işlenmesi
Token Üretim Fazı: Bellek bant genişliği sınırlı, çıktı token'larının sıralı üretimi

2.2 Donanım Kısıtlamaları

GPU Özellik Karşılaştırması

3.43× Hesaplama Artışı (H100 vs A100)

1.64× Bellek Bant Genişliği Artışı

2.16× Maliyet Artışı

1.75× Güç Artışı

3. Splitwise Tasarımı

3.1 Faz Ayırma Mimarisi

Splitwise, iki çıkarım fazını farklı donanım platformlarına ayırmayı önerir:

Prompt Makineleri: Hesaplama yoğun prompt işleme için yüksek seviye GPU'lar (H100)
Token Makineleri: Bellek sınırlı token üretimi için uygun maliyetli GPU'lar (A100)

3.2 Kaynak Yönetimi

Sistem, fazlar arasında verimli durum transferi için optimize edilmiş ağ kütüphaneleri ve hızlı bağlantılar kullanır. Matematiksel temel, çıkarım gecikmesini şu şekilde modellemeyi içerir:

$L_{total} = L_{prompt} + n \times L_{token}$

Burada $n$ çıktı token'larının sayısı, $L_{prompt}$ prompt hesaplama gecikmesi ve $L_{token}$ token başına üretim gecikmesidir.

4. Deneysel Sonuçlar

4.1 Performans Değerlendirmesi

Splitwise, geleneksel yaklaşımlara kıyasla önemli iyileştirmeler sağlar:

Homojen kümelerle karşılaştırıldığında 1.4× daha yüksek iş hacmi
Eşdeğer performans için %20 daha düşük maliyet
Aynı güç ve maliyet bütçeleri altında 2.35× daha fazla iş hacmi

4.2 Maliyet ve Güç Analizi

Heterojen küme tasarımı, özellikle en son GPU hesaplama yeteneklerini gerektirmeyen token üretim fazları için üstün kaynak kullanımı sergilemektedir.

5. Teknik Analiz Çerçevesi

Temel İçgörü

Splitwise, temelde endüstrinin GPU dağıtımındaki tek tip yaklaşımını sorgulamaktadır. Araştırma, mevcut LLM sunum mimarilerindeki kritik bir kusuru ortaya çıkarmaktadır: çıkarım açıkça iki farklı hesaplama deseninden oluştuğu halde, onu tek parçalı bir süreç olarak ele almak. Bu içgörü, orijinal transformer mimarisi makalesinin dikkat mekanizmaları hakkındaki keşfi kadar önemlidir.

Mantıksal Akış

Argüman matematiksel bir kesinlikle ilerler: (1) LLM çıkarımının iki modlu doğasını karakterize et, (2) A100/H100 analizi ile donanım uyumsuzluğunu göster, (3) Cerrahi çözüm olarak faz ayrımını öner, (4) Ampirik sonuçlarla doğrula. Bu mantıksal ilerleyiş, Google Borg küme yönetim sistemi gibi önemli sistem makalelerindeki yaklaşımı yansıtmaktadır.

Güçlü ve Zayıf Yönler

Güçlü Yönler: Sabit kısıtlamalar altında 2.35× iş hacmi iyileştirmesi devrim niteliğindedir—NVIDIA'nın tensor çekirdekleri tarafından sağlanan sıçramaya benzer. Maliyet azaltımı, kurumsal LLM benimsemesinin önündeki temel engeli ele almaktadır.

Zayıf Yönler: Yaklaşım, fazlar arasında ağ gecikmesi ekleyerek yeni bir darboğaz yaratmaktadır. Erken dönem mikrohizmet mimarileri gibi, dağıtılmış durum yönetiminin karmaşıklığı, daha küçük dağıtımlar için faydaları gölgede bırakabilir.

Uygulanabilir İçgörüler

Bulut sağlayıcılar, LLM tekliflerinde hemen faz ayrımı mimarilerini uygulamalıdır. Çıkarım kümeleri oluşturan işletmeler, bu heterojen yaklaşımı benimsemeli veya %20-40 maliyet cezasıyla karşı karşıya kalmalıdır. Araştırma, 2000'lerdeki CPU/GPU ayrışması gibi, özelleşmiş yapay zeka donanımı çağına girdiğimizi göstermektedir.

6. Gelecek Uygulamalar ve Yönelimler

Faz ayırma kavramı, mevcut LLM'lerin ötesinde gelişmekte olan mimarilere uzanır:

Çok modlu modeller: Farklı modalite kodlayıcıları için ayrı işleme
Uzman Karışımı: Özelleşmiş faz-spesifik donanımlar arasında dinamik yönlendirme
Kenar dağıtımları: Kenar cihazları ve bulut kaynakları arasında bölme
Özelleşmiş donanım: Token üretim fazları için özel ASIC'ler

7. Referanslar

Vaswani, A., et al. "Attention is All You Need." NeurIPS 2017.
Brown, T., et al. "Language Models are Few-Shot Learners." NeurIPS 2020.
NVIDIA Corporation. "NVIDIA H100 Tensor Core GPU Architecture." 2022.
Verma, A., et al. "Large-scale cluster management at Google with Borg." EuroSys 2015.
Cloud GPU Pricing. "AWS EC2 Instance Pricing." Erişim 2024.