Splitwise: Inferens LLM Generatif Cekap Menggunakan Pemisahan Fasa

Kandungan

1. Pengenalan

Model bahasa besar generatif (LLM) telah merevolusikan aplikasi AI tetapi menghadapi cabaran penyebaran yang signifikan disebabkan oleh intensiti pengiraan dan keperluan sumber mereka. Penerimaan pantas LLM merentasi pelbagai domain telah mewujudkan permintaan yang belum pernah berlaku sebelum ini untuk kapasiti GPU, membawa kepada kekurangan GPU di peringkat global dan kekangan kuasa di pusat data.

2. Latar Belakang dan Motivasi

2.1 Ciri-ciri Inferens LLM

Inferens LLM terdiri daripada dua fasa berbeza dengan keperluan sumber yang bertentangan:

Fasa Pengiraan Prompt: Pemprosesan selari intensif pengiraan untuk semua token input
Fasa Penjanaan Token: Penjanaan berjujukan token output yang terikat dengan lebar jalur memori

2.2 Batasan Perkakasan

Perbandingan Spesifikasi GPU

3.43× Peningkatan Pengiraan (H100 vs A100)

1.64× Peningkatan Lebar Jalur Memori

2.16× Peningkatan Kos

1.75× Peningkatan Kuasa

3. Reka Bentuk Splitwise

3.1 Seni Bina Pemisahan Fasa

Splitwise mencadangkan pemisahan dua fasa inferens ke atas platform perkakasan yang berbeza:

Mesin Prompt: GPU tinggi (H100) untuk pemprosesan prompt intensif pengiraan
Mesin Token: GPU berkesan kos (A100) untuk penjanaan token terikat memori

3.2 Pengurusan Sumber

Sistem ini menggunakan pustaka rangkaian yang dioptimumkan dan sambungan pantas untuk pemindahan keadaan yang cekap antara fasa. Asas matematik melibatkan pemodelan kependaman inferens sebagai:

$L_{total} = L_{prompt} + n \times L_{token}$

di mana $n$ ialah bilangan token output, $L_{prompt}$ ialah kependaman pengiraan prompt, dan $L_{token}$ ialah kependaman penjanaan per token.

4. Keputusan Eksperimen

4.1 Penilaian Prestasi

Splitwise mencapai peningkatan ketara berbanding pendekatan konvensional:

1.4× throughput lebih tinggi berbanding kluster homogen
20% kos lebih rendah untuk prestasi setara
2.35× lebih banyak throughput di bawah belanjawan kuasa dan kos yang sama

4.2 Analisis Kos dan Kuasa

Reka bentuk kluster heterogen menunjukkan penggunaan sumber yang unggul, terutamanya untuk fasa penjanaan token yang tidak memerlukan keupayaan pengiraan GPU terkini.

5. Rangka Kerja Analisis Teknikal

Inti Pati Pandangan

Splitwise secara asasnya mencabar pendekatan penyelesaian sejagat industri untuk penyebaran GPU. Penyelidikan ini mendedahkan kelemahan kritikal dalam seni bina penyampaian LLM semasa: memperlakukan inferens sebagai proses monolotik apabila ia jelas terdiri daripada dua corak pengiraan berbeza. Pandangan ini adalah setanding dengan penemuan kertas seni bina transformer asal mengenai mekanisme perhatian.

Aliran Logik

Hujah berkembang dengan ketepatan matematik: (1) Mencirikan sifat dwimodal inferens LLM, (2) Menunjukkan ketidaksesuaian perkakasan melalui analisis A100/H100, (3) Mencadangkan pemisahan fasa sebagai penyelesaian pembedahan, (4) Mengesahkan dengan keputusan empirikal. Perkembangan logik ini mencerminkan pendekatan dalam kertas sistem penting seperti sistem pengurusan kluster Google Borg.

Kekuatan & Kelemahan

Kekuatan: Peningkatan throughput 2.35× di bawah kekangan tetap adalah revolusioner—setanding dengan lompatan yang dicapai oleh teras tensor NVIDIA. Pengurangan kos menangani halangan utama kepada penerimaan LLM perusahaan.

Kelemahan: Pendekatan ini memperkenalkan kependaman rangkaian antara fasa, mewujudkan kesesakan baru. Seperti seni bina perkhidmatan mikro awal, kerumitan pengurusan keadaan teragih boleh mengatasi manfaat untuk penyebaran yang lebih kecil.

Pandangan Tindakan

Pembekal awan harus segera melaksanakan seni bina pemisahan fasa dalam tawaran LLM mereka. Perusahaan yang membina kluster inferens mesti menerima pakai pendekatan heterogen ini atau menghadapi penalti kos 20-40%. Penyelidikan ini mencadangkan kita memasuki era perkakasan AI khusus, sama seperti perbezaan CPU/GPU pada tahun 2000-an.

6. Aplikasi dan Hala Tuju Masa Depan

Konsep pemisahan fasa melangkaui LLM semasa kepada seni bina baru:

Model pelbagai modal: Pemisahan pemprosesan untuk pengekod modaliti berbeza
Campuran Pakar: Penghalaan dinamik antara perkakasan khusus fasa tertentu
Penyebaran tepi: Pemisahan antara peranti tepi dan sumber awan
Perkakasan khusus: ASIC tersuai untuk fasa penjanaan token

7. Rujukan

Vaswani, A., et al. "Attention is All You Need." NeurIPS 2017.
Brown, T., et al. "Language Models are Few-Shot Learners." NeurIPS 2020.
NVIDIA Corporation. "NVIDIA H100 Tensor Core GPU Architecture." 2022.
Verma, A., et al. "Large-scale cluster management at Google with Borg." EuroSys 2015.
Cloud GPU Pricing. "AWS EC2 Instance Pricing." Diakses 2024.