Kandungan
1. Pengenalan
Model bahasa besar generatif (LLM) telah merevolusikan aplikasi AI tetapi menghadapi cabaran penyebaran yang signifikan disebabkan oleh intensiti pengiraan dan keperluan sumber mereka. Penerimaan pantas LLM merentasi pelbagai domain telah mewujudkan permintaan yang belum pernah berlaku sebelum ini untuk kapasiti GPU, membawa kepada kekurangan GPU di peringkat global dan kekangan kuasa di pusat data.
2. Latar Belakang dan Motivasi
2.1 Ciri-ciri Inferens LLM
Inferens LLM terdiri daripada dua fasa berbeza dengan keperluan sumber yang bertentangan:
- Fasa Pengiraan Prompt: Pemprosesan selari intensif pengiraan untuk semua token input
- Fasa Penjanaan Token: Penjanaan berjujukan token output yang terikat dengan lebar jalur memori
2.2 Batasan Perkakasan
Perbandingan Spesifikasi GPU
3. Reka Bentuk Splitwise
3.1 Seni Bina Pemisahan Fasa
Splitwise mencadangkan pemisahan dua fasa inferens ke atas platform perkakasan yang berbeza:
- Mesin Prompt: GPU tinggi (H100) untuk pemprosesan prompt intensif pengiraan
- Mesin Token: GPU berkesan kos (A100) untuk penjanaan token terikat memori
3.2 Pengurusan Sumber
Sistem ini menggunakan pustaka rangkaian yang dioptimumkan dan sambungan pantas untuk pemindahan keadaan yang cekap antara fasa. Asas matematik melibatkan pemodelan kependaman inferens sebagai:
$L_{total} = L_{prompt} + n \times L_{token}$
di mana $n$ ialah bilangan token output, $L_{prompt}$ ialah kependaman pengiraan prompt, dan $L_{token}$ ialah kependaman penjanaan per token.
4. Keputusan Eksperimen
4.1 Penilaian Prestasi
Splitwise mencapai peningkatan ketara berbanding pendekatan konvensional:
- 1.4× throughput lebih tinggi berbanding kluster homogen
- 20% kos lebih rendah untuk prestasi setara
- 2.35× lebih banyak throughput di bawah belanjawan kuasa dan kos yang sama
4.2 Analisis Kos dan Kuasa
Reka bentuk kluster heterogen menunjukkan penggunaan sumber yang unggul, terutamanya untuk fasa penjanaan token yang tidak memerlukan keupayaan pengiraan GPU terkini.
5. Rangka Kerja Analisis Teknikal
Inti Pati Pandangan
Splitwise secara asasnya mencabar pendekatan penyelesaian sejagat industri untuk penyebaran GPU. Penyelidikan ini mendedahkan kelemahan kritikal dalam seni bina penyampaian LLM semasa: memperlakukan inferens sebagai proses monolotik apabila ia jelas terdiri daripada dua corak pengiraan berbeza. Pandangan ini adalah setanding dengan penemuan kertas seni bina transformer asal mengenai mekanisme perhatian.
Aliran Logik
Hujah berkembang dengan ketepatan matematik: (1) Mencirikan sifat dwimodal inferens LLM, (2) Menunjukkan ketidaksesuaian perkakasan melalui analisis A100/H100, (3) Mencadangkan pemisahan fasa sebagai penyelesaian pembedahan, (4) Mengesahkan dengan keputusan empirikal. Perkembangan logik ini mencerminkan pendekatan dalam kertas sistem penting seperti sistem pengurusan kluster Google Borg.
Kekuatan & Kelemahan
Kekuatan: Peningkatan throughput 2.35× di bawah kekangan tetap adalah revolusioner—setanding dengan lompatan yang dicapai oleh teras tensor NVIDIA. Pengurangan kos menangani halangan utama kepada penerimaan LLM perusahaan.
Kelemahan: Pendekatan ini memperkenalkan kependaman rangkaian antara fasa, mewujudkan kesesakan baru. Seperti seni bina perkhidmatan mikro awal, kerumitan pengurusan keadaan teragih boleh mengatasi manfaat untuk penyebaran yang lebih kecil.
Pandangan Tindakan
Pembekal awan harus segera melaksanakan seni bina pemisahan fasa dalam tawaran LLM mereka. Perusahaan yang membina kluster inferens mesti menerima pakai pendekatan heterogen ini atau menghadapi penalti kos 20-40%. Penyelidikan ini mencadangkan kita memasuki era perkakasan AI khusus, sama seperti perbezaan CPU/GPU pada tahun 2000-an.
6. Aplikasi dan Hala Tuju Masa Depan
Konsep pemisahan fasa melangkaui LLM semasa kepada seni bina baru:
- Model pelbagai modal: Pemisahan pemprosesan untuk pengekod modaliti berbeza
- Campuran Pakar: Penghalaan dinamik antara perkakasan khusus fasa tertentu
- Penyebaran tepi: Pemisahan antara peranti tepi dan sumber awan
- Perkakasan khusus: ASIC tersuai untuk fasa penjanaan token
7. Rujukan
- Vaswani, A., et al. "Attention is All You Need." NeurIPS 2017.
- Brown, T., et al. "Language Models are Few-Shot Learners." NeurIPS 2020.
- NVIDIA Corporation. "NVIDIA H100 Tensor Core GPU Architecture." 2022.
- Verma, A., et al. "Large-scale cluster management at Google with Borg." EuroSys 2015.
- Cloud GPU Pricing. "AWS EC2 Instance Pricing." Diakses 2024.