स्प्लिटवाइज़: फेज़ स्प्लिटिंग का उपयोग करके कुशल जेनरेटिव एलएलएम इन्फेरेंस

विषय सूची

1. परिचय

जेनरेटिव बड़े भाषा मॉडल (एलएलएम) ने एआई अनुप्रयोगों में क्रांति ला दी है, लेकिन उनकी कम्प्यूटेशनल तीव्रता और संसाधन आवश्यकताओं के कारण तैनाती की महत्वपूर्ण चुनौतियों का सामना करते हैं। विभिन्न डोमेन में एलएलएम के तीव्र अपनाने से जीपीयू क्षमता की अभूतपूर्व मांग पैदा हो गई है, जिसके परिणामस्वरूप दुनिया भर में जीपीयू की कमी और डेटासेंटर में बिजली की बाध्यताएँ उत्पन्न हो गई हैं।

2. पृष्ठभूमि और प्रेरणा

2.1 एलएलएम इन्फेरेंस की विशेषताएँ

एलएलएम इन्फेरेंस में विपरीत संसाधन आवश्यकताओं वाले दो अलग-अलग चरण शामिल हैं:

प्रॉम्प्ट कम्प्यूटेशन फेज़: सभी इनपुट टोकन की कम्प्यूटेशनल रूप से गहन समानांतर प्रोसेसिंग
टोकन जनरेशन फेज़: आउटपुट टोकन की मेमोरी-बैंडविड्थ बाउंड अनुक्रमिक जनरेशन

2.2 हार्डवेयर सीमाएँ

जीपीयू विशिष्टता तुलना

3.43× कम्प्यूट वृद्धि (H100 बनाम A100)

1.64× मेमोरी बैंडविड्थ वृद्धि

2.16× लागत वृद्धि

1.75× शक्ति वृद्धि

3. स्प्लिटवाइज़ डिज़ाइन

3.1 फेज़ स्प्लिटिंग आर्किटेक्चर

स्प्लिटवाइज़ दो इन्फेरेंस चरणों को अलग-अलग हार्डवेयर प्लेटफॉर्म पर अलग करने का प्रस्ताव करता है:

प्रॉम्प्ट मशीनें: कम्प्यूट-गहन प्रॉम्प्ट प्रोसेसिंग के लिए हाई-एंड जीपीयू (H100)
टोकन मशीनें: मेमोरी-बाउंड टोकन जनरेशन के लिए लागत-प्रभावी जीपीयू (A100)

3.2 संसाधन प्रबंधन

सिस्टम चरणों के बीच कुशल स्टेट ट्रांसफर के लिए ऑप्टिमाइज़्ड नेटवर्क लाइब्रेरी और फास्ट इंटरकनेक्ट्स का उपयोग करता है। गणितीय आधार में इन्फेरेंस लेटेंसी को मॉडल करना शामिल है:

$L_{total} = L_{prompt} + n \times L_{token}$

जहाँ $n$ आउटपुट टोकन की संख्या है, $L_{prompt}$ प्रॉम्प्ट कम्प्यूटेशन लेटेंसी है, और $L_{token}$ प्रति-टोकन जनरेशन लेटेंसी है।

4. प्रायोगिक परिणाम

4.1 प्रदर्शन मूल्यांकन

स्प्लिटवाइज़ पारंपरिक दृष्टिकोणों पर महत्वपूर्ण सुधार प्राप्त करता है:

1.4× उच्च थ्रूपुट समरूप क्लस्टरों की तुलना में
समान प्रदर्शन के लिए 20% कम लागत
समान शक्ति और लागत बजट के तहत 2.35× अधिक थ्रूपुट

4.2 लागत और शक्ति विश्लेषण

विषम क्लस्टर डिज़ाइन श्रेष्ठ संसाधन उपयोगिता प्रदर्शित करता है, विशेष रूप से टोकन जनरेशन चरणों के लिए जिन्हें नवीनतम जीपीयू कम्प्यूट क्षमताओं की आवश्यकता नहीं होती है।

5. तकनीकी विश्लेषण ढांचा

मुख्य अंतर्दृष्टि

स्प्लिटवाइज़ मौलिक रूप से उद्योग के जीपीयू तैनाती के वन-साइज़-फ़िट्स-ऑल दृष्टिकोण को चुनौती देता है। यह शोध वर्तमान एलएलएम सर्विंग आर्किटेक्चर में एक गंभीर दोष को उजागर करता है: इन्फेरेंस को एक एकीकृत प्रक्रिया के रूप में मानना, जबकि यह स्पष्ट रूप से दो अलग-अलग कम्प्यूटेशनल पैटर्न से बना है। यह अंतर्दृष्टि मूल ट्रांसफॉर्मर आर्किटेक्चर पेपर की अटेंशन मैकेनिज्म के बारे में रहस्योद्घाटन जितनी ही महत्वपूर्ण है।

तार्किक प्रवाह

तर्क गणितीय सटीकता के साथ आगे बढ़ता है: (1) एलएलएम इन्फेरेंस की द्वि-रूपी प्रकृति का वर्णन करें, (2) A100/H100 विश्लेषण के माध्यम से हार्डवेयर बेमेल प्रदर्शित करें, (3) सर्जिकल समाधान के रूप में फेज़ पृथक्करण प्रस्तावित करें, (4) अनुभवजन्य परिणामों से मान्य करें। यह तार्किक प्रगति मौलिक सिस्टम पेपर्स, जैसे कि Google Borg क्लस्टर प्रबंधन प्रणाली, के दृष्टिकोण के समान है।

शक्तियाँ और दोष

शक्तियाँ: निश्चित बाध्यताओं के तहत 2.35× थ्रूपुट सुधार क्रांतिकारी है—यह NVIDIA के टेंसर कोर द्वारा प्राप्त छलांग के बराबर है। लागत में कमी उद्यम एलएलएम अपनाने की प्राथमिक बाधा को संबोधित करती है।

दोष: यह दृष्टिकोण चरणों के बीच नेटवर्क लेटेंसी पेश करता है, जिससे एक नई बाधा उत्पन्न होती है। शुरुआती माइक्रोसर्विसेज आर्किटेक्चर की तरह, वितरित स्टेट प्रबंधन की जटिलता छोटी तैनातियों के लिए लाभों से अधिक हो सकती है।

कार्रवाई योग्य अंतर्दृष्टियाँ

क्लाउड प्रदाताओं को तुरंत अपने एलएलएम ऑफरिंग्स में फेज़-स्प्लिट आर्किटेक्चर लागू करना चाहिए। इन्फेरेंस क्लस्टर बनाने वाले उद्यमों को इस विषम दृष्टिकोण को अपनाना चाहिए या फिर 20-40% लागत दंड का सामना करना चाहिए। शोध बताता है कि हम विशेष एआई हार्डवेयर के युग में प्रवेश कर रहे हैं, जैसा कि 2000 के दशक में सीपीयू/जीपीयू विचलन में हुआ था।

6. भविष्य के अनुप्रयोग और दिशाएँ

फेज़ स्प्लिटिंग अवधारणा वर्तमान एलएलएम से आगे उभरते आर्किटेक्चर तक फैली हुई है:

मल्टी-मोडल मॉडल: विभिन्न मोडैलिटी एनकोडर के लिए अलग प्रोसेसिंग
मिश्रण विशेषज्ञ: विशेष फेज़-विशिष्ट हार्डवेयर के बीच डायनामिक रूटिंग
एज तैनाती: एज डिवाइस और क्लाउड संसाधनों के बीच विभाजन
विशेष हार्डवेयर: टोकन जनरेशन चरणों के लिए कस्टम एएसआईसी

7. संदर्भ

Vaswani, A., et al. "Attention is All You Need." NeurIPS 2017.
Brown, T., et al. "Language Models are Few-Shot Learners." NeurIPS 2020.
NVIDIA Corporation. "NVIDIA H100 Tensor Core GPU Architecture." 2022.
Verma, A., et al. "Large-scale cluster management at Google with Borg." EuroSys 2015.
Cloud GPU Pricing. "AWS EC2 Instance Pricing." Accessed 2024.