डीएजी-शैली मतदान और लक्षित पुरस्कार छूट के साथ समानांतर प्रूफ-ऑफ-वर्क: एक सुरक्षा विश्लेषण

1. Introduction & Overview

This paper presents a novel Proof-of-Work (PoW) cryptocurrency protocol that addresses critical limitations in Bitcoin and its recent proposed enhancement, Tailstorm. The core innovation lies in combining Parallel Proof-of-Work (PPoW) सहमति के साथ DAG-संरचित मतदान और एक नवीन लक्षित पुरस्कार छूट तंत्र। यह प्रोटोकॉल मौजूदा प्रणालियों की तुलना में श्रेष्ठ स्थिरता गारंटी, उच्च लेनदेन थ्रूपुट, कम पुष्टिकरण विलंबता, और तर्कसंगत प्रोत्साहन हमलों के खिलाफ काफी बेहतर लचीलापन प्रदान करने का लक्ष्य रखता है।

यह कार्य PoW क्रिप्टोकरेंसी में सहमति एल्गोरिदम और प्रोत्साहन योजनाओं के बीच चक्रीय निर्भरता से प्रेरित है। जबकि बिटकॉइन की सुरक्षा अच्छी तरह से समझी जाती है, कई नए प्रोटोकॉल स्थिरता और प्रोत्साहन दोनों के गहन विश्लेषण से रहित हैं। Tailstorm ने पेड़-संरचित वोट और समान पुरस्कार छूट के साथ PPoW का उपयोग करके बिटकॉइन में सुधार किया। यह पेपर Tailstorm में दो प्रमुख कमियों की पहचान करता है: (1) पेड़ संरचनाएं प्रति ब्लॉक कुछ वोटों (और उनके लेनदेन) को असंपुष्ट छोड़ देती हैं, और (2) समान दंड ईमानदार खनिकों को दूसरों के कारण हुई देरी के लिए अनुचित रूप से दंडित करता है। प्रस्तावित DAG-आधारित समाधान सीधे इन त्रुटियों को लक्षित करता है।

2. मूल प्रोटोकॉल डिज़ाइन

2.1 समानांतर प्रूफ-ऑफ-वर्क (PPoW) के मूल सिद्धांत

समानांतर प्रूफ-ऑफ-वर्क एक सर्वसम्मति योजना है जिसके लिए श्रृंखला में अगला मुख्य ब्लॉक जोड़े जाने से पहले, PoW "वोट" (या ब्लॉक) की एक विन्यास योग्य संख्या $k$ खनन करने की आवश्यकता होती है। यह बिटकॉइन के एकल-श्रृंखला मॉडल के विपरीत है। प्रत्येक वोट में लेन-देन शामिल होते हैं। यह संरचना स्वाभाविक रूप से मजबूत स्थिरता गारंटी प्रदान करती है; उदाहरण के लिए, यथार्थवादी नेटवर्क धारणाओं के साथ, PPoW में 10-मिनट की पुष्टि में डबल-स्पेंड विफलता की संभावना बिटकॉइन की तुलना में लगभग 50 गुना कम हो सकती है।

2.2 वृक्ष से DAG की ओर: मतदान संरचना

Tailstorm ने एक समानांतर दौर के भीतर $k$ वोटों को एक पेड़ के रूप में संरचित किया। प्रस्तावित प्रोटोकॉल पेड़ को एक Directed Acyclic Graph (DAG)एक पेड़ में, एक खनिक को विस्तार करने के लिए एक ही मूल वोट चुनना होता है, जिससे शाखाएँ बनती हैं। एक DAG में, एक नया वोट कई पिछले वोटों को मूल के रूप में संदर्भित कर सकता है, बशर्ते कि वे कोई चक्र न बनाएँ। जिससे लेन-देन के एक बड़े हिस्से के लिए विलंबता कम होती है और समग्र थ्रूपुट में सुधार होता है।

2.3 लक्षित पुरस्कार छूट तंत्र

Tailstorm ने वोट ट्री की गहराई के आधार पर खनन पुरस्कारों में एक समान छूट दी, जो गहरे पेड़ों (नेटवर्क समस्याओं या हमलों का संकेत) के लिए एक दौर में सभी खनिकों को दंडित करती थी। नए प्रोटोकॉल में लागू किया गया है लक्षित छूटएक खनिक के वोट का पुरस्कार इस आधार पर छूट दिया जाता है कि संदर्भों की विशिष्ट कमी इसकी DAG संरचना में। एक वोट जो अन्य उपलब्ध वोटों का संदर्भ नहीं देता ("गैर-रैखिकता" बढ़ाना) उसे अधिक दंड मिलता है। यह सटीक रूप से खराब कनेक्टिविटी या दुर्भावनापूर्ण रोकने के लिए जिम्मेदार खनिक(ों) को दंडित करता है, न कि सामूहिक रूप से सभी को।

3. Security & Incentive Analysis

3.1 Threat Model & Attack Vectors

विश्लेषण लाभ अधिकतमीकरण से प्रेरित तर्कसंगत खनिकों पर विचार करता है। प्रमुख हमले के वेक्टर में स्वार्थी खनन, ब्लॉक रोककर रखना, और ईमानदार खनिकों से पुरस्कार चुराने के लिए गैर-रैखिकता प्रेरित करने हेतु नेटवर्क विलंब का शोषण शामिल हैं। पेपर एक महत्वपूर्ण निष्कर्ष नोट करता है: पुरस्कार छूट के बिना PPoW हो सकता है कम Bitcoin की तुलना में प्रोत्साहन हमलों के प्रति अधिक लचीला कुछ नेटवर्क स्थितियों के तहत, जो एक सुनियोजित प्रोत्साहन तंत्र की आवश्यकता को रेखांकित करता है।

3.2 Reinforcement Learning Attack Search

लेखकों ने हमले के प्रति लचीलापन का कठोरता से मूल्यांकन करने के लिए Reinforcement Learning (RL) एजेंटों का उपयोग प्रोटोकॉल के खिलाफ इष्टतम हमले की रणनीतियों की खोज के लिए किया। RL वातावरण खनन प्रक्रिया, नेटवर्क विलंब और प्रोटोकॉल के पुरस्कार नियमों का अनुकरण करता है। एजेंट अपने पुरस्कार हिस्से को अधिकतम करने के लिए नीतियां सीखते हैं। OpenAI के बहु-एजेंट प्रतिस्पर्धा पर शोध जैसी प्रतिकूल ML प्रणालियों के विश्लेषण में चर्चित दृष्टिकोणों से प्रेरित यह पद्धति, मैन्युअल विश्लेषण की तुलना में सूक्ष्म हमले वैक्टर की खोज के लिए एक अधिक मजबूत और स्वचालित तरीका प्रदान करती है।

3.3 रेजिलिएंस कम्पेरिजन: Bitcoin vs. Tailstorm vs. DAG-PPoW

The RL-based attack search demonstrates that the proposed DAG-PPoW with targeted discounting is more resilient यह Bitcoin और Tailstorm दोनों से बेहतर है। लक्षित छूट हमलावरों के लिए जानबूझकर गैर-रैखिकता पैदा करना अलाभकारी बना देती है, क्योंकि वे जुर्माने का मुख्य भार वहन करते हैं। DAG संरचना प्रति वोट अधिक संदर्भों की अनुमति देकर ऐसे हमलों के अवसर को भी कम करती है।

प्रमुख सुरक्षा निष्कर्ष

हमला लाभप्रदता सीमा: लक्षित छूट के साथ DAG-PPoW में लाभकारी प्रोत्साहन हमले के लिए आवश्यक हैशरेट Tailstorm की एकसमान छूट और आधार PPoW की तुलना में काफी अधिक है।

4. Performance Evaluation

4.1 Consistency & Finality Guarantees

प्रत्येक ब्लॉक के लिए $k$ वोटों की आवश्यकता करके, PPoW बिटकॉइन की तुलना में बहुत अधिक खड़ी सुरक्षा क्षय फ़ंक्शन के साथ संभाव्य अंतिमता प्रदान करता है। समान ईमानदार बहुमत धारणाओं के तहत, $n$ पुष्टिकरणों के बाद एक सफल डबल-स्पेंड की संभावना बिटकॉइन के $O(exp(-n))$ की तुलना में लगभग $O(exp(-k \cdot n))$ के रूप में घटती है।

4.2 Throughput & Latency Improvements

थ्रूपुट वोटों की संख्या $k$ के साथ रैखिक रूप से बढ़ता है, क्योंकि प्रत्येक वोट लेन-देन का एक पूरा ब्लॉक ले जाता है। विलंबता कम हो जाती है क्योंकि एक DAG के पहले वोटों में लेन-देन को उसी दौर के बाद के वोटों द्वारा पुष्टि की जा सकती है, जबकि एक पेड़ में कुछ शाखाओं को अगले ब्लॉक की प्रतीक्षा करनी पड़ती है।

4.3 Experimental Results & Chart Description

Simulation Results (Conceptual): एक प्रमुख चार्ट बिटकॉइन, टेलस्टॉर्म और डीएजी-पीपीओडब्ल्यू के लिए "डबल-खर्च विफलता संभावना बनाम पुष्टिकरण समय" को दर्शाएगा। डीएजी-पीपीओडब्ल्यू वक्र सबसे तेजी से गिरेगा, जो श्रेष्ठ स्थिरता प्रदर्शित करेगा। एक अन्य चार्ट एक विशिष्ट नेटवर्क विलंब मॉडल के तहत तीनों प्रोटोकॉल के लिए "आक्रमणकारी सापेक्ष राजस्व बनाम आक्रमणकारी हैशरेट" दिखाएगा। डीएजी-पीपीओडब्ल्यू वक्र आक्रमणकारी हैशरेट की एक व्यापक श्रेणी के लिए ब्रेक-ईवन रेखा (y=1) के नीचे बना रहेगा, जो अधिक लचीलापन दर्शाता है।

RL Attack Search Output: परिणाम दिखाएंगे कि RL एजेंट की सीखी गई नीति व्यापक परिस्थितियों में डीएजी-पीपीओडब्ल्यू के लिए "कोई-हमला-नहीं" रणनीति पर अभिसरण करती है, जबकि टेलस्टॉर्म और आधार पीपीओडब्ल्यू के लिए लाभदायक विचलन ढूंढती है।

5. तकनीकी कार्यान्वयन विवरण

5.1 गणितीय सूत्रीकरण

The targeted reward discounting can be formalized. Let $V_i$ be a vote in a round. Let $R_{base}$ be the base reward. Let $P(V_i)$ be the set of votes that were publicly visible and valid for $V_i$ to reference but were not referenced. The discount factor $d_i$ for $V_i$ could be:

$d_i = 1 - \alpha \cdot \frac{|P(V_i)|}{N_{visible}}$

where $\alpha$ is a protocol parameter (0 < $\alpha$ ≤ 1) controlling punishment severity, and $N_{visible}$ is the total number of visible votes it could have referenced. The final reward is $R_i = R_{base} \cdot d_i$. This creates a direct economic disincentive against withholding references.

5.2 DAG Construction & Validation

एक वोट बनाते समय, एक माइनर वर्तमान राउंड के सभी वैध वोटों के हैश शामिल करता है जो उसे प्राप्त हुए हैं (इसके "पैरेंट्स"), स्पैम रोकने के लिए अधिकतम सीमा या गैस-जैसी लागत के अधीन। एक राउंड के लिए DAG सभी वोटों और उनके संदर्भ किनारों का संघ है। सत्यापन में प्रत्येक वोट पर PoW की जाँच करना, यह सुनिश्चित करना कि सभी संदर्भित पैरेंट्स मौजूद हैं और वैध हैं, और यह सत्यापित करना शामिल है कि कोई चक्र नहीं बनाया गया है (एक टोपोलॉजिकल सॉर्ट संभव होना चाहिए)।

6. विश्लेषण ढांचा उदाहरण केस

परिदृश्य: 20% नेटवर्क विभाजन के प्रभाव का मूल्यांकन।

फ्रेमवर्क अनुप्रयोग:

मॉडल: खनिकों को दो समूहों में विभाजित करें, A (80%) और B (20%), एक राउंड के लिए उनके बीच कोई संचार नहीं होगा।
ट्री (टेलस्टॉर्म): प्रत्येक समूह केवल उन्हीं वोटों को देखकर वोटों का विस्तार करता है, जिससे दो गहरी, अलग-अलग शाखाएँ बनती हैं। राउंड के अंत में, पुरस्कार छूट समान रूप से लागू होती है सभी गहरे वृक्ष की गहराई के आधार पर वोटों पर, दोनों समूहों को समान रूप से दंडित करते हुए।
DAG (प्रस्तावित): प्रत्येक विभाजन के भीतर, खनिक अभी भी उन सभी वोटों को संदर्भित कर सकते हैं जो वे देखते हैं, जिससे दो अलग-अलग उप-डीएजी बनते हैं। जब विभाजन ठीक हो जाता है, तो छूट की गणना प्रति वोट की जाती है। प्रत्येक उप-डीएजी के केंद्र में स्थित वोटों (जिन्होंने अपने साथियों को संदर्भित किया) को न्यूनतम दंड मिलता है। केवल प्रत्येक विभाजन के अस्थायी किनारों पर स्थित वोट, जो दूसरी ओर के वोटों को संदर्भित करने में विफल रहे जो तकनीकी रूप से विभाजन के ठीक होने के बाद ही "दृश्यमान" थे (एक बारीक बिंदु), आंशिक दंड प्राप्त कर सकते हैं। दंड लक्षित उन वोटों पर है जो विभाजन से सबसे अधिक प्रभावित हुए, सामूहिक रूप से नहीं।

यह मामला दर्शाता है कि कैसे लक्षित छूट नेटवर्क समस्याओं के लिए दोष/दंड का अधिक न्यायसंगत आवंटन करती है।

7. आलोचनात्मक विश्लेषक परिप्रेक्ष्य

Core Insight: यह शोधपत्र केवल एक और मामूली सुधार नहीं है; यह उच्च-थ्रूपुट PoW की कमजोरी, यानी प्रोत्साहन-सहमति लूप पर एक सटीक प्रहार है। लेखक सही ढंग से पहचानते हैं कि समानांतरीकरण (PPoW) के साथ थ्रूपुट बढ़ाने से तर्कसंगत खनिकों के लिए अनजाने में नए, अधिक सूक्ष्म हमले के अवसर पैदा होते हैं। उनकी मुख्य अंतर्दृष्टि—कि एकसमान दंड अनुचित और असुरक्षित दोनों है—गहन है। यह अर्थशास्त्र में तंत्र डिजाइन के सबक की प्रतिध्वनि है: कुंद उपकरण विपरीत प्रोत्साहन पैदा करते हैं। DAGs और लक्षित दंडों की ओर बढ़ना ब्लॉकचेन सुरक्षा के लिए "मूल्य-सिद्धांत" दृष्टिकोण का प्रत्यक्ष अनुप्रयोग है, जो हमलावर को उनके विघटन की लागत आत्मसात करने के लिए बाध्य करता है।

Logical Flow: तर्क प्रभावशाली है। 1) बिटकॉइन सुरक्षित लेकिन धीमा है। 2) PPoW (और टेलस्टॉर्म) इसे तेज करते हैं लेकिन प्रोत्साहन सुरक्षा को कमजोर करते हैं—यह एक समझौता है जिसे कई प्रोटोकॉल अनदेखा कर देते हैं। 3) मूल कारण प्रोत्साहन योजना में दंड का गलत संरेखण है। 4) समाधान: दोषीपन के अधिक सूक्ष्म माप (किसने किसका संदर्भ नहीं लिया) को सक्षम करने के लिए डेटा संरचना (DAG) को परिष्कृत करना, और फिर दंड को सीधे उस माप से जोड़ना। हमले की खोज के लिए RL का उपयोग एक उत्कृष्ट रणनीति है, जो अस्पष्ट सुरक्षा दावों से आगे बढ़कर प्रदर्शनीय, स्वचालित प्रतिकूल परीक्षण की ओर ले जाती है। यह पद्धति एक स्वर्ण मानक होनी चाहिए, ठीक वैसे ही जैसे arXiv के शोधपत्रों में AI प्रणालियों के लिए वकालत किए गए कठोर प्रतिकूल परीक्षण (उदाहरण के लिए, तंत्रिका नेटवर्क के लिए मजबूती मूल्यांकन)।

Strengths & Flaws:

Strengths: एक स्पष्ट सैद्धांतिक मॉडल (DAG + targeted discounting) का RL के माध्यम से अनुभवजन्य सत्यापन के साथ संयोजन असाधारण है। यह निष्कर्ष कि वैनिला PPoW Bitcoin की तुलना में कम सुरक्षित हो सकता है, यह क्षेत्र के लिए एक महत्वपूर्ण चेतावनी है। प्रोटोकॉल डिज़ाइन सुरुचिपूर्ण है और सीधे तौर पर बताई गई खामियों को संबोधित करता है।
Flaws & Open Questions: पेपर की व्यावहारिकता छूट गणना के लिए "दृश्यमान" वोटों की सटीक, समय पर धारणा पर निर्भर करती है—एक अतुल्यकालिक नेटवर्क में एक गैर-तुच्छ समस्या। यह एक "नेटवर्क निगरानी कर" बनाने का जोखिम उठाता है जहां खनिकों को यह साबित करने के लिए आक्रामक रूप से गॉसिप करनी चाहिए कि उन्होंने वोट देखे। आरएल विश्लेषण, शक्तिशाली होते हुए भी, केवल अपने पर्यावरण मॉडल जितना अच्छा है; वास्तविक दुनिया के नेटवर्क गतिशीलता अधिक अव्यवस्थित हैं। इसके अलावा, प्रोटोकॉल क्लाइंट सॉफ़्टवेयर और सत्यापन तर्क में महत्वपूर्ण जटिलता जोड़ता है, संभावित रूप से अपनाने में बाधा डालता है।

कार्रवाई योग्य अंतर्दृष्टि: शोधकर्ताओं के लिए: नए सहमति प्रोटोकॉल के मूल्यांकन के लिए मानक उपकरण के रूप में आरएल-आधारित हमला खोज अपनाएं। डेवलपर्स के लिए: किसी भी स्केलिंग समाधान को डिजाइन करते समय, पहला इसके द्वारा निर्मित नए प्रोत्साहन आक्रमण वैक्टर का मॉडल बनाएं। निवेशकों/परियोजना मूल्यांककों के लिए: उच्च थ्रूपुट का दावा करने वाले किसी भी प्रोटोकॉल की समान रूप से कठोर प्रोत्साहन विश्लेषण के लिए जांच करें। एक लाल झंडा वह शोधपत्र है जो केवल टीपीएस और अंतिमता पर चर्चा करता है, नेटवर्क प्रतिकूलता के तहत प्रोत्साहन अनुकूलता पर समर्पित अनुभाग के बिना। यह कार्य एक नया मानक स्थापित करता है।

8. Future Applications & Research Directions

हाइब्रिड सहमति प्रोटोकॉल: DAG-आधारित मतदान और लक्षित दंड योजना को समिति-आधारित या Proof-of-Stake (PoS) प्रणालियों में अनुकूलित किया जा सकता है जहाँ वैलिडेटर मत उत्पन्न करते हैं। यह साधारण स्लैशिंग की तुलना में लाइवनेस विफलताओं या सेंसरशिप के लिए वैलिडेटरों को दंडित करने का एक अधिक सटीक तरीका प्रदान करती है।
डेटा उपलब्धता नमूनाकरण: Ethereum के danksharding जैसी मॉड्यूलर ब्लॉकचेन आर्किटेक्चर में, डेटा सैंपल प्रदान करने में विफल नोड्स के लिए गैर-सहयोग पर लक्षित दंड की अवधारणा लागू की जा सकती है, जिससे डेटा उपलब्धता गारंटी की सुरक्षा में सुधार होता है।
क्रॉस-चेन संचार: विभिन्न चेन से प्रमाणनों का एक DAG, जहाँ दूसरों से उपलब्ध डेटा को नजरअंदाज करने वाले प्रमाणनों के लिए पुरस्कार कम किए जाते हैं, क्रॉस-चेन ब्रिजों की सुरक्षा और विलंबता में सुधार कर सकता है।
अनुसंधान दिशाएँ: 1) प्रोत्साहन सुरक्षा गुणों का औपचारिक सत्यापन। 2) विभिन्न छूट कार्यों (जैसे, गैर-रैखिक) का अन्वेषण। 3) समानांतर ब्लॉक सेटिंग में मेमपूल गतिशीलता और लेनदेन शुल्क बाजारों के साथ एकीकरण। 4) वास्तविक नेटवर्क स्थितियों में सैद्धांतिक और सिमुलेशन परिणामों को मान्य करने के लिए एक टेस्टनेट पर कार्यान्वयन और वास्तविक दुनिया परीक्षण।

9. References

Nakamoto, S. (2008). Bitcoin: A Peer-to-Peer Electronic Cash System.
Garay, J., Kiayias, A., & Leonardos, N. (2015). The Bitcoin Backbone Protocol: Analysis and Applications. In EUROCRYPT.
Pass, R., Seeman, L., & Shelat, A. (2017). Analysis of the Blockchain Protocol in Asynchronous Networks. In EUROCRYPT.
Sompolinsky, Y., & Zohar, A. (2015). Secure High-Rate Transaction Processing in Bitcoin. In FC.
Eyal, I., & Sirer, E. G. (2014). Majority is not Enough: Bitcoin Mining is Vulnerable. In FC.
Nayak, K., Kumar, S., Miller, A., & Shi, E. (2016). Stubborn Mining: Generalizing Selfish Mining and Combining with an Eclipse Attack. In IEEE S&P.
Tsabary, I., & Eyal, I. (2018). The Gap Game. In CCS.
Tailstorm Reference: [Author(s)]. (Year). Tailstorm: [Subtitle]. In [Conference]. (संदर्भ PDF में Tailstorm [12] के उल्लेख के आधार पर तैयार किया गया)।
समानांतर प्रूफ-ऑफ-वर्क संदर्भ: [लेखक(ओं)]। (वर्ष)। Parallel Proof-of-Work। में [Conference]. (संदर्भ PDF में PPoW [13] के उल्लेख के आधार पर तैयार किया गया)।
OpenAI. (2019). प्रतिस्पर्धी स्व-खेल. OpenAI ब्लॉग. [RL बहु-एजेंट विश्लेषण पद्धति के लिए बाहरी स्रोत].
Goodfellow, I., et al. (2014). जनरेटिव एडवरसैरियल नेट्स. NeurIPS. [External source for adversarial training concepts].
Buterin, V. (2021). Why sharding is great: demystifying the technical properties. Ethereum Foundation Blog. [External source for data availability and scaling context].