تحلیل سربار ذخیره‌سازی در بلاک‌چین‌های اثبات کار

1. مقدمه

بلاک‌چین‌های بدون مجوز، که نمونه اعلای آن‌ها بیت‌کوین و اتریوم هستند، سیستم‌های غیرمتمرکز را متحول کرده‌اند اما با چالش‌های مقیاس‌پذیری قابل توجهی مواجهند. در حالی که مصرف انرژی اجماع اثبات کار به طور گسترده مورد بحث قرار گرفته، مسئله به همان اندازه حیاتی سربار ذخیره‌سازی توجه کمتری دریافت کرده است. این مقاله یک مطالعه تجربی پیشگامانه ارائه می‌دهد که تحلیل می‌کند نودهای کامل بلاک‌چین چگونه از داده‌های دفترکل برای اعتبارسنجی استفاده می‌کنند. یافته اصلی این است که از طریق راهبردهای هوشمند سمت کاربر، حجم ذخیره‌سازی می‌تواند به شدت کاهش یابد—به طور بالقوه تا حدود 15 گیگابایت برای بیت‌کوین—بدون نیاز به هیچ تغییری در پروتکل زیربنایی بلاک‌چین، و در نتیجه مانع ورود برای اجرای نودهای کامل کاهش می‌یابد.

2. بیان مسئله و پیشینه

2.1 بار ذخیره‌سازی بلاک‌چین‌های بدون مجوز

امنیت و یکپارچگی بلاک‌چین‌هایی مانند بیت‌کوین به یک دفترکل کامل و تغییرناپذیر متکی است. با افزایش پذیرش، اندازه دفترکل نیز افزایش می‌یابد. در زمان انجام این مطالعه، اندازه دفترکل بیت‌کوین از 370 گیگابایت فراتر رفته بود. این نیاز عظیم به ذخیره‌سازی، عامل اصلی بازدارندگی برای کاربرانی است که مایل به اجرای نود کامل هستند و منجر به ریسک‌های متمرکزسازی می‌شود، زیرا تعداد کمتری از نهادها می‌توانند هزینه نگهداری تاریخچه کامل را متحمل شوند.

آمار کلیدی ذخیره‌سازی

اندازه دفترکل بیت‌کوین: >370 گیگابایت

هدف کاهش (پیشنهادی): ~15 گیگابایت

پتانسیل کاهش: ~96%

2.2 راهبردهای کاهش موجود و محدودیت‌های آن‌ها

راه‌حل‌های قبلی اغلب شامل تغییرات در سطح پروتکل هستند، مانند چک‌پوینت یا شاردینگ، که نیازمند هارد فورک و اجماع جامعه هستند. بیت‌کوین کر یک گزینه هرس ارائه می‌دهد، اما فاقد راهنمایی هوشمند است—کاربران باید به طور دلخواه یک آستانه نگهداری (بر حسب گیگابایت یا ارتفاع بلوک) انتخاب کنند، که خطر حذف داده‌هایی که هنوز برای اعتبارسنجی خروجی‌های تراکنش خرج‌نشده مورد نیاز هستند را به همراه دارد.

3. روش‌شناسی و تحلیل تجربی

3.1 چارچوب جمع‌آوری و اندازه‌گیری داده

این پژوهش از یک رویکرد اندازه‌گیری تجربی جامع استفاده کرد و بلاک‌چین بیت‌کوین را تحلیل نمود تا دقیقاً مشخص کند کدام عناصر داده (تراکنش‌ها، بلوک‌ها، هدرها) در حین عملیات استاندارد نود مانند اعتبارسنجی بلوک و تراکنش مورد دسترسی قرار می‌گیرند.

3.2 تحلیل الگوهای استفاده از داده در نود کامل

تحلیل نشان داد که بخش قابل توجهی از دفترکل تاریخی پس از یک دوره مشخص به ندرت مورد دسترسی قرار می‌گیرد. اعتبارسنجی عمدتاً به موارد زیر وابسته است:

مجموعه UTXO جاری.
هدرهای بلوک اخیر برای تأیید اثبات کار.
زیرمجموعه‌ای از تراکنش‌های تاریخی که توسط تراکنش‌های جدیدتر به آن‌ها ارجاع داده شده است.

این بینش، اساس هرس هوشمند را تشکیل می‌دهد.

4. کاهش ذخیره‌سازی پیشنهادی در سمت کاربر

4.1 راهبرد هرس حافظه محلی

راهبرد پیشنهادی یک بهینه‌سازی سمت کاربر است. یک نود کامل می‌تواند با اطمینان داده‌های خام بلوک‌های قدیمی را حذف کند، در حالی که تعهدات رمزنگاری (مانند هدرهای بلوک و ریشه‌های مرکل) و مجموعه UTXO جاری را حفظ می‌کند. اگر بعداً به یک تراکنش حذف‌شده نیاز باشد (مثلاً برای اعتبارسنجی یک بازآرایی زنجیره)، نود می‌تواند آن را از شبکه همتا به همتا بازیابی کند.

4.2 مدل بهینه‌شده نگهداری داده

به جای یک برش ساده مبتنی بر سن یا حجم، این مدل از تحلیل فرکانس دسترسی و وابستگی استفاده می‌کند. این مدل داده‌ها را بر اساس احتمال نیاز به آن‌ها برای اعتبارسنجی آتی نگه می‌دارد، که نیاز به ذخیره‌سازی محلی را به شدت کاهش می‌دهد در حالی که توانایی نود برای اعتبارسنجی کامل زنجیره حفظ می‌شود.

5. نتایج و ارزیابی عملکرد

5.1 کاهش حجم ذخیره‌سازی

ارزیابی تجربی نشان می‌دهد که یک نود کامل بیت‌کوین می‌تواند حجم ذخیره‌سازی محلی خود را تقریباً به 15 گیگابایت کاهش دهد، که کاهشی حدود 96% از دفترکل کامل 370+ گیگابایتی است. این شامل مجموعه UTXO فشرده‌شده و هدرهای بلوک اخیر می‌شود.

شکل: مقایسه حجم ذخیره‌سازی

توضیح: یک نمودار میله‌ای که "ذخیره‌سازی نود کامل (370 گیگابایت)" و "ذخیره‌سازی نود بهینه‌شده (15 گیگابایت)" را مقایسه می‌کند. میله نود بهینه‌شده به طور قابل توجهی کوتاه‌تر است و کاهش 96% را به صورت بصری تأکید می‌کند. ذخیره‌سازی بهینه‌شده بخش‌بندی شده تا نسبت استفاده شده برای مجموعه UTXO، هدرهای اخیر و یک حافظه نهان کوچک از داده‌های تاریخی پر دسترسی را نشان دهد.

5.2 سربار محاسباتی و شبکه

معاوضه کاهش ذخیره‌سازی، افزایش بالقوه درخواست‌های شبکه در هنگام نیاز به داده‌های تاریخی است. با این حال، این مطالعه نشان می‌دهد که این سربار در شرایط عملیاتی عادی ناچیز است، زیرا واکشی‌های مورد نیاز کم‌تکرار هستند و داده به راحتی از سایر همتایان شبکه در دسترس است.

6. جزئیات فنی و چارچوب ریاضی

هسته این بهینه‌سازی بر درک گراف‌های وابستگی تراکنش متکی است. فرض کنید $G = (V, E)$ یک گراف جهت‌دار غیرمدور باشد که در آن رئوس $V$ نشان‌دهنده تراکنش‌ها هستند و یک یال $(u, v) \in E$ وجود دارد اگر تراکنش $v$ یک خروجی ایجاد شده توسط تراکنش $u$ را خرج کند. "سن" و "اتصال" یک تراکنش $t_i$ قابل مدلسازی است. احتمال $P_{access}(t_i)$ نیاز به $t_i$ برای اعتبارسنجی یک بلوک جدید، با گذشت زمان و با فاصله آن از مجموعه UTXO جاری کاهش می‌یابد.

یک راهکار ابتدایی برای نگهداری می‌تواند این باشد: داده تراکنش را نگه دار اگر $age(t_i) < T_{age}$ یا اگر $t_i$ یک نیای (در فاصله $k$ پرش) هر تراکنش در $N$ بلوک اخیر باشد. که در آن $T_{age}$، $k$ و $N$ پارامترهایی هستند که از الگوهای دسترسی تجربی استخراج می‌شوند.

7. چارچوب تحلیل: یک مطالعه موردی

سناریو: یک استارت‌آپ جدید می‌خواهد یک نود کامل بیت‌کوین برای اهداف حسابرسی اجرا کند اما بودجه محدودی برای ذخیره‌سازی ابری دارد.

کاربرد چارچوب:

پروفایل‌سازی داده: نرم‌افزار نود ابتدا در حالت مشاهده اجرا می‌شود و پروفایلی از بلوک‌ها و تراکنش‌هایی که در طول یک ماه مورد دسترسی قرار می‌گیرند تهیه می‌کند.
کالیبراسیون مدل: با استفاده از داده‌های پروفایل‌شده، پارامترهای راهکار نگهداری را کالیبره می‌کند (مثلاً $T_{age}$ را روی 3 ماه، $k=5$، $N=1000$ تنظیم می‌کند).
اجرای هرس: سپس نود تمام داده‌های بلوکی را که معیارهای نگهداری را برآورده نمی‌کنند حذف می‌کند و فقط هدرهای بلوک، مجموعه UTXO و داده‌های تراکنش واجد شرایط را نگه می‌دارد.
عملیات مستمر: در حین عملیات عادی، اگر به یک تراکنش حذف‌شده درخواستی شود، نود آن را از دو همتای تصادفی بازیابی کرده و قبل از استفاده، آن را در برابر ریشه مرکل ذخیره‌شده تأیید می‌کند.

نتیجه: استارت‌آپ یک نود اعتبارسنج کامل را با حجم ذخیره‌سازی کمتر از 20 گیگابایت حفظ می‌کند و به اهداف امنیتی خود با کسری از هزینه دست می‌یابد.

8. کاربردهای آتی و جهت‌های پژوهشی

تقویت امنیت کلاینت سبک: تکنیک‌های این کار می‌تواند امنیت کلاینت‌های تأیید پرداخت ساده‌شده را با اجازه دادن به آن‌ها برای ذخیره نهان و اعتبارسنجی یک زیرمجموعه مرتبط‌تر از داده، تقویت کند.
بایگانی فرابلاک‌چینی: توسعه پروتکل‌های بایگانی استاندارد و کارآمد که در آن «نودهای بایگانی» تخصصی تاریخچه کامل را ذخیره می‌کنند و نودهای عادی زیرمجموعه‌های بهینه‌شده را ذخیره کرده و داده را به صورت درخواستی با اثبات‌های رمزنگاری بازیابی می‌کنند.
ادغام با لایه ۲: بهینه‌سازی ذخیره‌سازی برای نودهایی که در شبکه‌های لایه ۲ نیز مشارکت دارند (مانند شبکه لایتنینگ)، جایی که داده‌های تاریخی خاص مرتبط‌تر هستند.
یادگیری ماشین برای هرس پیش‌بینانه: به کارگیری مدل‌های یادگیری ماشین برای پیش‌بینی بهتر اینکه کدام داده تاریخی مورد نیاز خواهد بود، و بهینه‌سازی بیشتر معاوضه ذخیره‌سازی/عملکرد.

9. منابع

Sforzin, A., et al. "On the Storage Overhead of Proof-of-Work Blockchains." (Source PDF).
Nakamoto, S. "Bitcoin: A Peer-to-Peer Electronic Cash System." 2008.
Bitcoin Core Documentation. "Pruning." https://bitcoin.org/en/bitcoin-core/features/pruning.
Buterin, V. "Ethereum Whitepaper." 2014.
Gervais, A., et al. "On the Security and Performance of Proof of Work Blockchains." ACM CCS 2016.
International Energy Agency (IEA). "Data Centres and Data Transmission Networks." 2022. (For context on computational overhead).

دیدگاه تحلیلگر: یک تجزیه چهار مرحله‌ای

بینش اصلی: این مقاله یک بینش حیاتی اما اغلب نادیده گرفته شده را ارائه می‌دهد: نیاز کارکردی ذخیره‌سازی برای یک نود کامل بیت‌کوین 370 گیگابایت نیست، بلکه می‌تواند تا 15 گیگابایت پایین باشد. دفترکل عظیم عمدتاً یک بایگانی سرد است، نه حافظه کاری فعال. این، بحث مقیاس‌پذیری را از «چگونه زنجیره را کوچک کنیم؟» به «چگونه دسترسی به آن را هوشمندانه مدیریت کنیم؟» بازتعریف می‌کند. این مشابه درک در معماری کامپیوتر است که همه داده‌های رم به یک اندازه داغ نیستند؛ حافظه‌های نهان کار می‌کنند. نویسندگان به درستی شناسایی می‌کنند که امنیت بلاک‌چین عمدتاً به یکپارچگی مجموعه UTXO و زنجیره هدر وابسته است، نه بایت‌های خام هر تراکنش قدیمی. این با کارهای پایه‌ای روی کلاینت‌های بدون حالت و اثبات‌های مرکل، همانطور که در انجمن‌های پژوهشی اتریوم بحث شده، همسو است اما آن را به صورت عملی برای بیت‌کوین امروز اعمال می‌کند.

جریان منطقی: استدلال روشمند و قانع‌کننده است. با کمّی‌سازی مسئله (370 گیگابایت) شروع می‌شود، راه‌حل‌های موقت موجود (هرس کور) را نقد می‌کند و سپس بر اساس شواهد تجربی—استاندارد طلا—دعوی خود را بنا می‌کند. با اندازه‌گیری واقعی اینکه نودها از چه داده‌ای استفاده می‌کنند، از حدس‌وگمان به واقعیت حرکت می‌کنند. جهش منطقی ظریف است: اگر بدانیم چه داده‌ای برای اعتبارسنجی مورد نیاز است («مجموعه کاری»)، می‌توانیم بقیه را به صورت محلی دور بریزیم و فقط در مواقع نادری که نیاز است آن را بازیابی کنیم. این یک معاوضه کلاسیک زمان-فضا است که برای واقعیتی بهینه شده که پهنای باند شبکه اغلب ارزان‌تر و فراوان‌تر از ذخیره‌سازی است، به ویژه روی سخت‌افزار مصرف‌کننده.

نقاط قوت و ضعف: نقطه قوت آن عملی بودن و فوریت است. بدون فورک، بدون تغییر اجماع—فقط نرم‌افزار کلاینت هوشمندتر. این به طور مستقیم مانع اجرای نود کامل را کاهش می‌دهد و با متمرکزسازی مقابله می‌کند. با این حال، ضعف در جزئیات ریز معاوضه نهفته است. سربار شبکه «ناچیز» فرض می‌کند یک شبکه همتای سالم و صادق وجود دارد. در طول یک پارتیشن شبکه یا یک حمله پیچیده گرفتگی، توانایی یک نود هرس‌شده برای اعتبارسنجی بازآرایی‌های عمیق در صورتی که نتواند بلوک‌های قدیمی را بازیابی کند، ممکن است مختل شود. همچنین تأخیر اعتبارسنجی تراکنش‌های بسیار قدیمی را کمی افزایش می‌دهد. علاوه بر این، همانطور که پژوهشگرانی مانند گرو و همکاران در تحلیل‌های امنیتی خود از اثبات کار اشاره کرده‌اند، کاهش دسترسی فوری یک نود به تاریخچه ممکن است در موارد خاص، بر توانایی آن برای تأیید مستقل کل کار زنجیره تأثیر بگذارد. مقاله می‌تواند عمیق‌تر به این معاوضه‌های امنیت-کارایی بپردازد.

بینش‌های قابل اجرا: برای توسعه‌دهندگان بلاک‌چین، دستورالعمل روشن است: این هرس هوشمند مبتنی بر داده را در نرم‌افزار کلاینت پیش‌فرض ادغام کنید. پرچم فعلی "prune=550" در بیت‌کوین کر یک ابزار کور است؛ باید با مدل انطباقی پیشنهادی اینجا جایگزین شود. برای بنگاه‌ها و ماینرها، این یک اقدام مستقیم صرفه‌جویی در هزینه است—صورتحساب‌های ذخیره‌سازی ابری می‌تواند بیش از 90% کاهش یابد. برای اکوسیستم گسترده‌تر، این پژوهش یک روایت متقابل در برابر استدلال «بلاک‌چین‌ها ذاتاً حجیم هستند» ارائه می‌دهد. این نشان می‌دهد که بهبودهای قابل توجه مقیاس‌پذیری از طریق نوآوری سمت کاربر امکان‌پذیر است، بدون اینکه به لایه اجماع مقدس دست زده شود. گام بعدی استانداردسازی پروتکل بازیابی داده درخواستی است تا آن را کارآمد و حفظ‌کننده حریم خصوصی کند و این پژوهش را به یک استاندارد قابل استقرار تبدیل کند.