1. 引言
以比特幣和以太坊為代表的無許可區塊鏈,雖然革新了去中心化系統,但面臨著重大的可擴展性挑戰。工作量證明共識機制的能源消耗已被廣泛討論,但同樣關鍵的儲存開銷問題卻相對較少受到關注。本文提出一項開創性的實證研究,分析完整區塊鏈節點如何利用帳本資料進行驗證。核心發現是,透過智能的客戶端策略,可以在無需修改底層區塊鏈協議的情況下,大幅縮減儲存足跡——對於比特幣而言,可能降至約15 GB——從而降低運行全節點的入門門檻。
2. 問題陳述與背景
2.1 無許可區塊鏈的儲存負擔
像比特幣這樣的區塊鏈,其安全性和完整性依賴於一個完整、不可篡改的帳本。隨著採用率增長,帳本大小也隨之增加。在研究進行時,比特幣的帳本已超過370 GB。這種龐大的儲存需求是希望運行全節點使用者的主要障礙,導致只有更少的實體能夠負擔得起維護完整歷史記錄,從而帶來中心化風險。
關鍵儲存統計數據
比特幣帳本大小: >370 GB
目標縮減量(建議): ~15 GB
縮減潛力: ~96%
2.2 現有緩解策略及其限制
先前的解決方案通常涉及協議層面的變更,例如檢查點或分片,這些都需要硬分叉和社群共識。Bitcoin Core 提供了一個修剪選項,但缺乏智能指引——使用者必須任意選擇一個保留閾值(以 GB 或區塊高度為單位),這可能導致刪除驗證未花費交易輸出時仍需要的資料。
3. 方法論與實證分析
3.1 資料收集與測量框架
本研究採用了全面的實證測量方法,分析比特幣區塊鏈,以精確了解在標準節點操作(如區塊和交易驗證)期間,會存取哪些資料元素(交易、區塊、區塊頭)。
3.2 全節點資料使用模式分析
分析顯示,在經過一段時間後,歷史帳本的很大一部分很少被存取。驗證主要依賴於:
- 當前的 UTXO 集合。
- 用於工作量證明驗證的近期區塊頭。
- 被較新交易引用的部分歷史交易。
這一洞察構成了智能修剪的基礎。
4. 提出的客戶端儲存縮減方案
4.1 本地儲存修剪策略
提出的策略是一種客戶端優化。全節點可以安全地刪除古老區塊的原始資料,同時保留密碼學承諾(如區塊頭和 Merkle 根)以及當前的 UTXO 集合。如果之後需要已刪除的交易(例如,為了驗證鏈重組),節點可以從點對點網路中獲取它。
4.2 優化資料保留模型
該模型不使用簡單的基於時間或大小的閾值,而是採用存取頻率與依賴性分析。它根據資料在未來驗證中被需要的可能性來保留資料,在保持節點完全驗證鏈的能力的同時,顯著降低了本地儲存需求。
5. 結果與效能評估
5.1 儲存足跡縮減
實證評估表明,一個完整的比特幣節點可以將其本地儲存足跡減少到大約15 GB,相較於完整的 370+ GB 帳本,縮減了約 96%。這包括壓縮後的 UTXO 集合和近期的區塊頭。
圖表:儲存足跡比較
描述: 一個長條圖,比較「全節點儲存 (370 GB)」和「優化節點儲存 (15 GB)」。優化節點的長條明顯較短,視覺上強調了 96% 的縮減。優化儲存被分段顯示,以展示用於 UTXO 集合、近期區塊頭以及一小部分經常存取的歷史資料快取的比例。
5.2 計算與網路開銷
儲存減少的代價是,當需要歷史資料時,網路請求可能會增加。然而,研究發現,在正常操作下,這種開銷是微不足道的,因為所需的資料獲取並不頻繁,且資料很容易從其他網路節點獲得。
6. 技術細節與數學框架
優化的核心在於理解交易依賴圖。令 $G = (V, E)$ 為一個有向無環圖,其中頂點 $V$ 代表交易,若交易 $v$ 花費了由交易 $u$ 創建的輸出,則存在邊 $(u, v) \in E$。可以對交易 $t_i$ 的「年齡」和「連通性」進行建模。為驗證新區塊而需要 $t_i$ 的機率 $P_{access}(t_i)$ 會隨著時間以及其與當前 UTXO 集合的距離增加而降低。
一個簡單的保留啟發式方法可以是:如果 $age(t_i) < T_{age}$ 或者如果 $t_i$ 是最近 $N$ 個區塊中任何交易的祖先(在 $k$ 跳之內),則保留交易資料。其中 $T_{age}$、$k$ 和 $N$ 是從實證存取模式推導出的參數。
7. 分析框架:個案研究
情境: 一家新創公司希望運行比特幣全節點用於審計目的,但雲端儲存預算有限。
框架應用:
- 資料分析: 節點軟體首先在觀察模式下運行,分析在一個月內存取了哪些區塊和交易。
- 模型校準: 使用分析後的資料,校準保留啟發式方法的參數(例如,設定 $T_{age}$ 為 3 個月,$k=5$,$N=1000$)。
- 修剪執行: 然後,節點修剪所有不符合保留標準的區塊資料,僅保留區塊頭、UTXO 集合以及符合資格的交易資料。
- 持續運作: 在正常操作期間,如果請求一個已被修剪的交易,節點會從兩個隨機節點獲取它,並在使用前根據儲存的 Merkle 根進行驗證。
結果: 該新創公司以 < 20 GB 的儲存空間維護了一個完全驗證的節點,以極低的成本實現了其安全目標。
8. 未來應用與研究方向
- 輕客戶端安全性增強: 這項工作中的技術可以透過讓簡化支付驗證客戶端快取並驗證更相關的資料子集,來增強其安全性。
- 跨區塊鏈歸檔: 開發標準化、高效的歸檔協議,讓專門的「歸檔節點」儲存完整歷史,而常規節點儲存優化的子集,並在需要時透過密碼學證明按需獲取資料。
- 與第二層整合: 為同時參與第二層網路(例如閃電網路)的節點優化儲存,這些節點中特定的歷史資料更常被需要。
- 用於預測性修剪的機器學習: 採用機器學習模型來更好地預測哪些歷史資料將被需要,進一步優化儲存與效能的權衡。
9. 參考文獻
- Sforzin, A., 等人. "On the Storage Overhead of Proof-of-Work Blockchains." (來源 PDF).
- Nakamoto, S. "Bitcoin: A Peer-to-Peer Electronic Cash System." 2008.
- Bitcoin Core 文件. "Pruning." https://bitcoin.org/en/bitcoin-core/features/pruning.
- Buterin, V. "Ethereum Whitepaper." 2014.
- Gervais, A., 等人. "On the Security and Performance of Proof of Work Blockchains." ACM CCS 2016.
- 國際能源署 (IEA). "Data Centres and Data Transmission Networks." 2022. (用於計算開銷的背景資料).
分析師觀點:四步解構
核心洞察: 本文提出了一個關鍵但常被忽視的洞察:比特幣全節點的功能性儲存需求不是 370 GB,而是可以低至 15 GB。龐大的帳本在很大程度上是一個冷儲存庫,而非活躍的工作記憶體。這將可擴展性辯論從「我們如何縮小鏈?」重新定義為「我們如何智能地管理對它的存取?」這類似於電腦架構中的認知:並非所有 RAM 中的資料都同樣「熱」;快取記憶體就是這樣運作的。作者正確地指出,區塊鏈的安全性主要取決於UTXO 集合和區塊頭鏈的完整性,而非每個古老交易的原始位元組。這與關於無狀態客戶端和 Merkle 證明的基礎研究相符,正如以太坊研究論壇所討論的,但務實地應用於當今的比特幣。
邏輯流程: 論證方法嚴謹且具說服力。它從量化問題(370 GB)開始,批判現有的權宜解決方案(盲目修剪),然後基於實證證據——黃金標準——建立其論點。透過實際測量節點使用的資料,他們從推測轉向事實。邏輯上的飛躍很優雅:如果我們知道驗證需要什麼資料(「工作集」),我們就可以在本地丟棄其餘部分,僅在極少數需要時才獲取它。這是一個經典的時空權衡,針對網路頻寬通常比儲存更便宜、更充裕的現實進行了優化,尤其是在消費級硬體上。
優勢與缺陷: 其優勢在於實用性和即時性。無需分叉,無需共識變更——只需更智能的客戶端軟體。它直接降低了運行全節點的門檻,對抗中心化。然而,缺陷在於權衡的細則。所謂「微不足道」的網路開銷假設了一個健康、誠實的節點網路。在網路分割或複雜的日蝕攻擊期間,如果修剪過的節點無法獲取舊區塊,其驗證深度重組的能力可能會受到影響。這也略微增加了驗證非常古老交易的延遲。此外,正如 Gervais 等人在其對 PoW 的安全性分析中所指出的,減少節點對歷史的即時存取,在極端情況下,可能會影響其獨立驗證鏈總工作量的能力。本文可以更深入地探討這些安全與效率的權衡。
可操作的見解: 對於區塊鏈開發者來說,指令很明確:將這種數據驅動的智能修剪整合到預設的客戶端軟體中。目前 Bitcoin Core 中的 "prune=550" 標記是一個鈍器;應該用本文提出的自適應模型來取代它。對於企業和礦工來說,這是一個直接的成本節省措施——雲端儲存費用可以削減超過 90%。對於更廣泛的生態系統,這項研究為「區塊鏈本質上臃腫」的論點提供了反敘事。它表明,透過客戶端創新,無需觸及神聖的共識層,就有可能實現顯著的可擴展性改進。下一步是標準化按需資料獲取協議,使其高效且保護隱私,將這項研究轉化為可部署的標準。