結合DAG結構投票與目標性獎勵折扣的平行工作量證明：安全性分析

1. 簡介與概述

本文提出一種新穎的工作量證明（PoW）加密貨幣協議，旨在解決比特幣及其近期提出的改進方案Tailstorm的關鍵限制。核心創新在於將平行工作量證明（PPoW）共識與DAG結構投票以及一種新穎的目標性獎勵折扣機制相結合。相較於現有系統，該協議旨在提供更優異的一致性保證、更高的交易吞吐量、更低的確認延遲，以及顯著提升對理性激勵攻擊的韌性。

此項工作的動機在於PoW加密貨幣中共識演算法與激勵方案之間的循環依賴性。雖然比特幣的安全性已廣為人知，但許多新協議缺乏對一致性和激勵機制的全面分析。Tailstorm使用帶有樹狀結構投票和統一獎勵折扣的PPoW改進了比特幣。本文指出了Tailstorm的兩個關鍵缺陷：(1) 樹狀結構導致每個區塊中部分投票（及其交易）無法被確認；(2) 統一的懲罰機制不公平地懲罰了因他人延遲而受影響的誠實礦工。所提出的基於DAG的解決方案直接針對這些缺陷。

2. 核心協議設計

2.1 平行工作量證明（PPoW）基礎

平行工作量證明是一種共識方案，要求在將下一個主區塊附加到鏈上之前，必須挖出可配置數量 $k$ 的PoW「投票」（或區塊）。這與比特幣的單鏈模型形成對比。每個投票都包含交易。這種結構本質上提供了更強的一致性保證；例如，在現實的網路假設下，PPoW中10分鐘的確認，其雙重支付失敗概率可比比特幣低約50倍。

2.2 從樹狀結構到DAG：投票結構化

Tailstorm將一個平行輪次中的 $k$ 個投票結構化為一棵樹。本協議將樹替換為有向無環圖（DAG）。在樹狀結構中，礦工必須選擇單一父投票進行延伸，從而產生分支。在DAG中，一個新投票可以引用多個先前的投票作為父節點，前提是不形成循環。這允許在同一輪次中確認更多投票，從而減少更大比例交易的延遲，並提高整體吞吐量。

2.3 目標性獎勵折扣機制

Tailstorm根據投票樹的深度統一折扣挖礦獎勵，對一輪中所有礦工因深樹（表示網路問題或攻擊）進行懲罰。新協議實施了目標性折扣。礦工投票的獎勵是根據其DAG結構中具體缺乏的引用進行折扣。未能引用其他可用投票（增加「非線性」）的投票將受到更高的懲罰。這精確地懲罰了應對連線不良或惡意隱瞞負責的礦工，而非集體。

3. 安全性與激勵分析

3.1 威脅模型與攻擊向量

分析考慮了以利潤最大化為動機的理性礦工。關鍵攻擊向量包括自私挖礦、區塊隱瞞以及利用網路延遲誘發非線性，從而從誠實礦工那裡竊取獎勵。本文指出一個關鍵發現：在某些網路條件下，沒有獎勵折扣的PPoW對激勵攻擊的韌性可能低於比特幣，這凸顯了設計良好激勵機制的必要性。

3.2 強化學習攻擊搜尋

為了嚴格評估攻擊韌性，作者採用強化學習（RL）代理來搜尋針對該協議的最佳攻擊策略。RL環境模擬了挖礦過程、網路延遲和協議的獎勵規則。代理學習策略以最大化其獎勵份額。這種方法靈感來自分析對抗性機器學習系統（如OpenAI關於多代理競爭的研究中所討論的），與手動分析相比，提供了一種更穩健、自動化的方式來發現細微的攻擊向量。

3.3 韌性比較：比特幣 vs. Tailstorm vs. DAG-PPoW

基於RL的攻擊搜尋表明，所提出的帶有目標性折扣的DAG-PPoW比比特幣和Tailstorm都更具韌性。目標性折扣使得攻擊者故意造成非線性無利可圖，因為他們將承擔懲罰的主要後果。DAG結構也透過允許每個投票有更多引用，減少了此類攻擊的機會。

關鍵安全性發現

攻擊獲利門檻：與Tailstorm的統一折扣和基礎PPoW相比，帶有目標性折扣的DAG-PPoW中，攻擊要獲利所需的算力門檻顯著更高。

4. 效能評估

4.1 一致性與最終性保證

透過要求每個區塊有 $k$ 個投票，PPoW提供了概率最終性，其安全性衰減函數比比特幣陡峭得多。在類似的誠實多數假設下，經過 $n$ 次確認後成功雙重支付的概率大約以 $O(exp(-k \cdot n))$ 的速度下降，而比特幣是 $O(exp(-n))$。

4.2 吞吐量與延遲改善

吞吐量隨著投票數量 $k$ 線性增加，因為每個投票都承載著一個完整的交易區塊。延遲得以降低，是因為DAG中較早投票的交易可以被同一輪次中較晚的投票確認，這與樹狀結構中某些分支必須等待下一個區塊不同。

4.3 實驗結果與圖表說明

模擬結果（概念性）： 一個關鍵圖表將繪製比特幣、Tailstorm和DAG-PPoW的「雙重支付失敗概率 vs. 確認時間」。DAG-PPoW曲線將下降得最快，展示其優越的一致性。另一張圖表將顯示在特定網路延遲模型下，三種協議的「攻擊者相對收益 vs. 攻擊者算力」。DAG-PPoW曲線將在更廣泛的攻擊者算力範圍內保持在盈虧平衡線（y=1）以下，顯示出更高的韌性。

RL攻擊搜尋輸出： 結果將顯示，在更廣泛的條件下，RL代理學習到的策略會收斂到DAG-PPoW的「不攻擊」策略，而對於Tailstorm和基礎PPoW則會找到有利可圖的偏差策略。

5. 技術實作細節

5.1 數學公式化

目標性獎勵折扣可以形式化。令 $V_i$ 為一輪中的一個投票。令 $R_{base}$ 為基礎獎勵。令 $P(V_i)$ 為在 $V_i$ 創建時公開可見且有效、可供 $V_i$ 引用但未被引用的投票集合。$V_i$ 的折扣因子 $d_i$ 可以是：

$d_i = 1 - \alpha \cdot \frac{|P(V_i)|}{N_{visible}}$

其中 $\alpha$ 是控制懲罰嚴重性的協議參數（0 < $\alpha$ ≤ 1），$N_{visible}$ 是它本可以引用的可見投票總數。最終獎勵為 $R_i = R_{base} \cdot d_i$。這創造了直接的經濟抑制因素，防止隱瞞引用。

5.2 DAG建構與驗證

創建投票時，礦工會包含其已接收到的當前輪次中所有有效投票的雜湊值（其「父節點」），但可能受最大限制或類似Gas的成本約束以防止濫發。一輪的DAG是所有投票及其引用邊的集合。驗證包括檢查每個投票的PoW，確保所有引用的父節點存在且有效，並驗證沒有形成循環（必須能夠進行拓撲排序）。

6. 分析框架範例案例

情境： 評估20%網路分區的影響。

框架應用：

建模： 將礦工分為兩組，A組（80%）和B組（20%），在一輪內兩組之間沒有通訊。
樹狀結構（Tailstorm）： 每組僅延伸他們看到的投票進行挖礦，產生兩個深且獨立的分支。在該輪結束時，獎勵折扣根據深樹深度統一應用於所有投票，平等地懲罰兩組。
DAG（提議方案）： 在每個分區內，礦工仍然可以引用他們看到的所有投票，建立兩個獨立的子DAG。當分區恢復時，折扣按投票計算。位於每個子DAG中心（引用了其同組投票）的投票受到最小懲罰。只有位於每個分區時間邊緣的投票，由於未能引用分區恢復後才在技術上「可見」的另一方投票（一個細微的點），可能會受到部分懲罰。懲罰是目標性地針對受分區影響最大的投票，而非集體。

此案例展示了目標性折扣如何更公平地分配對網路問題的責任/懲罰。

7. 批判性分析師觀點

核心洞見： 本文不僅僅是另一個漸進式的調整；它是對高吞吐量PoW阿基里斯腱（激勵-共識循環）的精準打擊。作者正確地指出，透過平行化（PPoW）提升吞吐量，無意中為理性礦工創造了新的、更細微的攻擊面。他們的關鍵洞見——統一懲罰既不公平也不安全——是深刻的。這呼應了經濟學機制設計的教訓：鈍器會產生不良激勵。轉向DAG和目標性懲罰是將「價格理論」方法應用於區塊鏈安全的直接體現，讓攻擊者內化其破壞行為的成本。

邏輯流程： 論證具有說服力。1) 比特幣安全但緩慢。2) PPoW（和Tailstorm）加快了速度，但削弱了激勵安全性——這是許多協議輕描淡寫的權衡。3) 根本原因在於激勵方案中的懲罰錯位。4) 解決方案：精煉資料結構（DAG）以實現更細粒度的責任衡量（誰沒有引用誰），然後將懲罰直接與該衡量結果掛鉤。使用RL進行攻擊搜尋是點睛之筆，超越了模糊的安全聲稱，轉向可展示的、自動化的對抗性測試。這種方法應該成為黃金標準，就像arXiv論文（例如，神經網路的穩健性評估）中為AI系統所倡導的嚴格對抗性測試一樣。

優點與缺陷：

優點： 清晰的理論模型（DAG + 目標性折扣）與透過RL進行的實證驗證相結合，表現卓越。發現基礎PPoW可能不如比特幣安全，對該領域是一個關鍵警告。協議設計優雅，直接針對所述缺陷。
缺陷與開放性問題： 本文的實用性取決於對折扣計算所需「可見」投票的準確、及時感知——這在非同步網路中是一個非平凡的問題。它可能產生一種「網路監控稅」，礦工必須積極傳播訊息以證明他們看到了投票。RL分析雖然強大，但其好壞取決於環境模型；真實世界的網路動態更為混亂。此外，該協議為客戶端軟體和驗證邏輯增加了顯著的複雜性，可能阻礙採用。

可行建議： 對於研究人員：採用基於RL的攻擊搜尋作為評估新共識協議的標準工具。對於開發者：在設計任何擴容解決方案時，首先模擬它可能創造的新激勵攻擊向量。對於投資者/專案評估者：仔細審查任何聲稱高吞吐量的協議是否進行了類似嚴格的激勵分析。一個危險信號是論文只討論TPS和最終性，而沒有專門章節分析網路逆境下的激勵相容性。這項工作設定了新的標準。

8. 未來應用與研究方向

混合共識協議： 基於DAG的投票和目標性懲罰方案可以適用於基於委員會或權益證明（PoS）的系統，其中驗證者產生投票。它提供了一種比簡單的罰沒更精確地懲罰驗證者活性故障或審查行為的方法。
資料可用性取樣： 在模組化區塊鏈架構（如以太坊的danksharding）中，針對不合作行為的目標性懲罰概念可以應用於未能提供資料樣本的節點，從而改善資料可用性保證的安全性。
跨鏈通訊： 來自不同鏈的證明DAG，對於忽略其他鏈可用資料的證明進行獎勵折扣，可以改善跨鏈橋的安全性和延遲。
研究方向： 1) 激勵安全屬性的形式化驗證。2) 探索不同的折扣函數（例如，非線性）。3) 在平行區塊設定中與記憶體池動態和交易費市場整合。4) 在測試網上進行實作和真實世界測試，以在真實網路條件下驗證理論和模擬結果。

9. 參考文獻

Nakamoto, S. (2008). Bitcoin: A Peer-to-Peer Electronic Cash System.
Garay, J., Kiayias, A., & Leonardos, N. (2015). The Bitcoin Backbone Protocol: Analysis and Applications. In EUROCRYPT.
Pass, R., Seeman, L., & Shelat, A. (2017). Analysis of the Blockchain Protocol in Asynchronous Networks. In EUROCRYPT.
Sompolinsky, Y., & Zohar, A. (2015). Secure High-Rate Transaction Processing in Bitcoin. In FC.
Eyal, I., & Sirer, E. G. (2014). Majority is not Enough: Bitcoin Mining is Vulnerable. In FC.
Nayak, K., Kumar, S., Miller, A., & Shi, E. (2016). Stubborn Mining: Generalizing Selfish Mining and Combining with an Eclipse Attack. In IEEE S&P.
Tsabary, I., & Eyal, I. (2018). The Gap Game. In CCS.
Tailstorm 參考文獻： [作者]. (年份). Tailstorm: [副標題]. In [會議]. (參考文獻根據PDF中提到的Tailstorm [12]建模).
平行工作量證明參考文獻： [作者]. (年份). Parallel Proof-of-Work. In [會議]. (參考文獻根據PDF中提到的PPoW [13]建模).
OpenAI. (2019). Competitive Self-Play. OpenAI Blog. [用於RL多代理分析方法的外部來源].
Goodfellow, I., et al. (2014). Generative Adversarial Nets. NeurIPS. [用於對抗性訓練概念的外部來源].
Buterin, V. (2021). Why sharding is great: demystifying the technical properties. Ethereum Foundation Blog. [用於資料可用性和擴容背景的外部來源].