基於DAG結構投票同目標獎勵折扣嘅並行工作量證明：安全性分析

1. 簡介與概述

呢篇論文提出一種新嘅工作量證明（PoW）加密貨幣協議，旨在解決比特幣同佢近期提出嘅改進方案Tailstorm嘅關鍵限制。核心創新在於將並行工作量證明（PPoW）共識同DAG結構投票以及一種新嘅目標獎勵折扣機制結合。相比現有系統，呢個協議旨在提供更優越嘅一致性保證、更高嘅交易吞吐量、更低嘅確認延遲，以及顯著提升對理性激勵攻擊嘅抗性。

呢項工作嘅動機係源於PoW加密貨幣中，共識算法同激勵方案之間嘅循環依賴。雖然比特幣嘅安全性已經被充分理解，但好多新協議都缺乏對一致性同激勵嘅全面分析。Tailstorm使用帶有樹狀結構投票同統一獎勵折扣嘅PPoW，喺比特幣基礎上有所改進。本文指出Tailstorm嘅兩個關鍵缺點：（1）樹狀結構令到每個區塊中嘅部分投票（同佢哋嘅交易）無法被確認；（2）統一懲罰會因為其他人造成嘅延遲，而不公平地懲罰誠實礦工。提出嘅基於DAG嘅解決方案直接針對呢啲缺陷。

2. 核心協議設計

2.1 並行工作量證明（PPoW）基礎

並行工作量證明係一種共識方案，要求喺下一個主區塊可以附加到鏈上之前，需要挖出一個可配置數量 $k$ 嘅PoW「投票」（或區塊）。呢個同比特幣嘅單鏈模型形成對比。每個投票都包含交易。呢種結構本質上提供更強嘅一致性保證；例如，喺現實網絡假設下，PPoW中10分鐘嘅確認，其雙重支付失敗概率可以比比特幣低約50倍。

2.2 從樹狀到DAG：投票結構

Tailstorm將一個並行輪次中嘅 $k$ 個投票結構化成樹狀。提出嘅協議將樹狀替換為有向無環圖（DAG）。喺樹狀結構中，礦工必須選擇單一個父投票嚟延伸，從而產生分支。喺DAG中，一個新投票可以引用多個先前投票作為父節點，前提係唔會形成循環。咁樣可以喺同一個輪次內確認更多投票，減少更大比例交易嘅延遲，並提升整體吞吐量。

2.3 目標獎勵折扣機制

Tailstorm根據投票樹嘅深度，統一折扣挖礦獎勵，懲罰一個輪次中嘅所有礦工（因為深樹表示網絡問題或攻擊）。新協議實施目標折扣。礦工投票嘅獎勵係根據其DAG結構中特定嘅缺乏引用情況嚟折扣。一個未能引用其他可用投票（增加「非線性」）嘅投票會受到更高懲罰。咁樣精確懲罰咗導致連接不良或惡意隱瞞嘅礦工，而唔係集體。

3. 安全性與激勵分析

3.1 威脅模型與攻擊向量

分析考慮咗以利潤最大化為動機嘅理性礦工。關鍵攻擊向量包括自私挖礦、區塊隱瞞，以及利用網絡延遲誘發非線性，從而竊取誠實礦工嘅獎勵。論文指出一個關鍵發現：喺某啲網絡條件下，冇獎勵折扣嘅PPoW對激勵攻擊嘅抗性可能比比特幣更弱，突顯咗精心設計激勵機制嘅必要性。

3.2 強化學習攻擊搜索

為咗嚴格評估抗攻擊能力，作者採用強化學習（RL）智能體嚟搜索針對協議嘅最優攻擊策略。RL環境模擬挖礦過程、網絡延遲同協議嘅獎勵規則。智能體學習策略以最大化其獎勵份額。呢種方法靈感嚟自分析對抗性機器學習系統（例如OpenAI關於多智能體競爭嘅研究中討論嘅方法），相比手動分析，提供咗一種更穩健同自動化嘅方式嚟發現微妙嘅攻擊向量。

3.3 抗攻擊能力比較：比特幣 vs. Tailstorm vs. DAG-PPoW

基於RL嘅攻擊搜索表明，提出嘅帶有目標折扣嘅DAG-PPoW比比特幣同Tailstorm都更具抗性。目標折扣令攻擊者故意造成非線性變得無利可圖，因為佢哋要承受懲罰嘅主要部分。DAG結構亦通過允許每個投票有更多引用，減少咗呢類攻擊嘅機會。

關鍵安全發現

攻擊盈利門檻： 相比Tailstorm嘅統一折扣同基礎PPoW，帶有目標折扣嘅DAG-PPoW中，一個有利可圖嘅激勵攻擊所需嘅算力要高得多。

4. 性能評估

4.1 一致性與最終性保證

通過要求每個區塊有 $k$ 個投票，PPoW提供概率最終性，其安全性衰減函數比比特幣陡峭得多。喺類似誠實多數假設下，經過 $n$ 次確認後成功雙重支付嘅概率大約以 $O(exp(-k \cdot n))$ 下降，而比特幣係 $O(exp(-n))$。

4.2 吞吐量與延遲改善

吞吐量隨投票數量 $k$ 線性增加，因為每個投票都攜帶一個完整嘅交易區塊。延遲得以降低，因為DAG中較早投票嘅交易可以被同一輪次中較後嘅投票確認，唔似樹狀結構中，某啲分支必須等到下一個區塊。

4.3 實驗結果與圖表描述

模擬結果（概念性）： 一個關鍵圖表會繪製比特幣、Tailstorm同DAG-PPoW嘅「雙重支付失敗概率 vs. 確認時間」。DAG-PPoW曲線會下降得最快，展示出優越嘅一致性。另一張圖表會顯示喺特定網絡延遲模型下，三種協議嘅「攻擊者相對收入 vs. 攻擊者算力」。DAG-PPoW曲線會喺更廣嘅攻擊者算力範圍內保持喺盈虧平衡線（y=1）以下，顯示出更大嘅抗性。

RL攻擊搜索輸出： 結果會顯示，喺更廣泛嘅條件下，RL智能體學習到嘅策略會收斂到DAG-PPoW嘅「無攻擊」策略，而對於Tailstorm同基礎PPoW，則會發現有利可圖嘅偏差策略。

5. 技術實現細節

5.1 數學公式化

目標獎勵折扣可以公式化。設 $V_i$ 為一個輪次中嘅投票。設 $R_{base}$ 為基礎獎勵。設 $P(V_i)$ 為對於 $V_i$ 嚟講係公開可見且有效、但未被引用嘅投票集合。$V_i$ 嘅折扣因子 $d_i$ 可以係：

$d_i = 1 - \alpha \cdot \frac{|P(V_i)|}{N_{visible}}$

其中 $\alpha$ 係一個控制懲罰嚴重程度嘅協議參數（0 < $\alpha$ ≤ 1），$N_{visible}$ 係佢本可以引用嘅可見投票總數。最終獎勵係 $R_i = R_{base} \cdot d_i$。咁樣創造咗一個直接嘅經濟抑制因素，防止隱瞞引用。

5.2 DAG構建與驗證

創建投票時，礦工會包含佢收到嘅當前輪次所有有效投票嘅哈希值（其「父節點」），受最大限制或類似gas嘅成本約束，以防止垃圾信息。一個輪次嘅DAG係所有投票同佢哋引用邊嘅集合。驗證涉及檢查每個投票嘅PoW，確保所有引用嘅父節點存在且有效，並驗證冇形成循環（必須能夠進行拓撲排序）。

6. 分析框架示例案例

場景： 評估20%網絡分區嘅影響。

框架應用：

模型： 將礦工分成兩組，A（80%）同B（20%），喺一個輪次內佢哋之間冇通信。
樹狀（Tailstorm）： 每組只挖礦延伸佢哋睇到嘅投票，創建兩個深嘅、獨立嘅分支。喺輪次結束時，獎勵折扣根據深樹深度統一應用於所有投票，平等懲罰兩組。
DAG（提出方案）： 喺每個分區內，礦工仍然可以引用佢哋睇到嘅所有投票，創建兩個獨立嘅子DAG。當分區恢復時，折扣按每個投票計算。每個子DAG中心嘅投票（引用咗同組其他投票）得到最小懲罰。只有每個分區時間邊緣嘅投票，佢哋未能引用喺分區恢復後先「睇到」（一個細微差別）嘅另一邊投票，可能會受到部分懲罰。懲罰係針對受分區影響最大嘅投票，而唔係集體。

呢個案例展示咗目標折扣如何更公平地分配網絡問題嘅責任/懲罰。

7. 批判性分析師觀點

核心見解： 呢篇論文唔只係另一個漸進式改動；佢係對高吞吐量PoW嘅阿喀琉斯之踵——激勵-共識循環——嘅精準打擊。作者正確指出，用並行化（PPoW）提升吞吐量，無意中為理性礦工創造咗新嘅、更微妙嘅攻擊面。佢哋嘅關鍵見解——統一懲罰既唔公平亦唔安全——係深刻嘅。佢呼應咗經濟學機制設計嘅教訓：生硬嘅工具會產生反常激勵。轉向DAG同目標懲罰，係將「價格理論」方法應用於區塊鏈安全嘅直接體現，令攻擊者承擔其破壞行為嘅成本。

邏輯流程： 論證好有說服力。1) 比特幣安全但慢。2) PPoW（同Tailstorm）加快咗速度但削弱咗激勵安全性——好多協議都忽略咗呢個權衡。3) 根本原因係激勵方案中嘅懲罰錯配。4) 解決方案：完善數據結構（DAG）以實現更細粒度嘅責任衡量（邊個冇引用邊個），然後將懲罰直接同呢個衡量掛鉤。使用RL進行攻擊搜索係神來之筆，超越咗含糊嘅安全聲稱，實現咗可展示嘅、自動化嘅對抗性測試。呢種方法應該成為黃金標準，就好似arXiv上論文（例如神經網絡嘅穩健性評估）中為AI系統所倡導嘅嚴格對抗性測試一樣。

優點與缺陷：

優點： 清晰嘅理論模型（DAG + 目標折扣）同通過RL進行實證驗證嘅結合非常出色。發現普通PPoW可能比比特幣更唔安全，對呢個領域係一個關鍵警告。協議設計優雅，直接針對所述缺陷。
缺陷與開放問題： 論文嘅實用性取決於對折扣計算所需「可見」投票嘅準確、及時感知——喺異步網絡中唔係一個簡單問題。佢有風險創造一種「網絡監控稅」，礦工必須積極傳播信息以證明佢哋睇到投票。RL分析雖然強大，但僅限於其環境模型；現實世界嘅網絡動態更混亂。此外，協議增加咗客戶端軟件同驗證邏輯嘅顯著複雜性，可能阻礙採用。

可行見解： 對研究人員：採用基於RL嘅攻擊搜索作為評估新共識協議嘅標準工具。對開發者：設計任何擴容解決方案時，首先模擬佢創造嘅新激勵攻擊向量。對投資者/項目評估者：仔細審查任何聲稱高吞吐量嘅協議，睇吓有冇類似嚴謹嘅激勵分析。一個危險信號係一篇只討論TPS同最終性，而冇專門章節分析網絡逆境下激勵相容性嘅論文。呢項工作設定咗新標準。

8. 未來應用與研究方向

混合共識協議： 基於DAG嘅投票同目標懲罰方案可以適用於基於委員會或權益證明（PoS）嘅系統，其中驗證者產生投票。佢提供咗一種比簡單罰沒更精確地懲罰驗證者活躍性失敗或審查嘅方法。
數據可用性採樣： 喺模塊化區塊鏈架構（如以太坊嘅danksharding）中，針對不合作行為嘅目標懲罰概念可以應用於未能提供數據樣本嘅節點，從而改善數據可用性保證嘅安全性。
跨鏈通信： 一個嚟自唔同鏈嘅證明DAG，對忽略其他鏈可用數據嘅證明進行獎勵折扣，可以改善跨鏈橋嘅安全性同延遲。
研究方向： 1) 激勵安全屬性嘅形式化驗證。2) 探索唔同折扣函數（例如非線性）。3) 喺並行區塊設置中與內存池動態同交易費市場整合。4) 喺測試網上實施同真實世界測試，以喺真實網絡條件下驗證理論同模擬結果。

9. 參考文獻

Nakamoto, S. (2008). Bitcoin: A Peer-to-Peer Electronic Cash System.
Garay, J., Kiayias, A., & Leonardos, N. (2015). The Bitcoin Backbone Protocol: Analysis and Applications. In EUROCRYPT.
Pass, R., Seeman, L., & Shelat, A. (2017). Analysis of the Blockchain Protocol in Asynchronous Networks. In EUROCRYPT.
Sompolinsky, Y., & Zohar, A. (2015). Secure High-Rate Transaction Processing in Bitcoin. In FC.
Eyal, I., & Sirer, E. G. (2014). Majority is not Enough: Bitcoin Mining is Vulnerable. In FC.
Nayak, K., Kumar, S., Miller, A., & Shi, E. (2016). Stubborn Mining: Generalizing Selfish Mining and Combining with an Eclipse Attack. In IEEE S&P.
Tsabary, I., & Eyal, I. (2018). The Gap Game. In CCS.
Tailstorm 參考文獻： [作者]. (年份). Tailstorm: [副標題]. In [會議]. (參考PDF中提到嘅Tailstorm [12]建模).
並行工作量證明參考文獻： [作者]. (年份). Parallel Proof-of-Work. In [會議]. (參考PDF中提到嘅PPoW [13]建模).
OpenAI. (2019). Competitive Self-Play. OpenAI Blog. [用於RL多智能體分析方法嘅外部來源].
Goodfellow, I., et al. (2014). Generative Adversarial Nets. NeurIPS. [用於對抗性訓練概念嘅外部來源].
Buterin, V. (2021). Why sharding is great: demystifying the technical properties. Ethereum Foundation Blog. [用於數據可用性同擴容背景嘅外部來源].