Paralleler Proof-of-Work mit DAG-basierter Abstimmung und gezielter Belohnungsabschlägen: Eine Sicherheitsanalyse

1. Einführung & Überblick

Dieses Papier stellt ein neuartiges Proof-of-Work (PoW)-Kryptowährungsprotokoll vor, das kritische Limitierungen in Bitcoin und dessen kürzlich vorgeschlagenen Verbesserung Tailstorm adressiert. Die Kerninnovation liegt in der Kombination von Parallel Proof-of-Work (PPoW)-Konsens mit DAG-strukturierter Abstimmung und einem neuartigen Mechanismus der gezielten Belohnungsabschläge. Das Protokoll zielt darauf ab, im Vergleich zu bestehenden Systemen überlegene Konsistenzgarantien, höheren Transaktionsdurchsatz, niedrigere Bestätigungslatenz und eine signifikant verbesserte Resilienz gegen rationale Anreizangriffe zu liefern.

Die Arbeit ist motiviert durch die zirkuläre Abhängigkeit in PoW-Kryptowährungen zwischen Konsensalgorithmen und Anreizsystemen. Während die Sicherheit von Bitcoin gut verstanden ist, fehlt vielen neueren Protokollen eine gründliche Analyse sowohl der Konsistenz als auch der Anreize. Tailstorm verbesserte Bitcoin durch die Verwendung von PPoW mit baumstrukturierten Abstimmungen und einheitlichen Belohnungsabschlägen. Dieses Papier identifiziert zwei wesentliche Schwachstellen in Tailstorm: (1) Baumstrukturen lassen einige Abstimmungen (und deren Transaktionen) pro Block unbestätigt, und (2) einheitliche Bestrafung bestraft ehrliche Miner unfair für Verzögerungen, die von anderen verursacht wurden. Die vorgeschlagene DAG-basierte Lösung zielt direkt auf diese Mängel ab.

2. Kernprotokoll-Design

2.1 Grundlagen des Parallelen Proof-of-Work (PPoW)

Parallel Proof-of-Work ist ein Konsensschema, das eine konfigurierbare Anzahl $k$ von PoW-„Abstimmungen“ (oder Blöcken) erfordert, die geschürft werden müssen, bevor der nächste Hauptblock an die Kette angehängt werden kann. Dies steht im Gegensatz zum Single-Chain-Modell von Bitcoin. Jede Abstimmung enthält Transaktionen. Diese Struktur bietet inhärent stärkere Konsistenzgarantien; beispielsweise kann bei realistischen Netzwerkannahmen eine 10-minütige Bestätigung in PPoW eine Doppelausgabefehlerwahrscheinlichkeit haben, die etwa 50-mal niedriger ist als bei Bitcoin.

2.2 Vom Baum zum DAG: Strukturierung der Abstimmungen

Tailstorm strukturierte die $k$ Abstimmungen innerhalb einer parallelen Runde als Baum. Das vorgeschlagene Protokoll ersetzt den Baum durch einen gerichteten azyklischen Graphen (DAG). In einem Baum muss ein Miner eine einzelne Eltern-Abstimmung wählen, um sie zu erweitern, wodurch Verzweigungen entstehen. In einem DAG kann eine neue Abstimmung mehrere vorherige Abstimmungen als Eltern referenzieren, sofern dadurch kein Zyklus entsteht. Dies ermöglicht es, mehr Abstimmungen innerhalb derselben Runde zu bestätigen, reduziert die Latenz für einen größeren Anteil der Transaktionen und verbessert den Gesamtdurchsatz.

2.3 Mechanismus der gezielten Belohnungsabschläge

Tailstorm diskontierte Mining-Belohnungen einheitlich basierend auf der Tiefe des Abstimmungsbaums und bestrafte so alle Miner einer Runde für tiefe Bäume (ein Indikator für Netzwerkprobleme oder Angriffe). Das neue Protokoll implementiert gezielte Abschläge. Die Belohnung für die Abstimmung eines Miners wird basierend auf dem spezifischen Fehlen von Referenzen in seiner DAG-Struktur abgezinst. Eine Abstimmung, die es versäumt, andere verfügbare Abstimmungen zu referenzieren (was die „Nichtlinearität“ erhöht), erhält eine höhere Strafe. Dies bestraft präzise den (die) Miner, der (die) für schlechte Konnektivität oder böswilliges Zurückhalten verantwortlich ist, und nicht das Kollektiv.

3. Sicherheits- & Anreizanalyse

3.1 Bedrohungsmodell & Angriffsvektoren

Die Analyse betrachtet rationale Miner, die von Gewinnmaximierung motiviert sind. Zu den wesentlichen Angriffsvektoren gehören Selfish Mining, Block Withholding und die Ausnutzung von Netzwerkverzögerungen, um Nichtlinearität zu induzieren und Belohnungen von ehrlichen Minern zu stehlen. Das Papier stellt einen kritischen Befund fest: PPoW ohne Belohnungsabschläge kann unter bestimmten Netzwerkbedingungen weniger resilient gegen Anreizangriffe sein als Bitcoin, was die Notwendigkeit eines gut gestalteten Anreizmechanismus unterstreicht.

3.2 Angriffssuche mittels Reinforcement Learning

Um die Angriffsresilienz rigoros zu bewerten, setzen die Autoren Reinforcement Learning (RL)-Agenten ein, um optimale Angriffsstrategien gegen das Protokoll zu suchen. Die RL-Umgebung simuliert den Mining-Prozess, Netzwerkverzögerungen und die Belohnungsregeln des Protokolls. Agenten lernen Strategien, um ihren Belohnungsanteil zu maximieren. Diese Methodik, inspiriert von Ansätzen zur Analyse adversarieller ML-Systeme wie sie in OpenAIs Forschung zu Multi-Agenten-Wettbewerb diskutiert werden, bietet einen robusteren und automatisierten Weg, subtile Angriffsvektoren zu entdecken, verglichen mit manueller Analyse.

3.3 Resilienzvergleich: Bitcoin vs. Tailstorm vs. DAG-PPoW

Die RL-basierte Angriffssuche zeigt, dass der vorgeschlagene DAG-PPoW mit gezielten Abschlägen resilienter ist als sowohl Bitcoin als auch Tailstorm. Gezielte Abschläge machen es für Angreifer unprofitabel, absichtliche Nichtlinearität zu verursachen, da sie die Hauptlast der Strafe tragen. Die DAG-Struktur reduziert auch die Gelegenheit für solche Angriffe, indem sie mehr Referenzen pro Abstimmung ermöglicht.

Wesentlicher Sicherheitsbefund

Schwelle für Angriffsprofitabilität: Die für einen profitablen Anreizangriff erforderliche Hashrate ist bei DAG-PPoW mit gezielten Abschlägen signifikant höher als bei Tailstorms einheitlichen Abschlägen und dem Basis-PPoW.

4. Leistungsbewertung

4.1 Konsistenz- & Finalitätsgarantien

Durch die Anforderung von $k$ Abstimmungen pro Block bietet PPoW probabilistische Finalität mit einer viel steileren Sicherheitsabklingfunktion als Bitcoin. Die Wahrscheinlichkeit einer erfolgreichen Doppelausgabe nach $n$ Bestätigungen sinkt unter ähnlichen Annahmen einer ehrlichen Mehrheit etwa mit $O(exp(-k \cdot n))$ im Vergleich zu Bitcoins $O(exp(-n))$.

4.2 Durchsatz- & Latenzverbesserungen

Der Durchsatz steigt linear mit der Anzahl der Abstimmungen $k$, da jede Abstimmung einen vollen Block von Transaktionen trägt. Die Latenz wird reduziert, weil Transaktionen in früheren Abstimmungen eines DAGs durch spätere Abstimmungen derselben Runde bestätigt werden können, anders als in einem Baum, wo einige Zweige auf den nächsten Block warten müssen.

4.3 Experimentelle Ergebnisse & Diagrammbeschreibung

Simulationsergebnisse (konzeptionell): Ein Schlüsseldiagramm würde die „Doppelausgabefehlerwahrscheinlichkeit vs. Bestätigungszeit“ für Bitcoin, Tailstorm und DAG-PPoW darstellen. Die DAG-PPoW-Kurve würde am schnellsten fallen und so die überlegene Konsistenz demonstrieren. Ein weiteres Diagramm würde die „Relative Angreifer-Einnahme vs. Angreifer-Hashrate“ für die drei Protokolle unter einem spezifischen Netzwerkverzögerungsmodell zeigen. Die DAG-PPoW-Kurve würde für einen größeren Bereich der Angreifer-Hashrate unter der Gewinnschwellenlinie (y=1) bleiben und so eine größere Resilienz zeigen.

RL-Angriffssuche-Output: Die Ergebnisse würden zeigen, dass die gelernte Strategie des RL-Agenten für DAG-PPoW unter breiteren Bedingungen zu einer „Kein-Angriff“-Strategie konvergiert, während sie für Tailstorm und Basis-PPoW profitable Abweichungen findet.

5. Technische Implementierungsdetails

5.1 Mathematische Formulierung

Die gezielten Belohnungsabschläge können formalisiert werden. Sei $V_i$ eine Abstimmung in einer Runde. Sei $R_{base}$ die Basisbelohnung. Sei $P(V_i)$ die Menge der Abstimmungen, die für $V_i$ öffentlich sichtbar und gültig zu referenzieren waren, aber nicht referenziert wurden. Der Abschlagsfaktor $d_i$ für $V_i$ könnte sein:

$d_i = 1 - \alpha \cdot \frac{|P(V_i)|}{N_{visible}}$

wobei $\alpha$ ein Protokollparameter (0 < $\alpha$ ≤ 1) ist, der die Strafschwere kontrolliert, und $N_{visible}$ die Gesamtzahl der sichtbaren Abstimmungen ist, die hätten referenziert werden können. Die endgültige Belohnung ist $R_i = R_{base} \cdot d_i$. Dies schafft einen direkten wirtschaftlichen Anreiz gegen das Unterlassen von Referenzen.

5.2 DAG-Konstruktion & Validierung

Bei der Erstellung einer Abstimmung fügt ein Miner die Hashes aller gültigen Abstimmungen aus der aktuellen Runde, die er erhalten hat (seine „Eltern“), hinzu, vorbehaltlich einer maximalen Grenze oder gas-ähnlichen Kosten, um Spam zu verhindern. Der DAG für eine Runde ist die Vereinigung aller Abstimmungen und ihrer Referenzkanten. Die Validierung umfasst die Überprüfung des PoW für jede Abstimmung, die Sicherstellung, dass alle referenzierten Eltern existieren und gültig sind, und die Verifizierung, dass keine Zyklen erzeugt werden (eine topologische Sortierung muss möglich sein).

6. Analyse-Framework & Fallstudie

Szenario: Bewertung der Auswirkungen einer 20%igen Netzwerkpartition.

Anwendung des Frameworks:

Modell: Teilung der Miner in zwei Gruppen, A (80%) und B (20%), ohne Kommunikation zwischen ihnen für eine Runde.
Baum (Tailstorm): Jede Gruppe schürft Abstimmungen, die nur die von ihnen gesehenen Abstimmungen erweitern, wodurch zwei tiefe, separate Zweige entstehen. Am Ende der Runde wird der Belohnungsabschlag einheitlich auf alle Abstimmungen basierend auf der Tiefe des Baums angewendet, wodurch beide Gruppen gleichermaßen bestraft werden.
DAG (Vorgeschlagen): Innerhalb jeder Partition können Miner weiterhin alle von ihnen gesehenen Abstimmungen referenzieren, wodurch zwei separate Sub-DAGs entstehen. Wenn die Partition behoben wird, wird der Abschlag pro Abstimmung berechnet. Abstimmungen im Zentrum jedes Sub-DAGs (die ihre Peers referenziert haben) erhalten eine minimale Strafe. Nur Abstimmungen an den zeitlichen Rändern jeder Partition, die es versäumten, Abstimmungen von der anderen Seite zu referenzieren, die technisch gesehen erst nach der Behebung der Partition „sichtbar“ waren (ein nuancierter Punkt), könnten eine teilweise Strafe erhalten. Die Bestrafung ist gezielt auf die Abstimmungen gerichtet, die am stärksten von der Partition betroffen sind, nicht auf das Kollektiv.

Dieser Fall zeigt, wie gezielte Abschläge die Schuld/Bestrafung für Netzwerkprobleme fairer zuteilen.

7. Kritische Analystenperspektive

Kerneinsicht: Dieses Papier ist nicht nur eine weitere inkrementelle Anpassung; es ist ein chirurgischer Schlag gegen die Achillesferse von Hochdurchsatz-PoW: die Anreiz-Konsens-Schleife. Die Autoren identifizieren korrekt, dass die Steigerung des Durchsatzes durch Parallelisierung (PPoW) unbeabsichtigt neue, nuanciertere Angriffsflächen für rationale Miner schafft. Ihre Schlüsseleinsicht – dass einheitliche Bestrafung sowohl unfair als auch unsicher ist – ist tiefgreifend. Sie spiegelt Lektionen aus dem Mechanismusdesign in der Wirtschaft wider: stumpfe Instrumente schaffen perverse Anreize. Der Wechsel zu DAGs und gezielten Strafen ist eine direkte Anwendung des „Preistheorie“-Ansatzes für Blockchain-Sicherheit, der den Angreifer die Kosten seiner Störung internalisieren lässt.

Logischer Ablauf: Das Argument ist überzeugend. 1) Bitcoin ist sicher, aber langsam. 2) PPoW (und Tailstorm) beschleunigen es, schwächen aber die Anreizsicherheit – ein Kompromiss, den viele Protokolle übergehen. 3) Die Ursache ist eine fehlausgerichtete Bestrafung im Anreizschema. 4) Lösung: Verfeinerung der Datenstruktur (DAG), um eine feinkörnigere Messung der Schuld (wer hat wen nicht referenziert) zu ermöglichen, und dann direkte Verknüpfung der Strafe mit dieser Messung. Die Verwendung von RL für die Angriffssuche ist der Geniestreich, der über vage Sicherheitsbehauptungen hinausgeht und zu demonstrierbarem, automatisiertem adversariellem Testen führt. Diese Methodik sollte ein Goldstandard sein, ähnlich wie das rigorose adversarielle Testen, das für KI-Systeme in Papieren von arXiv (z.B. Robustheitsbewertungen für neuronale Netze) befürwortet wird.

Stärken & Schwächen:

Stärken: Die Kombination aus einem klaren theoretischen Modell (DAG + gezielte Abschläge) mit empirischer Validierung via RL ist außergewöhnlich. Der Befund, dass einfaches PPoW weniger sicher sein kann als Bitcoin, ist eine entscheidende Warnung für das Feld. Das Protokolldesign ist elegant und adressiert direkt die genannten Mängel.
Schwächen & offene Fragen: Die Praktikabilität des Papiers hängt von der genauen, zeitnahen Wahrnehmung „sichtbarer“ Abstimmungen für die Abschlagsberechnung ab – ein nicht-triviales Problem in asynchronen Netzwerken. Es riskiert die Schaffung einer „Netzwerküberwachungssteuer“, bei der Miner aggressiv gossippen müssen, um zu beweisen, dass sie Abstimmungen gesehen haben. Die RL-Analyse, obwohl leistungsfähig, ist nur so gut wie ihr Umgebungsmodell; reale Netzwerkdynamiken sind chaotischer. Darüber hinaus fügt das Protokoll der Client-Software und Validierungslogik erhebliche Komplexität hinzu, was die Adoption möglicherweise behindert.

Umsetzbare Erkenntnisse: Für Forscher: RL-basierte Angriffssuche als Standardwerkzeug zur Bewertung neuer Konsensprotokolle übernehmen. Für Entwickler: Bei der Gestaltung einer Skalierungslösung zuerst die neuen Anreizangriffsvektoren modellieren, die sie schafft. Für Investoren/Projektbewerter: Jedes Protokoll, das hohen Durchsatz beansprucht, auf eine ähnlich rigorose Anreizanalyse prüfen. Ein Warnsignal ist ein Papier, das nur über TPS und Finalität spricht, ohne einen eigenen Abschnitt über Anreizkompatibilität unter Netzwerkwidrigkeiten. Diese Arbeit setzt eine neue Messlatte.

8. Zukünftige Anwendungen & Forschungsrichtungen

Hybride Konsensprotokolle: Das DAG-basierte Abstimmungs- und gezielte Bestrafungsschema könnte an komiteebasierte oder Proof-of-Stake (PoS)-Systeme angepasst werden, in denen Validatoren Abstimmungen produzieren. Es bietet eine Möglichkeit, Validatoren für Liveness-Ausfälle oder Zensur präziser zu bestrafen als durch einfaches Slashing.
Data Availability Sampling: In modularen Blockchain-Architekturen wie Ethereums Danksharding könnte das Konzept der gezielten Bestrafung für Nichtkooperation auf Knoten angewendet werden, die keine Datenproben bereitstellen, um die Sicherheit von Data-Availability-Garantien zu verbessern.
Cross-Chain-Kommunikation: Ein DAG von Attestierungen verschiedener Chains, bei denen Belohnungen für Attestierungen abgezinst werden, die verfügbare Daten anderer ignorieren, könnte die Sicherheit und Latenz von Cross-Chain-Bridges verbessern.
Forschungsrichtungen: 1) Formale Verifizierung der anreizsicherheitlichen Eigenschaften. 2) Erforschung verschiedener Abschlagsfunktionen (z.B. nicht-lineare). 3) Integration mit Mempool-Dynamiken und Transaktionsgebührenmärkten in einer parallelen Blockumgebung. 4) Implementierung und Realwelt-Tests auf einem Testnetz, um die theoretischen und Simulationsergebnisse unter echten Netzwerkbedingungen zu validieren.

9. Referenzen

Nakamoto, S. (2008). Bitcoin: A Peer-to-Peer Electronic Cash System.
Garay, J., Kiayias, A., & Leonardos, N. (2015). The Bitcoin Backbone Protocol: Analysis and Applications. In EUROCRYPT.
Pass, R., Seeman, L., & Shelat, A. (2017). Analysis of the Blockchain Protocol in Asynchronous Networks. In EUROCRYPT.
Sompolinsky, Y., & Zohar, A. (2015). Secure High-Rate Transaction Processing in Bitcoin. In FC.
Eyal, I., & Sirer, E. G. (2014). Majority is not Enough: Bitcoin Mining is Vulnerable. In FC.
Nayak, K., Kumar, S., Miller, A., & Shi, E. (2016). Stubborn Mining: Generalizing Selfish Mining and Combining with an Eclipse Attack. In IEEE S&P.
Tsabary, I., & Eyal, I. (2018). The Gap Game. In CCS.
Tailstorm-Referenz: [Autor(en)]. (Jahr). Tailstorm: [Untertitel]. In [Konferenz]. (Referenz modelliert nach der Erwähnung von Tailstorm [12] im PDF).
Parallel Proof-of-Work-Referenz: [Autor(en)]. (Jahr). Parallel Proof-of-Work. In [Konferenz]. (Referenz modelliert nach der Erwähnung von PPoW [13] im PDF).
OpenAI. (2019). Competitive Self-Play. OpenAI Blog. [Externe Quelle für RL-Multi-Agenten-Analysemethodik].
Goodfellow, I., et al. (2014). Generative Adversarial Nets. NeurIPS. [Externe Quelle für Konzepte des adversariellen Trainings].
Buterin, V. (2021). Why sharding is great: demystifying the technical properties. Ethereum Foundation Blog. [Externe Quelle für Data Availability und Skalierungskontext].