DAG 구조 투표 및 표적 보상 할인을 통한 병렬 작업 증명: 보안 분석

1. 서론 및 개요

본 논문은 비트코인과 최근 제안된 개선안인 Tailstorm의 주요 한계를 해결하는 새로운 작업 증명(PoW) 암호화폐 프로토콜을 제시합니다. 핵심 혁신은 병렬 작업 증명(PPoW) 합의, DAG 구조 투표, 그리고 새로운 표적 보상 할인 메커니즘을 결합한 데 있습니다. 이 프로토콜은 기존 시스템 대비 우수한 일관성 보장, 높은 트랜잭션 처리량, 낮은 확인 지연 시간, 그리고 합리적 인센티브 공격에 대한 현저히 향상된 복원력을 목표로 합니다.

이 연구는 PoW 암호화폐에서 합의 알고리즘과 인센티브 체계 사이의 순환적 의존성에 의해 동기가 부여되었습니다. 비트코인의 보안은 잘 이해되고 있지만, 많은 새로운 프로토콜들은 일관성과 인센티브 모두에 대한 철저한 분석이 부족합니다. Tailstorm은 트리 구조 투표와 균일한 보상 할인을 사용한 PPoW로 비트코인을 개선했습니다. 본 논문은 Tailstorm의 두 가지 주요 단점을 지적합니다: (1) 트리 구조는 일부 투표(및 그 트랜잭션)를 블록당 미확인 상태로 남겨둡니다. (2) 균일한 처벌은 다른 사람이 야기한 지연에 대해 정직한 채굴자들에게 불공정하게 불이익을 줍니다. 제안된 DAG 기반 솔루션은 이러한 결함을 직접적으로 해결합니다.

2. 핵심 프로토콜 설계

2.1 병렬 작업 증명(PPoW) 기본 원리

병렬 작업 증명은 구성 가능한 수 $k$의 PoW "투표"(또는 블록)가 채굴되어야 다음 메인 블록이 체인에 추가될 수 있는 합의 방식입니다. 이는 비트코인의 단일 체인 모델과 대조됩니다. 각 투표는 트랜잭션을 포함합니다. 이 구조는 본질적으로 더 강력한 일관성 보장을 제공합니다. 예를 들어, 현실적인 네트워크 가정 하에, PPoW에서의 10분 확인은 이중 지불 실패 확률이 비트코인보다 약 50배 낮을 수 있습니다.

2.2 트리에서 DAG로: 투표 구조화

Tailstorm은 병렬 라운드 내 $k$개의 투표를 트리로 구조화했습니다. 제안된 프로토콜은 이 트리를 방향성 비순환 그래프(DAG)로 대체합니다. 트리에서는 채굴자가 확장할 단일 부모 투표를 선택해야 하며, 이는 분기를 생성합니다. DAG에서는 새로운 투표가 순환을 생성하지 않는 한, 여러 이전 투표를 부모로 참조할 수 있습니다. 이를 통해 동일한 라운드 내에서 더 많은 투표가 확인될 수 있어, 더 많은 비율의 트랜잭션에 대한 지연 시간을 줄이고 전체 처리량을 향상시킵니다.

2.3 표적 보상 할인 메커니즘

Tailstorm은 투표 트리의 깊이에 기반하여 채굴 보상을 균일하게 할인하여, 깊은 트리(네트워크 문제나 공격의 징후)에 대해 라운드의 모든 채굴자를 처벌했습니다. 새로운 프로토콜은 표적 할인을 구현합니다. 채굴자의 투표에 대한 보상은 그 DAG 구조 내의 특정 참조 부족에 기반하여 할인됩니다. 다른 사용 가능한 투표를 참조하지 못한 투표("비선형성" 증가)는 더 높은 페널티를 받습니다. 이는 집단이 아닌, 열악한 연결성이나 악의적인 보류에 책임이 있는 채굴자(들)을 정확히 처벌합니다.

3. 보안 및 인센티브 분석

3.1 위협 모델 및 공격 벡터

이 분석은 이익 극대화에 동기 부여된 합리적 채굴자를 고려합니다. 주요 공격 벡터에는 이기적 채굴, 블록 보류, 그리고 비선형성을 유도하고 정직한 채굴자로부터 보상을 훔치기 위한 네트워크 지연 활용이 포함됩니다. 논문은 중요한 발견을 언급합니다: 보상 할인이 없는 PPoW는 특정 네트워크 조건 하에서 비트코인보다 인센티브 공격에 대해 덜 복원력적일 수 있습니다. 이는 잘 설계된 인센티브 메커니즘의 필요성을 강조합니다.

3.2 강화 학습 기반 공격 탐색

공격 복원력을 엄격하게 평가하기 위해, 저자들은 프로토콜에 대한 최적의 공격 전략을 탐색하기 위해 강화 학습(RL) 에이전트를 사용합니다. RL 환경은 채굴 과정, 네트워크 지연, 그리고 프로토콜의 보상 규칙을 시뮬레이션합니다. 에이전트는 자신의 보상 지분을 극대화하는 정책을 학습합니다. 이 방법론은 OpenAI의 다중 에이전트 경쟁 연구와 같은 적대적 ML 시스템 분석 접근법에서 영감을 받아, 수동 분석에 비해 미묘한 공격 벡터를 발견하는 더 강력하고 자동화된 방법을 제공합니다.

3.3 복원력 비교: 비트코인 vs. Tailstorm vs. DAG-PPoW

RL 기반 공격 탐색은 표적 할인이 적용된 제안된 DAG-PPoW가 비트코인과 Tailstorm 모두보다 더 복원력적임을 보여줍니다. 표적 할인은 공격자가 의도적으로 비선형성을 유발하는 것을 수익성이 없게 만듭니다. 왜냐하면 그들이 페널티의 주된 부담을 지기 때문입니다. DAG 구조는 또한 투표당 더 많은 참조를 허용함으로써 그러한 공격의 기회를 줄입니다.

핵심 보안 발견

공격 수익성 임계값: 수익성 있는 인센티브 공격에 필요한 해시레이트는 Tailstorm의 균일 할인 및 기본 PPoW와 비교하여 표적 할인이 적용된 DAG-PPoW에서 현저히 더 높습니다.

4. 성능 평가

4.1 일관성 및 최종성 보장

블록당 $k$개의 투표를 요구함으로써, PPoW는 비트코인보다 훨씬 가파른 보안 감쇠 함수를 가진 확률적 최종성을 제공합니다. $n$번의 확인 후 성공적인 이중 지불 확률은 유사한 정직한 다수 가정 하에서 비트코인의 $O(exp(-n))$에 비해 대략 $O(exp(-k \cdot n))$으로 감소합니다.

4.2 처리량 및 지연 시간 개선

처리량은 각 투표가 트랜잭션의 전체 블록을 운반하기 때문에 투표 수 $k$에 따라 선형적으로 증가합니다. 지연 시간은 DAG의 초기 투표에 있는 트랜잭션이 동일 라운드의 후속 투표에 의해 확인될 수 있기 때문에 감소합니다. 이는 일부 분기가 다음 블록을 기다려야 하는 트리와는 다릅니다.

4.3 실험 결과 및 차트 설명

시뮬레이션 결과 (개념적): 핵심 차트는 비트코인, Tailstorm, DAG-PPoW에 대한 "이중 지불 실패 확률 대 확인 시간"을 그릴 것입니다. DAG-PPoW 곡선이 가장 빠르게 하락하여 우수한 일관성을 입증할 것입니다. 또 다른 차트는 특정 네트워크 지연 모델 하에서 세 프로토콜에 대한 "공격자 상대 수익 대 공격자 해시레이트"를 보여줄 것입니다. DAG-PPoW 곡선은 더 넓은 범위의 공격자 해시레이트에 대해 손익분기점 선(y=1) 아래에 머물며 더 큰 복원력을 보여줄 것입니다.

RL 공격 탐색 출력: 결과는 RL 에이전트의 학습된 정책이 더 넓은 조건 하에서 DAG-PPoW에 대해 "공격 없음" 전략으로 수렴하는 반면, Tailstorm과 기본 PPoW에 대해서는 수익성 있는 편차를 찾는 것을 보여줄 것입니다.

5. 기술 구현 상세

5.1 수학적 공식화

표적 보상 할인은 공식화될 수 있습니다. $V_i$를 한 라운드의 투표라고 합시다. $R_{base}$를 기본 보상이라고 합시다. $P(V_i)$를 $V_i$가 참조할 수 있었고 공개적으로 보였으나 참조되지 않은 투표들의 집합이라고 합시다. $V_i$에 대한 할인 계수 $d_i$는 다음과 같을 수 있습니다:

$d_i = 1 - \alpha \cdot \frac{|P(V_i)|}{N_{visible}}$

여기서 $\alpha$는 처벌 심각도를 제어하는 프로토콜 매개변수(0 < $\alpha$ ≤ 1)이고, $N_{visible}$은 참조할 수 있었던 보이는 투표의 총 수입니다. 최종 보상은 $R_i = R_{base} \cdot d_i$입니다. 이는 참조 보류에 대한 직접적인 경제적 억제책을 생성합니다.

5.2 DAG 구성 및 검증

투표를 생성할 때, 채굴자는 현재 라운드에서 받은 모든 유효한 투표의 해시(그의 "부모들")를 포함합니다. 이는 스팸을 방지하기 위한 최대 한도 또는 가스와 유사한 비용에 따릅니다. 한 라운드의 DAG는 모든 투표와 그들의 참조 간선의 합집합입니다. 검증에는 각 투표에 대한 PoW 확인, 참조된 모든 부모가 존재하고 유효한지 확인, 그리고 순환이 생성되지 않았는지 확인(위상 정렬이 가능해야 함)이 포함됩니다.

6. 분석 프레임워크 예시 사례

시나리오: 20% 네트워크 분할의 영향 평가.

프레임워크 적용:

모델: 채굴자들을 두 그룹 A(80%)와 B(20%)로 나누고, 한 라운드 동안 그들 사이에 통신이 없도록 합니다.
트리 (Tailstorm): 각 그룹은 자신들이 보는 투표만 확장하는 투표를 채굴하여, 두 개의 깊고 분리된 분기를 생성합니다. 라운드 종료 시, 보상 할인은 깊은 트리 깊이에 기반하여 모든 투표에 균일하게 적용되어 두 그룹을 동등하게 처벌합니다.
DAG (제안안): 각 분할 내에서 채굴자들은 여전히 자신들이 보는 모든 투표를 참조할 수 있어, 두 개의 분리된 하위 DAG를 생성합니다. 분할이 치유되면 할인은 투표별로 계산됩니다. 각 하위 DAG의 중심에 있는 투표들(동료들을 참조한)은 최소한의 페널티를 받습니다. 각 분할의 시간적 가장자리에 있는 투표들만이, 분할이 치유된 후에야 기술적으로 "보이는" 다른 쪽의 투표를 참조하지 못했기 때문에(미묘한 점), 부분적인 페널티를 받을 수 있습니다. 처벌은 집단이 아닌, 분할에 가장 영향을 받은 투표에 표적화됩니다.

이 사례는 표적 할인이 네트워크 문제에 대한 비난/처벌을 어떻게 더 공정하게 할당하는지 보여줍니다.

7. 비판적 분석가 관점

핵심 통찰: 이 논문은 단순한 또 다른 점진적 개선이 아닙니다. 이는 높은 처리량 PoW의 아킬레스건인 인센티브-합의 루프에 대한 외과적 타격입니다. 저자들은 병렬화(PPoW)로 처리량을 높이는 것이 의도치 않게 합리적 채굴자들을 위한 새로운, 더 미묘한 공격 표면을 생성한다는 점을 올바르게 지적합니다. 그들의 핵심 통찰—균일한 처벌이 불공정할 뿐만 아니라 불안전하다는 점—은 심오합니다. 이는 경제학의 메커니즘 디자인에서 얻은 교훈을 반영합니다: 무딘 도구는 역효과적인 인센티브를 생성합니다. DAG와 표적 페널티로의 이동은 블록체인 보안에 대한 "가격 이론" 접근법의 직접적인 적용으로, 공격자가 자신의 방해 행위 비용을 내부화하도록 만듭니다.

논리적 흐름: 주장은 설득력이 있습니다. 1) 비트코인은 안전하지만 느립니다. 2) PPoW(및 Tailstorm)는 속도를 높이지만 인센티브 보안을 약화시킵니다—많은 프로토콜이 간과하는 절충점입니다. 3) 근본 원인은 인센티브 체계에서의 잘못된 처벌 정렬입니다. 4) 해결책: 책임의 세분화된 측정(누가 누구를 참조하지 않았는지)을 가능하게 하기 위해 데이터 구조(DAG)를 정제하고, 그런 다음 처벌을 그 측정에 직접 연결합니다. 공격 탐색을 위한 RL 사용은 결정타로, 막연한 보안 주장을 넘어 입증 가능하고 자동화된 적대적 테스트로 이동합니다. 이 방법론은 arXiv 논문(예: 신경망에 대한 견고성 평가)에서 주창되는 AI 시스템에 대한 엄격한 적대적 테스트와 마찬가지로 금본위 표준이 되어야 합니다.

강점 및 결점:

강점: 명확한 이론적 모델(DAG + 표적 할인)과 RL을 통한 경험적 검증의 결합은 탁월합니다. 기본 PPoW가 비트코인보다 덜 안전할 수 있다는 발견은 이 분야에 대한 중요한 경고입니다. 프로토콜 설계는 우아하고 명시된 결함을 직접적으로 해결합니다.
결점 및 미해결 질문: 논문의 실용성은 할인 계산을 위한 "보이는" 투표의 정확하고 시기적절한 인지에 달려 있습니다—비동기 네트워크에서 사소하지 않은 문제입니다. 이는 채굴자들이 투표를 보았다는 것을 증명하기 위해 적극적으로 정보를 퍼뜨려야 하는 "네트워크 모니터링 세금"을 생성할 위험이 있습니다. RL 분석은 강력하지만, 그 환경 모델만큼만 좋습니다. 실제 네트워크 역학은 더 복잡합니다. 더욱이, 프로토콜은 클라이언트 소프트웨어와 검증 로직에 상당한 복잡성을 추가하여 채택을 저해할 수 있습니다.

실행 가능한 통찰: 연구자들을 위해: 새로운 합의 프로토콜 평가를 위한 표준 도구로서 RL 기반 공격 탐색을 채택하십시오. 개발자들을 위해: 어떤 확장 솔루션을 설계할 때, 그것이 생성하는 새로운 인센티브 공격 벡터를 먼저 모델링하십시오. 투자자/프로젝트 평가자들을 위해: 높은 처리량을 주장하는 모든 프로토콜에 대해 유사하게 엄격한 인센티브 분석을 면밀히 검토하십시오. 네트워크 역경 하에서의 인센티브 호환성에 대한 전용 섹션 없이 TPS와 최종성만 논하는 논문은 위험 신호입니다. 이 작업은 새로운 기준을 설정합니다.

8. 미래 응용 및 연구 방향

하이브리드 합의 프로토콜: DAG 기반 투표 및 표적 처벌 체계는 검증인이 투표를 생성하는 위원회 기반 또는 지분 증명(PoS) 시스템에 적용될 수 있습니다. 이는 단순한 슬래싱보다 더 정밀하게 라이브니스 실패나 검열에 대한 검증인을 처벌하는 방법을 제공합니다.
데이터 가용성 샘플링: 이더리움의 댕크샤딩과 같은 모듈형 블록체인 아키텍처에서, 비협조에 대한 표적 처벌 개념은 데이터 샘플을 제공하지 못하는 노드에 적용되어 데이터 가용성 보장의 보안을 향상시킬 수 있습니다.
크로스체인 통신: 다른 체인들의 증명으로 구성된 DAG에서, 다른 체인의 사용 가능한 데이터를 무시하는 증명에 대해 보상을 할인함으로써, 크로스체인 브리지의 보안과 지연 시간을 개선할 수 있습니다.
연구 방향: 1) 인센티브 보안 속성의 형식적 검증. 2) 다양한 할인 함수 탐구(예: 비선형). 3) 병렬 블록 설정에서의 멤풀 역학 및 트랜잭션 수수료 시장과의 통합. 4) 테스트넷에서의 구현 및 실제 환경 테스트를 통한 실제 네트워크 조건 하에서의 이론 및 시뮬레이션 결과 검증.

9. 참고문헌

Nakamoto, S. (2008). Bitcoin: A Peer-to-Peer Electronic Cash System.
Garay, J., Kiayias, A., & Leonardos, N. (2015). The Bitcoin Backbone Protocol: Analysis and Applications. In EUROCRYPT.
Pass, R., Seeman, L., & Shelat, A. (2017). Analysis of the Blockchain Protocol in Asynchronous Networks. In EUROCRYPT.
Sompolinsky, Y., & Zohar, A. (2015). Secure High-Rate Transaction Processing in Bitcoin. In FC.
Eyal, I., & Sirer, E. G. (2014). Majority is not Enough: Bitcoin Mining is Vulnerable. In FC.
Nayak, K., Kumar, S., Miller, A., & Shi, E. (2016). Stubborn Mining: Generalizing Selfish Mining and Combining with an Eclipse Attack. In IEEE S&P.
Tsabary, I., & Eyal, I. (2018). The Gap Game. In CCS.
Tailstorm 참고문헌: [저자]. (연도). Tailstorm: [부제]. In [학회]. (PDF에서 언급된 Tailstorm [12]를 모델로 한 참고문헌).
병렬 작업 증명 참고문헌: [저자]. (연도). Parallel Proof-of-Work. In [학회]. (PDF에서 언급된 PPoW [13]를 모델로 한 참고문헌).
OpenAI. (2019). Competitive Self-Play. OpenAI Blog. [RL 다중 에이전트 분석 방법론에 대한 외부 출처].
Goodfellow, I., et al. (2014). Generative Adversarial Nets. NeurIPS. [적대적 훈련 개념에 대한 외부 출처].
Buterin, V. (2021). Why sharding is great: demystifying the technical properties. Ethereum Foundation Blog. [데이터 가용성 및 확장 맥락에 대한 외부 출처].