Prova de Trabalho Paralela com Votação em DAG e Desconto de Recompensa Direcionado: Uma Análise de Segurança

1. Introdução & Visão Geral

Este artigo apresenta um novo protocolo de criptomoeda baseado em Prova de Trabalho (PoW) que aborda limitações críticas do Bitcoin e de sua recente proposta de melhoria, o Tailstorm. A inovação central reside na combinação do consenso de Prova de Trabalho Paralela (PPoW) com votação estruturada em DAG e um novo mecanismo de Desconto de Recompensa Direcionado. O protocolo visa oferecer garantias de consistência superiores, maior vazão de transações, menor latência de confirmação e resiliência significativamente melhorada contra ataques de incentivo racional em comparação com sistemas existentes.

O trabalho é motivado pela dependência circular nas criptomoedas PoW entre algoritmos de consenso e esquemas de incentivo. Embora a segurança do Bitcoin seja bem compreendida, muitos protocolos mais recentes carecem de uma análise minuciosa tanto da consistência quanto dos incentivos. O Tailstorm melhorou o Bitcoin usando PPoW com votos estruturados em árvore e desconto uniforme de recompensa. Este artigo identifica duas deficiências principais no Tailstorm: (1) estruturas em árvore deixam alguns votos (e suas transações) não confirmados por bloco, e (2) a punição uniforme penaliza injustamente os mineradores honestos por atrasos causados por outros. A solução baseada em DAG proposta visa diretamente essas falhas.

2. Design Central do Protocolo

2.1 Fundamentos da Prova de Trabalho Paralela (PPoW)

A Prova de Trabalho Paralela é um esquema de consenso que exige um número configurável $k$ de "votos" (ou blocos) PoW a serem minerados antes que o próximo bloco principal possa ser anexado à cadeia. Isso contrasta com o modelo de cadeia única do Bitcoin. Cada voto contém transações. Essa estrutura fornece inerentemente garantias de consistência mais fortes; por exemplo, com suposições realistas de rede, uma confirmação de 10 minutos na PPoW pode ter uma probabilidade de falha de gasto duplo aproximadamente 50 vezes menor que a do Bitcoin.

2.2 Da Árvore para o DAG: Estruturação dos Votos

O Tailstorm estruturou os $k$ votos dentro de uma rodada paralela como uma árvore. O protocolo proposto substitui a árvore por um Grafo Acíclico Direcionado (DAG). Em uma árvore, um minerador deve escolher um único voto pai para estender, criando ramificações. Em um DAG, um novo voto pode referenciar múltiplos votos anteriores como pais, desde que não criem um ciclo. Isso permite que mais votos sejam confirmados dentro da mesma rodada, reduzindo a latência para uma fração maior de transações e melhorando a vazão geral.

2.3 Mecanismo de Desconto de Recompensa Direcionado

O Tailstorm descontava as recompensas de mineração uniformemente com base na profundidade da árvore de votos, punindo todos os mineradores de uma rodada por árvores profundas (indicativas de problemas de rede ou ataques). O novo protocolo implementa o desconto direcionado. A recompensa pelo voto de um minerador é descontada com base na falta específica de referências em sua estrutura DAG. Um voto que falha em referenciar outros votos disponíveis (aumentando a "não linearidade") recebe uma penalidade maior. Isso pune precisamente o(s) minerador(es) responsável(is) pela baixa conectividade ou retenção maliciosa, e não o coletivo.

3. Análise de Segurança & Incentivos

3.1 Modelo de Ameaça & Vetores de Ataque

A análise considera mineradores racionais motivados pela maximização do lucro. Os principais vetores de ataque incluem mineração egoísta, retenção de blocos e exploração de atrasos de rede para induzir não linearidade e roubar recompensas de mineradores honestos. O artigo observa uma descoberta crítica: a PPoW sem desconto de recompensa pode ser menos resiliente a ataques de incentivo do que o Bitcoin sob certas condições de rede, destacando a necessidade de um mecanismo de incentivo bem projetado.

3.2 Busca de Ataques com Aprendizado por Reforço

Para avaliar rigorosamente a resiliência a ataques, os autores empregam agentes de Aprendizado por Reforço (RL) para buscar estratégias de ataque ótimas contra o protocolo. O ambiente de RL simula o processo de mineração, atrasos de rede e as regras de recompensa do protocolo. Os agentes aprendem políticas para maximizar sua participação na recompensa. Essa metodologia, inspirada em abordagens para analisar sistemas de ML adversariais, como os discutidos na pesquisa da OpenAI sobre competição multiagente, fornece uma maneira mais robusta e automatizada de descobrir vetores de ataque sutis em comparação com a análise manual.

3.3 Comparação de Resiliência: Bitcoin vs. Tailstorm vs. DAG-PPoW

A busca de ataques baseada em RL demonstra que o DAG-PPoW proposto com desconto direcionado é mais resiliente do que tanto o Bitcoin quanto o Tailstorm. O desconto direcionado torna não lucrativo para os atacantes causar não linearidade intencional, pois eles arcam com o peso da penalidade. A estrutura DAG também reduz a oportunidade para tais ataques, permitindo mais referências por voto.

Descoberta de Segurança Chave

Limiar de Lucratividade do Ataque: O poder de hash necessário para um ataque de incentivo lucrativo é significativamente maior no DAG-PPoW com desconto direcionado em comparação com o desconto uniforme do Tailstorm e a PPoW básica.

4. Avaliação de Desempenho

4.1 Garantias de Consistência & Finalidade

Ao exigir $k$ votos por bloco, a PPoW fornece finalidade probabilística com uma função de decaimento de segurança muito mais acentuada do que a do Bitcoin. A probabilidade de um gasto duplo bem-sucedido após $n$ confirmações diminui aproximadamente como $O(exp(-k \cdot n))$ em comparação com $O(exp(-n))$ do Bitcoin, sob suposições similares de maioria honesta.

4.2 Melhorias na Vazão & Latência

A vazão aumenta linearmente com o número de votos $k$, pois cada voto carrega um bloco completo de transações. A latência é reduzida porque as transações nos votos anteriores de um DAG podem ser confirmadas por votos posteriores na mesma rodada, diferentemente de uma árvore, onde alguns ramos devem aguardar o próximo bloco.

4.3 Resultados Experimentais & Descrição do Gráfico

Resultados da Simulação (Conceitual): Um gráfico chave plotaria "Probabilidade de Falha de Gasto Duplo vs. Tempo de Confirmação" para Bitcoin, Tailstorm e DAG-PPoW. A curva do DAG-PPoW cairia mais rapidamente, demonstrando consistência superior. Outro gráfico mostraria "Receita Relativa do Atacante vs. Poder de Hash do Atacante" para os três protocolos sob um modelo específico de atraso de rede. A curva do DAG-PPoW permaneceria abaixo da linha de equilíbrio (y=1) para uma faixa mais ampla de poder de hash do atacante, mostrando maior resiliência.

Saída da Busca de Ataques RL: Os resultados mostrariam a política aprendida pelo agente de RL convergindo para uma estratégia de "sem ataque" para o DAG-PPoW sob condições mais amplas, enquanto encontra desvios lucrativos para o Tailstorm e a PPoW básica.

5. Detalhes Técnicos de Implementação

5.1 Formulação Matemática

O desconto de recompensa direcionado pode ser formalizado. Seja $V_i$ um voto em uma rodada. Seja $R_{base}$ a recompensa base. Seja $P(V_i)$ o conjunto de votos que eram publicamente visíveis e válidos para $V_i$ referenciar, mas que não foram referenciados. O fator de desconto $d_i$ para $V_i$ poderia ser:

$d_i = 1 - \alpha \cdot \frac{|P(V_i)|}{N_{visible}}$

onde $\alpha$ é um parâmetro do protocolo (0 < $\alpha$ ≤ 1) que controla a severidade da punição, e $N_{visible}$ é o número total de votos visíveis que ele poderia ter referenciado. A recompensa final é $R_i = R_{base} \cdot d_i$. Isso cria um desincentivo econômico direto contra a retenção de referências.

5.2 Construção & Validação do DAG

Ao criar um voto, um minerador inclui os hashes de todos os votos válidos da rodada atual que recebeu (seus "pais"), sujeito a um limite máximo ou custo semelhante a "gas" para evitar spam. O DAG para uma rodada é a união de todos os votos e suas arestas de referência. A validação envolve verificar o PoW em cada voto, garantir que todos os pais referenciados existam e sejam válidos, e verificar que nenhum ciclo seja criado (uma ordenação topológica deve ser possível).

6. Exemplo de Caso do Framework de Análise

Cenário: Avaliar o impacto de uma partição de rede de 20%.

Aplicação do Framework:

Modelo: Dividir os mineradores em dois grupos, A (80%) e B (20%), sem comunicação entre eles por uma rodada.
Árvore (Tailstorm): Cada grupo minera votos estendendo apenas os votos que veem, criando dois ramos separados e profundos. No final da rodada, o desconto de recompensa se aplica uniformemente a todos os votos com base na profundidade da árvore, punindo ambos os grupos igualmente.
DAG (Proposto): Dentro de cada partição, os mineradores ainda podem referenciar todos os votos que veem, criando dois sub-DAGs separados. Quando a partição é curada, o desconto é calculado por voto. Os votos no centro de cada sub-DAG (que referenciaram seus pares) recebem penalidade mínima. Apenas os votos nas bordas temporais de cada partição, que falharam em referenciar votos do outro lado que tecnicamente estavam "visíveis" apenas após a cura da partição (um ponto sutil), podem receber uma penalidade parcial. A punição é direcionada aos votos mais afetados pela partição, não ao coletivo.

Este caso mostra como o desconto direcionado aloca de forma mais justa a culpa/punição por problemas de rede.

7. Perspectiva do Analista Crítico

Insight Central: Este artigo não é apenas mais um ajuste incremental; é um ataque cirúrgico ao calcanhar de Aquiles do PoW de alta vazão: o ciclo incentivo-consenso. Os autores identificam corretamente que aumentar a vazão com paralelização (PPoW) cria inadvertidamente novas superfícies de ataque mais sutis para mineradores racionais. Sua percepção chave—de que a punição uniforme é tanto injusta quanto insegura—é profunda. Ela ecoa lições do design de mecanismos na economia: instrumentos contundentes criam incentivos perversos. A mudança para DAGs e penalidades direcionadas é uma aplicação direta da abordagem da "teoria dos preços" à segurança de blockchain, fazendo o atacante internalizar o custo de sua perturbação.

Fluxo Lógico: O argumento é convincente. 1) O Bitcoin é seguro, mas lento. 2) A PPoW (e o Tailstorm) aceleram, mas enfraquecem a segurança dos incentivos—uma compensação que muitos protocolos ignoram. 3) A causa raiz é o desalinhamento da punição no esquema de incentivos. 4) Solução: refinar a estrutura de dados (DAG) para permitir uma medição mais refinada da culpabilidade (quem não referenciou quem), e então vincular a punição diretamente a essa medição. O uso de RL para busca de ataques é o golpe de mestre, indo além de afirmações de segurança vagas para testes adversariais demonstráveis e automatizados. Essa metodologia deve ser um padrão ouro, assim como os rigorosos testes adversariais defendidos para sistemas de IA em artigos do arXiv (por exemplo, avaliações de robustez para redes neurais).

Pontos Fortes & Falhas:

Pontos Fortes: A combinação de um modelo teórico claro (DAG + desconto direcionado) com validação empírica via RL é excepcional. A descoberta de que a PPoW básica pode ser menos segura que o Bitcoin é um aviso crucial para a área. O design do protocolo é elegante e aborda diretamente as falhas declaradas.
Falhas & Questões em Aberto: A praticidade do artigo depende da percepção precisa e oportuna dos votos "visíveis" para o cálculo do desconto—um problema não trivial em redes assíncronas. Ele corre o risco de criar um "imposto de monitoramento de rede" onde os mineradores devem fazer gossip agressivamente para provar que viram os votos. A análise de RL, embora poderosa, é tão boa quanto seu modelo de ambiente; a dinâmica de rede do mundo real é mais confusa. Além disso, o protocolo adiciona complexidade significativa ao software do cliente e à lógica de validação, potencialmente dificultando a adoção.

Insights Acionáveis: Para pesquisadores: Adotar a busca de ataques baseada em RL como uma ferramenta padrão para avaliar novos protocolos de consenso. Para desenvolvedores: Ao projetar qualquer solução de escalonamento, primeiro modele os novos vetores de ataque de incentivo que ela cria. Para investidores/avaliadores de projetos: Examine qualquer protocolo que alegue alta vazão em busca de uma análise de incentivo igualmente rigorosa. Uma bandeira vermelha é um artigo que discute apenas TPS e finalidade sem uma seção dedicada à compatibilidade de incentivos sob adversidade de rede. Este trabalho estabelece um novo padrão.

8. Aplicações Futuras & Direções de Pesquisa

Protocolos de Consenso Híbridos: O esquema de votação baseado em DAG e punição direcionada poderia ser adaptado a sistemas baseados em comitê ou Prova de Participação (PoS), onde validadores produzem votos. Ele oferece uma maneira de penalizar validadores por falhas de vivacidade ou censura de forma mais precisa do que o simples "slashing".
Amostragem de Disponibilidade de Dados: Em arquiteturas de blockchain modulares, como o danksharding da Ethereum, o conceito de punição direcionada por não cooperação poderia ser aplicado a nós que falham em fornecer amostras de dados, melhorando a segurança das garantias de disponibilidade de dados.
Comunicação entre Cadeias: Um DAG de atestações de diferentes cadeias, com recompensas descontadas para atestações que ignoram dados disponíveis de outras, poderia melhorar a segurança e a latência de pontes entre cadeias.
Direções de Pesquisa: 1) Verificação formal das propriedades de segurança dos incentivos. 2) Exploração de diferentes funções de desconto (por exemplo, não lineares). 3) Integração com a dinâmica do mempool e mercados de taxas de transação em um ambiente de blocos paralelos. 4) Implementação e testes no mundo real em uma testnet para validar os resultados teóricos e de simulação sob condições reais de rede.

9. Referências

Nakamoto, S. (2008). Bitcoin: A Peer-to-Peer Electronic Cash System.
Garay, J., Kiayias, A., & Leonardos, N. (2015). The Bitcoin Backbone Protocol: Analysis and Applications. In EUROCRYPT.
Pass, R., Seeman, L., & Shelat, A. (2017). Analysis of the Blockchain Protocol in Asynchronous Networks. In EUROCRYPT.
Sompolinsky, Y., & Zohar, A. (2015). Secure High-Rate Transaction Processing in Bitcoin. In FC.
Eyal, I., & Sirer, E. G. (2014). Majority is not Enough: Bitcoin Mining is Vulnerable. In FC.
Nayak, K., Kumar, S., Miller, A., & Shi, E. (2016). Stubborn Mining: Generalizing Selfish Mining and Combining with an Eclipse Attack. In IEEE S&P.
Tsabary, I., & Eyal, I. (2018). The Gap Game. In CCS.
Referência do Tailstorm: [Autor(es)]. (Ano). Tailstorm: [Subtítulo]. In [Conferência]. (Referência modelada na menção do PDF ao Tailstorm [12]).
Referência da Prova de Trabalho Paralela: [Autor(es)]. (Ano). Parallel Proof-of-Work. In [Conferência]. (Referência modelada na menção do PDF à PPoW [13]).
OpenAI. (2019). Competitive Self-Play. OpenAI Blog. [Fonte externa para metodologia de análise multiagente RL].
Goodfellow, I., et al. (2014). Generative Adversarial Nets. NeurIPS. [Fonte externa para conceitos de treinamento adversarial].
Buterin, V. (2021). Why sharding is great: demystifying the technical properties. Ethereum Foundation Blog. [Fonte externa para contexto de disponibilidade de dados e escalonamento].