Prueba de Trabajo Paralela con Votación Estilo DAG y Descuento de Recompensa Dirigido: Un Análisis de Seguridad

1. Introducción y Visión General

Este artículo presenta un novedoso protocolo de criptomoneda basado en Prueba de Trabajo (PoW) que aborda limitaciones críticas de Bitcoin y de su mejora propuesta recientemente, Tailstorm. La innovación central radica en combinar el consenso de Prueba de Trabajo Paralela (PPoW) con una votación estructurada en DAG y un novedoso mecanismo de Descuento de Recompensa Dirigido. El protocolo tiene como objetivo ofrecer garantías de consistencia superiores, un mayor rendimiento de transacciones, una menor latencia de confirmación y una resiliencia significativamente mejorada contra ataques de incentivos racionales en comparación con los sistemas existentes.

Este trabajo está motivado por la dependencia circular en las criptomonedas PoW entre los algoritmos de consenso y los esquemas de incentivos. Si bien la seguridad de Bitcoin es bien comprendida, muchos protocolos más nuevos carecen de un análisis exhaustivo tanto de la consistencia como de los incentivos. Tailstorm mejoró a Bitcoin utilizando PPoW con votos estructurados en árbol y un descuento de recompensa uniforme. Este artículo identifica dos deficiencias clave en Tailstorm: (1) las estructuras de árbol dejan algunos votos (y sus transacciones) sin confirmar por bloque, y (2) el castigo uniforme penaliza injustamente a los mineros honestos por los retrasos causados por otros. La solución propuesta basada en DAG se dirige directamente a estas fallas.

2. Diseño Central del Protocolo

2.1 Fundamentos de la Prueba de Trabajo Paralela (PPoW)

La Prueba de Trabajo Paralela es un esquema de consenso que requiere que se minen un número configurable $k$ de "votos" (o bloques) de PoW antes de que el siguiente bloque principal pueda añadirse a la cadena. Esto contrasta con el modelo de cadena única de Bitcoin. Cada voto contiene transacciones. Esta estructura proporciona inherentemente garantías de consistencia más fuertes; por ejemplo, con supuestos de red realistas, una confirmación de 10 minutos en PPoW puede tener una probabilidad de fallo de doble gasto aproximadamente 50 veces menor que en Bitcoin.

2.2 Del Árbol al DAG: Estructuración de Votos

Tailstorm estructuró los $k$ votos dentro de una ronda paralela como un árbol. El protocolo propuesto reemplaza el árbol por un Grafo Acíclico Dirigido (DAG). En un árbol, un minero debe elegir un único voto padre para extender, creando ramas. En un DAG, un nuevo voto puede hacer referencia a múltiples votos anteriores como padres, siempre que no creen un ciclo. Esto permite que más votos se confirmen dentro de la misma ronda, reduciendo la latencia para una mayor fracción de transacciones y mejorando el rendimiento general.

2.3 Mecanismo de Descuento de Recompensa Dirigido

Tailstorm descontaba las recompensas de minería de manera uniforme según la profundidad del árbol de votos, castigando a todos los mineros de una ronda por árboles profundos (indicativos de problemas de red o ataques). El nuevo protocolo implementa un descuento dirigido. La recompensa por el voto de un minero se descuenta en función de la falta específica de referencias en su estructura DAG. Un voto que no hace referencia a otros votos disponibles (aumentando la "no linealidad") recibe una penalización mayor. Esto castiga precisamente al(los) minero(s) responsable(s) de la mala conectividad o la retención maliciosa, en lugar de al colectivo.

3. Análisis de Seguridad e Incentivos

3.1 Modelo de Amenazas y Vectores de Ataque

El análisis considera mineros racionales motivados por la maximización de ganancias. Los vectores de ataque clave incluyen minería egoísta, retención de bloques y explotación de retrasos de red para inducir no linealidad y robar recompensas a mineros honestos. El artículo señala un hallazgo crítico: la PPoW sin descuento de recompensa puede ser menos resistente a ataques de incentivos que Bitcoin bajo ciertas condiciones de red, destacando la necesidad de un mecanismo de incentivos bien diseñado.

3.2 Búsqueda de Ataques mediante Aprendizaje por Refuerzo

Para evaluar rigurosamente la resiliencia a ataques, los autores emplean agentes de Aprendizaje por Refuerzo (RL) para buscar estrategias de ataque óptimas contra el protocolo. El entorno de RL simula el proceso de minería, los retrasos de red y las reglas de recompensa del protocolo. Los agentes aprenden políticas para maximizar su participación en las recompensas. Esta metodología, inspirada en enfoques para analizar sistemas de aprendizaje automático adversarios como los discutidos en la investigación de OpenAI sobre competencia multiagente, proporciona una forma más robusta y automatizada de descubrir vectores de ataque sutiles en comparación con el análisis manual.

3.3 Comparación de Resiliencia: Bitcoin vs. Tailstorm vs. DAG-PPoW

La búsqueda de ataques basada en RL demuestra que la DAG-PPoW propuesta con descuento dirigido es más resistente que tanto Bitcoin como Tailstorm. El descuento dirigido hace que no sea rentable para los atacantes causar no linealidad intencional, ya que ellos soportan la mayor parte de la penalización. La estructura DAG también reduce la oportunidad para tales ataques al permitir más referencias por voto.

Hallazgo Clave de Seguridad

Umbral de Rentabilidad del Ataque: La tasa de hash requerida para un ataque de incentivos rentable es significativamente mayor en DAG-PPoW con descuento dirigido en comparación con el descuento uniforme de Tailstorm y la PPoW base.

4. Evaluación de Rendimiento

4.1 Garantías de Consistencia y Finalidad

Al requerir $k$ votos por bloque, PPoW proporciona finalidad probabilística con una función de decaimiento de seguridad mucho más pronunciada que Bitcoin. La probabilidad de un doble gasto exitoso después de $n$ confirmaciones disminuye aproximadamente como $O(exp(-k \cdot n))$ en comparación con $O(exp(-n))$ de Bitcoin, bajo supuestos similares de mayoría honesta.

4.2 Mejoras en Rendimiento y Latencia

El rendimiento aumenta linealmente con el número de votos $k$, ya que cada voto lleva un bloque completo de transacciones. La latencia se reduce porque las transacciones en votos anteriores de un DAG pueden ser confirmadas por votos posteriores en la misma ronda, a diferencia de un árbol donde algunas ramas deben esperar al siguiente bloque.

4.3 Resultados Experimentales y Descripción del Gráfico

Resultados de Simulación (Conceptuales): Un gráfico clave representaría la "Probabilidad de Fracaso de Doble Gasto vs. Tiempo de Confirmación" para Bitcoin, Tailstorm y DAG-PPoW. La curva de DAG-PPoW caería más rápido, demostrando una consistencia superior. Otro gráfico mostraría los "Ingresos Relativos del Atacante vs. Tasa de Hash del Atacante" para los tres protocolos bajo un modelo específico de retraso de red. La curva de DAG-PPoW permanecería por debajo de la línea de equilibrio (y=1) para un rango más amplio de tasa de hash del atacante, mostrando una mayor resiliencia.

Salida de la Búsqueda de Ataques RL: Los resultados mostrarían que la política aprendida por el agente RL converge a una estrategia de "no ataque" para DAG-PPoW bajo condiciones más amplias, mientras encuentra desviaciones rentables para Tailstorm y la PPoW base.

5. Detalles de Implementación Técnica

5.1 Formulación Matemática

El descuento de recompensa dirigido puede formalizarse. Sea $V_i$ un voto en una ronda. Sea $R_{base}$ la recompensa base. Sea $P(V_i)$ el conjunto de votos que eran públicamente visibles y válidos para que $V_i$ los referenciara pero que no fueron referenciados. El factor de descuento $d_i$ para $V_i$ podría ser:

$d_i = 1 - \alpha \cdot \frac{|P(V_i)|}{N_{visible}}$

donde $\alpha$ es un parámetro del protocolo (0 < $\alpha$ ≤ 1) que controla la severidad del castigo, y $N_{visible}$ es el número total de votos visibles que podría haber referenciado. La recompensa final es $R_i = R_{base} \cdot d_i$. Esto crea un desincentivo económico directo contra la retención de referencias.

5.2 Construcción y Validación del DAG

Al crear un voto, un minero incluye los hashes de todos los votos válidos de la ronda actual que ha recibido (sus "padres"), sujeto a un límite máximo o un costo similar al gas para prevenir spam. El DAG para una ronda es la unión de todos los votos y sus aristas de referencia. La validación implica verificar el PoW en cada voto, asegurar que todos los padres referenciados existen y son válidos, y verificar que no se crean ciclos (debe ser posible un ordenamiento topológico).

6. Ejemplo de Caso del Marco de Análisis

Escenario: Evaluar el impacto de una partición de red del 20%.

Aplicación del Marco:

Modelo: Dividir a los mineros en dos grupos, A (80%) y B (20%), sin comunicación entre ellos durante una ronda.
Árbol (Tailstorm): Cada grupo mina votos extendiendo solo los votos que ven, creando dos ramas profundas y separadas. Al final de la ronda, el descuento de recompensa se aplica uniformemente a todos los votos según la profundidad del árbol profundo, castigando a ambos grupos por igual.
DAG (Propuesto): Dentro de cada partición, los mineros aún pueden referenciar todos los votos que ven, creando dos sub-DAGs separados. Cuando la partición se cura, el descuento se calcula por voto. Los votos en el centro de cada sub-DAG (que referenciaron a sus pares) reciben una penalización mínima. Solo los votos en los bordes temporales de cada partición, que no referenciaron votos del otro lado que técnicamente eran "visibles" solo después de que la partición se curó (un punto matizado), podrían recibir una penalización parcial. El castigo está dirigido a los votos más afectados por la partición, no al colectivo.

Este caso muestra cómo el descuento dirigido asigna de manera más justa la culpa/castigo por problemas de red.

7. Perspectiva Crítica del Analista

Perspicacia Central: Este artículo no es solo otro ajuste incremental; es un golpe quirúrgico al talón de Aquiles del PoW de alto rendimiento: el bucle incentivo-consenso. Los autores identifican correctamente que aumentar el rendimiento con paralelización (PPoW) crea inadvertidamente nuevas superficies de ataque más matizadas para mineros racionales. Su idea clave—que el castigo uniforme es tanto injusto como inseguro—es profunda. Hace eco de lecciones del diseño de mecanismos en economía: los instrumentos contundentes crean incentivos perversos. El paso a DAGs y penalizaciones dirigidas es una aplicación directa del enfoque de "teoría de precios" a la seguridad de blockchain, haciendo que el atacante internalice el costo de su interrupción.

Flujo Lógico: El argumento es convincente. 1) Bitcoin es seguro pero lento. 2) PPoW (y Tailstorm) lo aceleran pero debilitan la seguridad de incentivos—una compensación que muchos protocolos pasan por alto. 3) La causa raíz es el castigo desalineado en el esquema de incentivos. 4) Solución: refinar la estructura de datos (DAG) para permitir una medición más granular de la culpabilidad (quién no referenció a quién), y luego vincular el castigo directamente a esa medición. El uso de RL para la búsqueda de ataques es el golpe maestro, yendo más allá de las afirmaciones de seguridad vagas hacia pruebas adversarias automatizadas y demostrables. Esta metodología debería ser un estándar de oro, similar a las rigurosas pruebas adversarias defendidas para sistemas de IA en artículos de arXiv (por ejemplo, evaluaciones de robustez para redes neuronales).

Fortalezas y Defectos:

Fortalezas: La combinación de un modelo teórico claro (DAG + descuento dirigido) con validación empírica mediante RL es excepcional. El hallazgo de que la PPoW básica puede ser menos segura que Bitcoin es una advertencia crucial para el campo. El diseño del protocolo es elegante y aborda directamente las fallas declaradas.
Defectos y Preguntas Abiertas: La practicidad del artículo depende de la percepción precisa y oportuna de los votos "visibles" para el cálculo del descuento—un problema no trivial en redes asíncronas. Se arriesga a crear un "impuesto de monitoreo de red" donde los mineros deben difundir agresivamente para probar que vieron los votos. El análisis RL, aunque poderoso, es tan bueno como su modelo de entorno; la dinámica de red del mundo real es más desordenada. Además, el protocolo añade una complejidad significativa al software cliente y la lógica de validación, lo que podría dificultar la adopción.

Perspectivas Accionables: Para investigadores: Adoptar la búsqueda de ataques basada en RL como una herramienta estándar para evaluar nuevos protocolos de consenso. Para desarrolladores: Al diseñar cualquier solución de escalado, primero modelar los nuevos vectores de ataque de incentivos que crea. Para inversores/evaluadores de proyectos: Examinar cualquier protocolo que afirme alto rendimiento en busca de un análisis de incentivos igualmente riguroso. Una señal de alerta es un artículo que solo discute TPS y finalidad sin una sección dedicada a la compatibilidad de incentivos bajo adversidad de red. Este trabajo establece un nuevo listón.

8. Aplicaciones Futuras y Direcciones de Investigación

Protocolos de Consenso Híbridos: El esquema de votación basado en DAG y castigo dirigido podría adaptarse a sistemas basados en comités o Prueba de Participación (PoS) donde los validadores producen votos. Ofrece una forma de penalizar a los validadores por fallos de actividad o censura de manera más precisa que el simple recorte (slashing).
Muestreo de Disponibilidad de Datos: En arquitecturas de blockchain modulares como el danksharding de Ethereum, el concepto de castigo dirigido por no cooperación podría aplicarse a nodos que no proporcionan muestras de datos, mejorando la seguridad de las garantías de disponibilidad de datos.
Comunicación entre Cadenas: Un DAG de atestaciones de diferentes cadenas, con recompensas descontadas para atestaciones que ignoran datos disponibles de otras, podría mejorar la seguridad y la latencia de los puentes entre cadenas.
Direcciones de Investigación: 1) Verificación formal de las propiedades de seguridad de incentivos. 2) Exploración de diferentes funciones de descuento (por ejemplo, no lineales). 3) Integración con la dinámica del mempool y los mercados de tarifas de transacción en un entorno de bloques paralelos. 4) Implementación y pruebas en el mundo real en una testnet para validar los resultados teóricos y de simulación bajo condiciones reales de red.

9. Referencias

Nakamoto, S. (2008). Bitcoin: A Peer-to-Peer Electronic Cash System.
Garay, J., Kiayias, A., & Leonardos, N. (2015). The Bitcoin Backbone Protocol: Analysis and Applications. In EUROCRYPT.
Pass, R., Seeman, L., & Shelat, A. (2017). Analysis of the Blockchain Protocol in Asynchronous Networks. In EUROCRYPT.
Sompolinsky, Y., & Zohar, A. (2015). Secure High-Rate Transaction Processing in Bitcoin. In FC.
Eyal, I., & Sirer, E. G. (2014). Majority is not Enough: Bitcoin Mining is Vulnerable. In FC.
Nayak, K., Kumar, S., Miller, A., & Shi, E. (2016). Stubborn Mining: Generalizing Selfish Mining and Combining with an Eclipse Attack. In IEEE S&P.
Tsabary, I., & Eyal, I. (2018). The Gap Game. In CCS.
Referencia de Tailstorm: [Autor(es)]. (Año). Tailstorm: [Subtítulo]. In [Conferencia]. (Referencia modelada según la mención de Tailstorm [12] en el PDF).
Referencia de Prueba de Trabajo Paralela: [Autor(es)]. (Año). Parallel Proof-of-Work. In [Conferencia]. (Referencia modelada según la mención de PPoW [13] en el PDF).
OpenAI. (2019). Competitive Self-Play. OpenAI Blog. [Fuente externa para la metodología de análisis multiagente RL].
Goodfellow, I., et al. (2014). Generative Adversarial Nets. NeurIPS. [Fuente externa para conceptos de entrenamiento adversario].
Buterin, V. (2021). Why sharding is great: demystifying the technical properties. Ethereum Foundation Blog. [Fuente externa para contexto de disponibilidad de datos y escalado].